Les dades estandarditzades són aquelles que han estat transformades per tenir una mitjana de 0 i una desviació estàndard de 1. Aquest procés s’anomena estandardització o normalització Z i s’utilitza per comparar dades que tenen escales diferents.
Com es calcula?
Per estandarditzar una dada xix_i d’un conjunt de dades, s’aplica la següent fórmula:
On:
- xix_i és el valor original de la dada.
- μ\mu és la mitjana de la distribució.
- σ\sigma és la desviació estàndard de la distribució.
- ziz_i és el valor estandarditzat (també anomenat Z-score o puntuació Z).
Per què serveix?
- Fer comparacions: Permet comparar dades provinents de distribucions diferents. Per exemple, si vols comparar notes d’exàmens amb escales diferents (com un sobre 10 i un altre sobre 100), l’estandardització permet expressar-los en una mateixa escala.
- Detectar valors atípics: Els valors amb puntuacions Z molt altes o molt baixes (per exemple, majors de 3 o menors de -3) poden ser dades atípiques.
- Millorar el rendiment d’algoritmes: En aprenentatge automàtic, molts models (com regressió logística, k-means o xarxes neuronals) funcionen millor quan les dades estan estandarditzades.
Exemple pràctic
Suposem que tenim les notes d’un examen:
{60,70,80,90,100}\{60, 70, 80, 90, 100\}
La mitjana μ\mu és 80, i la desviació estàndard σ\sigma és 15.81.
Si volem estandarditzar la nota 90, fem:
z=90−8015.81=1015.81=0.63z = \frac{90 – 80}{15.81} = \frac{10}{15.81} = 0.63
Això vol dir que la nota 90 està 0.63 desviacions estàndard per sobre de la mitjana.