Dades Estandaritzades

Les dades estandarditzades són aquelles que han estat transformades per tenir una mitjana de 0 i una desviació estàndard de 1. Aquest procés s’anomena estandardització o normalització Z i s’utilitza per comparar dades que tenen escales diferents.

 Com es calcula?

Per estandarditzar una dada xix_i d’un conjunt de dades, s’aplica la següent fórmula:

z_i=x_i−μ</span></span></span><span class="katex-display"><span class="katex"><span class="katex-mathml">σz_i = \frac{x_i - \mu}{\sigma}</span><span class="katex-html" aria-hidden="true"><span class="base"><span class="mord"><span class="mord mathnormal">z</span><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist"><span class="sizing reset-size6 size3 mtight"><span class="mord mathnormal mtight">i</span></span></span><span class="vlist-s">​</span></span></span></span></span><span class="mrel">=</span></span></span></span></span><span class="katex-display"><span class="katex"><span class="katex-html" aria-hidden="true"><span class="base"><span class="mord"><span class="mfrac"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist"><span class="mord mathnormal">σ</span><span class="mord mathnormal">x</span><span class="msupsub"><span class="sizing reset-size6 size3 mtight"><span class="mord mathnormal mtight">i</span></span><span class="vlist-s">​</span></span><span class="mbin">−</span><span class="mord mathnormal">μ

On:

  • xix_i és el valor original de la dada.
  • μ\mu és la mitjana de la distribució.
  • σ\sigma és la desviació estàndard de la distribució.
  • ziz_i és el valor estandarditzat (també anomenat Z-score o puntuació Z).

Per què serveix?

  1. Fer comparacions: Permet comparar dades provinents de distribucions diferents. Per exemple, si vols comparar notes d’exàmens amb escales diferents (com un sobre 10 i un altre sobre 100), l’estandardització permet expressar-los en una mateixa escala.
  2. Detectar valors atípics: Els valors amb puntuacions Z molt altes o molt baixes (per exemple, majors de 3 o menors de -3) poden ser dades atípiques.
  3. Millorar el rendiment d’algoritmes: En aprenentatge automàtic, molts models (com regressió logística, k-means o xarxes neuronals) funcionen millor quan les dades estan estandarditzades.

Exemple pràctic

Suposem que tenim les notes d’un examen:

{60,70,80,90,100}\{60, 70, 80, 90, 100\}

La mitjana μ\mu és 80, i la desviació estàndard σ\sigma és 15.81.

Si volem estandarditzar la nota 90, fem:

z=90−8015.81=1015.81=0.63z = \frac{90 – 80}{15.81} = \frac{10}{15.81} = 0.63

Això vol dir que la nota 90 està 0.63 desviacions estàndard per sobre de la mitjana.