| ||||||||||||||||||
Estadística bàsica¶L'aprenentatge automàtic està basat en models matemàtics i estadístics. Per això, és important tindre una base sòlida en estadística per entendre el funcionament dels algoritmes d'aprenentatge automàtic i analitzar els resultats obtinguts. L'estadística és una disciplina que estudia la recopilació, anàlisi i interpretació de dades. En aquests apunts veurem operacions bàsiques com la mitjana, la mediana, la moda, la desviació estàndard i la variància. Mitjana aritmètica (\(\bar{X}\))¶La mitjana aritmètica és el valor obtingut en sumar tots els valors d'una mostra i dividir-los pel nombre total de valors. \[
\bar{X} = \frac{1}{N} \sum_{i=1}^{N} x_i
\]
Exemple Donades les edats d'un grup de persones \(X = \{ 20, 20, 50, 60, 80 \}\), la mitjana aritmètica és: \[
\bar{X} = \frac{1}{5} (20 + 20 + 50 + 60 + 80) = 46
\]
Exemple amb Pandas
Exemple mitjana d'una fila Amb l'anterior Exemple mitjana d'una columna De la mateixa manera, podem calcular la mitjana d'una columna. Mediana (\(\tilde{X}\))¶La mediana és el valor que divideix la mostra en dues parts iguals, és a dir, la meitat dels valors són més grans que la mediana i l'altra meitat són més xicotets. Per a calcular la mediana, primer s'ordenen els valors de la mostra de menor a major i es tria el valor central.
Exemple Donades les edats d'un grup de persones \(X = \{ 20, 20, 50, 60, 80 \}\), la mediana és: \[
\tilde{X} = 50
\]
Exemple amb Pandas Moda¶La moda és el valor que més vegades apareix en una mostra. Exemple Donades les edats d'un grup de persones \(X = \{ 20, 20, 50, 60, 80 \}\), la moda és: \[
\text{moda}(X) = 20
\]
Nota El mètode Si hi ha més d'una moda, el mètode retorna totes les modes. Exemple amb Pandas Variància (\(\sigma^2\))¶La variància és una mesura de la dispersió dels valors d'una mostra respecte a la mitjana. Es calcula com la mitjana dels quadrats de les diferències entre cada valor i la mitjana. \[
\sigma^2 = \frac{1}{N} \sum_{i=1}^{N} (x_i - \bar{X})^2
\]
Nota Les diferències són elevades al quadrat per a que siguen sempre positives. Exemple Donades les edats d'un grup de persones \(X = \{ 20, 20, 50, 60, 80 \}\), la variància és: \[
\sigma^2 = \frac{1}{5} ((20-46)^2 + (20-46)^2 + (50-46)^2 + (60-46)^2 + (80-46)^2) \\
\sigma^2 = \frac{1}{5} (676 + 676 + 16 + 196 + 1156) \\
\sigma^2 = \frac{2720}{5} = 544
\]
Exemple amb Pandas Desviació estàndard (\(\sigma\))¶La desviació estàndard és la arrel quadrada de la variància. Mesura la dispersió dels valors respecte a la mitjana, però indica la dispersió en les mateixes unitats que els valors. \[
\sigma = \sqrt{\sigma^2} = \sqrt{\frac{1}{N} \sum_{i=1}^{N} (x_i - \bar{X})^2}
\]
Exemple Donades les edats d'un grup de persones \(X = \{ 20, 20, 50, 60, 80 \}\), la desviació estàndard és: \[
\sigma = \sqrt{544} = 23.32
\]
Exemple amb Pandas Quantils¶Els quantils són mesures de posició que divideixen una mostra de manera que una proporció determinada de valors queda a cada costat del quantil. Els quantils més importants són els quartils, decils i percentils. Percentils¶Els percentils divideixen la mostra en cent parts iguals, cadascuna amb el 1% dels valors. És una de les mesures més utilitzades en estadística per a comparar valors. Quartils en Pandas
Quartils¶Els quartils divideixen la mostra en quatre parts iguals. Per tant, obtenim tres punts de tall: \(Q_1\), \(Q_2\) i \(Q_3\), corresponents als percentils 25%, 50% i 75%. Quartils en Pandas Decils¶Els decils divideixen la mostra en deu parts iguals, cadascuna amb el 10% dels valors. Decils en Pandas Unitat tipificada (standard-score)¶La unitat tipificada (standard-score o z-score) és una mesura que serveix per comparar una observació dins d'una distribució estadística. Aquesta unitat indiquen el nombre de desviacions típiques que una observació està per damunt o per davall de la mitjana. És molt útil per a comparar observacions de diferents distribucions, ja que el seu valor no depén de les unitats de les variables. La unitat tipificada es calcula com: \[z = \frac{x - \mu}{\sigma}\]
Exemple Donada la població de persones \(X={20,20,50,60,80}\):
Per cada observació de la població, calculem la unitat tipificada: \[
z_i = \frac{x_i - \mu}{\sigma}
\]
La població amb les seues unitats tipificades és: \[
Z = \{ -1.087, -1.087, 0.1673, 0.5858, 1.4226 \}
\]
Covariància¶La covariància és una mesura de la relació entre dues variables. \[
S_{XY} = \frac{1}{N - ddof} \sum_{i=1}^{N} (x_i - \bar{X}) (y_i - \bar{Y})
\]
on \(ddof\) és el grau de llibertat, que normalment és 1. Aquesta mesura indica si les dues variables són independents o si tenen una relació lineal.
La matriu de covariància és una taula que conté les covariàncies entre totes les parelles de variables d'un conjunt de dades. En Python, podem utilitzar la funció Per defecte, Covariància en Python
\[
M_{0,0} = \frac{1}{2 - 1}((5 - 3.5)(5 - 3.5) + (2 - 5)(2 - 5)) = 4.5 \\
M_{0,1} = \frac{1}{2 - 1}((5 - 3.5)(6 - 6) + (2 - 5)(6 - 6)) = 0.0 \\
M_{0,2} = \frac{1}{2 - 1}((5 - 3.5)(7 - 6.5) + (2 - 5)(9 - 6.5)) = -3.0 \\
...
\]
Correlació¶Similar a la covariància, la correlació és una mesura normalitzada de la relació entre dues variables. La diferència principal és que el valor de la covariància depèn de les unitats de les variables, i té una difícil interpretació. En canvi, la correlació \(r\) és un valor que oscil·la entre -1 i 1 en qualsevol cas, que facilita la seua interpretació.
Quan \(r\) més s'aproxima a 1 o -1, més forta és la relació entre les dues variables. Els tipus de correlació més comuns són Pearson, Rho de Spearman i Tau de Kendall. Correlació de Pearson¶La correlació de Pearson és la covariància calculada a partir de les unitats tipificades de les dues variables. Aquesta mesura funciona bé amb variables quantitatives que tenen una distribució normal o similar. És més sensible als valors extrems que les altres dues alternatives. \[
r_{xy} = S(z_x, z_y)
\]
Aquesta expressió s'expandeix com: \[
r_{xy} = \frac{1}{N} \sum_{i=1}^{N} \left( \frac{x_i - \bar{X}}{\sigma_X} \right) \left( \frac{y_i - \bar{Y}}{\sigma_Y} \right) \\
r_{xy} = \frac{1}{N} \frac{\sum_{i=1}^{N} (x_i - \bar{X})(y_i - \bar{Y})}{\sigma_X \sigma_Y}
\]
Arribant a la simplificació: \[
r_{xy} = \frac{S_{XY}}{\sigma_X \sigma_Y}
\]
Aquesta fórmula pots ser interpretada com la covariància dividida pel producte de les desviacions estàndard de les dues variables. En Python, podem utilitzar la funció Correlació de Pearson en Python Info
Correlació de Spearman¶La correlació de Spearman \(\rho\) (rho) és una mesura de la relació que utilitza la posició dels valors quan han sigut ordenats. Aquesta mesura és útil quan les dades no són lineals. La fórmula de la correlació de Spearman és: \[
\rho = 1 - \frac{6 \sum_{i=1}^{N} d_i^2}{N(N^2 - 1)}
\]
on \(d_i\) és la diferència entre les posicions de les dues variables. Correlació de Spearman en Python Correlació de Spearman Utilitzant les dades \(X = \{5, 2\}\) i \(Y = \{7, 9\}\) que corresponen
a les columnes 0 i 2 del Les posicions de les variables ordenades són:
La correlació de Spearman és: \[
\rho_{02} = 1 - \frac{6(1^2 + 1^2)}{2(2^2 - 1)} = 1 - \frac{12}{6} = 1 - 2 = -1
\]
Correlació de Kendall¶La correlació de Kendall \(\tau\) (tau) és una mesura de la relació que utilitza els rangs de les variables per a calcular la correlació. Aquesta mesura és preferible a la de Spearman quan hi ha molt poques dades i a més hi ha molts empats. La fórmula de la correlació de Kendall és: \[
\tau = \frac{C - D}{C + D}
\]
on:
Info Vegeu el vídeo Kendall's Tau Easily Explained per a una explicació detallada. Codi font¶
Recursos addicionals¶Bibliografia¶
| ||||||||||||||||||