Salta el contingut
 

Reduccio de la dimensionalitat

Autor: Joan Puigcerver Ibáñez

Correu electrònic: j.puigcerveribanez@edu.gva.es

Llicència: CC BY-NC-SA 4.0

(Reconeixement - NoComercial - CompartirIgual) 🅭

Reducció de la dimensionalitat

S'entén com reducció de dimensionalitat les diferents tècniques que permeten reduir el nombre de característiques o variables d'un conjunt de dades, però tractant de mantindre la major part de la informació.

Reduir la dimensionalitat pot ser útil per millorar el rendiment dels algoritmes d'aprenentatge automàtic, ja que permet:

  • Simplificar el model, que a més serà més fàcil d'interpretar.
  • Reduir els requeriments computacionals i temps de càlcul.
  • Evitar que les dades siguen excessivament disperses.

Tècniques de reducció de dimensionalitat

Les tècniques de reducció de dimensionalitat es poden dividir en dos grans grups:

  • Selecció de característiques (feature selection): Consisteix en seleccionar un subconjunt de les característiques originals.

    La principal premisa és que no totes les característiques són rellevants per a la tasca de predicció, ja que les dades poden contindre característiques que són irrelevants o redundants. Aquestes característiques poden ser eliminades sense afectar la informació del conjunt de dades.

  • Extracció de característiques (feature extraction): Consisteix en transformar les característiques originals en un nou conjunt de característiques, que són una combinació de les característiques originals. Aquestes noves característiques són anomenades components i emmagatzemen la major part de la informació de les característiques originals.

Selecció de característiques

Dins de les tècniques de selecció de característiques, podem classificar-les en diferents categories:

  • Métodes de filtre: Són mètodes que analitzen la relevància de les característiques a partir d'una funció sobre les dades. Aquesta funció pot ser una mesura estadística com la variança o la correlació, i és independent de l'algoritme d'aprenentatge automàtic que s'utilitzarà.

    Aquests mètodes poden ser:

    • Univariats, que analitzen les característiques de manera individual.

      Exemple VarianceThreshold: Elimina les característiques amb baixa variància.

    • Multivariats, que analitzen les característiques de manera conjunta.

      Exemple Correlation-based Feature Selection: Elimina les característiques amb alta correlació.

  • Mètodes d'envoltura: Són mètodes que seleccionen les característiques basant-se en el rendiment d'un model d'aprenentatge automàtic.

    Aquests mètodes poden ser:

Extracció de característiques

Alguns dels mètodes més comuns d'extracció de característiques numèriques són:

  • PCA (Principal Component Analysis): És una tècnica de reducció de dimensionalitat que transforma les característiques originals en un nou conjunt de característiques no correlacionades anomenades components principals.

  • LDA (Linear Discriminant Analysis): És una tècnica de reducció de dimensionalitat que transforma les característiques originals en un nou conjunt de característiques que maximitzen la separació entre les classes.

Bibliografia