Els mètodes de filtre són una tècnica de reducció de dimensionalitat
basada en la selecció de característiques que analitzen la relevància de
les característiques a partir d'una funció sobre les dades.
L'umbral de variància és una tècnica de filtre univariada que es
basa en eliminar les característiques amb baixa variància,
ja que aquestes no aporten informació rellevant al model.
La classe VarianceThreshold de scikit-learn permet eliminar les característiques
amb baixa variància.
La selecció de característiques basada en correlació és una tècnica de filtre
multivariada que elimina les característiques amb alta correlació,
ja que aquestes aporten la mateixa informació al model.
Per eliminar les característiques amb alta correlació, cal seguir els següents passos:
Obtindre la matriu de correlació de les característiques.
corr_matrix=X_train.corr().abs()
Seleccionar la part superior de la matriu de correlació,
ja que la matriu és simètrica i la diagonal principal conté
la correlació de cada característica amb ella mateixa.