name: portada layout: true class: portada-slide, middle, right --- # Conjunts de dades ## Introducció al Machine Learning .footnote[Joan Puigcerver Ibáñez] --- layout: true class: regular-slide .right[.logo[]] --- # Índex - __Representació dels objectes__ - __Conjunts de dades__ - __Overfitting i underfitting__ --- # Representació dels objectes - __Sensors__: càmera, micròfon, bàscula, ... - __Senyals__: Fitxer d'imatge, gravació, ... - __Representació (_x_):__ Vector de característiques, seqüencia de símbols, ...
graph LR id["Objecte real"] -- Sensors --> Adquisició -- Senyal --> Representació -- X --> Reconeixement
--- # Representació dels objectes L'objectiu de l'extracció de característiques és capturar i representar la informació discriminativa de l'objecte. La representació d'aquestes característiques és una representació formal: vector de característiques o una estructura més complexa. $$ x_i = \[ {x_i}_0, {x_i}_1, ..., {x_i}_n \] $$ Per l'aprenentatge .blue[supervisat], el sistema aprèn apartir de dades .blue[etiquetades] $$ (x_0, c_0), (x_1, c_1), ..., (x_n, c_n) $$ --- # Representació dels objectes ## Exemples datasets: - XXX (Classificació): - YYY (Regressió): --- # Conjunts de dades Es fragmenta (aleatoriament) en 3 subconjunts: - Conjunt d'.blue[entrenament] (training): El sistema .blue[aprèn]. - Conjunt d'.blue[validació] (validation): El sistema s'.blue[evalua] - Conjunt d'.blue[test] (test): El sistema es .blue[prova] Les dades d'entrenament han de ser .blue[representatives] El conjunt de validació es sol incloure dins del test d'entrenament El conjunt de test permet conèixer si el sistema generalitza correctament amb dades desconegudes per ell. Normalment, la divisió de les dades és ~80% per entrenament + validació i ~20% per test. --- # Underfitting i Overfitting ## Optimització vs Generalització L'.blue[optimització] és com s'ajusta el model a les dades d'entrenament. La .blue[generalització] és com es comporta el model davant de dades encara no processades.  --- # Underfitting i Overfitting 