Machine Learning non supervisé#
Réduction de dimension#
L”Analyse en Composantes Principales
est le procédé le plus connu pour réduire les dimensions.
Supposons qu’on doive résoudre un problème de régression
où
contient n variables. Réduire les dimensions consiste
à construire
variables fonctions
des premières dont on se sert ensuite pour construire
la régression :
.
On s’en sert pour deux raisons :
Avoir une fonction f plus simple puisque moins de variables,
Construire d’autres variables
moins bruitées, donc plus performantes.
Une façon de construire p consiste à minimiser la
perte d’information : .
La fonction p linéaire correspond à l’analyse
en composantes principales.
Clustering#
L’algorithme le plus connu est un des plus simples est l’alogorithme des centres mobiles ou k-means. Il suppose que les points appartiennent à un espace vectoriel donc on peut calculer un barycentre.
Il n’est pas toujours possible de calculer un barycentre, l’espace considéré n’est pas vectoriel, juste métrique : il existe une distance. Le tableau clustering liste de nombreuses options ainsi que les hypothèses faites sur les points à clusteriser.
Selon la nature des données, on peut penser aussi à des méthodes comme Latent Dirichlet Allocation.
La suite est un exemple d’utilisation de ce type d’algorithme : City bike in Chicago.
Exercice#
Le notebook suivant se propose de d’étudier le comportement des cyclistes dans la ville de Chicago et d’en déduire leurs habitudes à l’aide d’une méthode de clustering : Clustering.