Machine Learning non supervisé#
Réduction de dimension#
L”Analyse en Composantes Principales est le procédé le plus connu pour réduire les dimensions. Supposons qu’on doive résoudre un problème de régression où contient n variables. Réduire les dimensions consiste à construire variables fonctions des premières dont on se sert ensuite pour construire la régression : . On s’en sert pour deux raisons :
Avoir une fonction f plus simple puisque moins de variables,
Construire d’autres variables moins bruitées, donc plus performantes.
Une façon de construire p consiste à minimiser la perte d’information : . La fonction p linéaire correspond à l’analyse en composantes principales.
Clustering#
L’algorithme le plus connu est un des plus simples est l’alogorithme des centres mobiles ou k-means. Il suppose que les points appartiennent à un espace vectoriel donc on peut calculer un barycentre.
Il n’est pas toujours possible de calculer un barycentre, l’espace considéré n’est pas vectoriel, juste métrique : il existe une distance. Le tableau clustering liste de nombreuses options ainsi que les hypothèses faites sur les points à clusteriser.
Selon la nature des données, on peut penser aussi à des méthodes comme Latent Dirichlet Allocation.
La suite est un exemple d’utilisation de ce type d’algorithme : City bike in Chicago.
Exercice#
Le notebook suivant se propose de d’étudier le comportement des cyclistes dans la ville de Chicago et d’en déduire leurs habitudes à l’aide d’une méthode de clustering : Clustering.