Machine Learning non supervisé

Réduction de dimension

L”Analyse en Composantes Principales est le procédé le plus connu pour réduire les dimensions. Supposons qu’on doive résoudre un problème de régression y=f(X)+\epsilonX=(x_1,...,x_n) contient n variables. Réduire les dimensions consiste à construire m < n variables fonctions des premières dont on se sert ensuite pour construire la régression : y = f(p(X)) + \epsilon. On s’en sert pour deux raisons :

  • Avoir une fonction f plus simple puisque moins de variables,

  • Construire d’autres variables p(X) moins bruitées, donc plus performantes.

Une façon de construire p consiste à minimiser la perte d’information : \norme{p^{-1}(p(X)) - X}. La fonction p linéaire correspond à l’analyse en composantes principales.

Clustering

L’algorithme le plus connu est un des plus simples est l’alogorithme des centres mobiles ou k-means. Il suppose que les points appartiennent à un espace vectoriel donc on peut calculer un barycentre.

Il n’est pas toujours possible de calculer un barycentre, l’espace considéré n’est pas vectoriel, juste métrique : il existe une distance. Le tableau clustering liste de nombreuses options ainsi que les hypothèses faites sur les points à clusteriser.

Selon la nature des données, on peut penser aussi à des méthodes comme Latent Dirichlet Allocation.

La suite est un exemple d’utilisation de ce type d’algorithme : City bike in Chicago.

Exercice

Le notebook suivant se propose de d’étudier le comportement des cyclistes dans la ville de Chicago et d’en déduire leurs habitudes à l’aide d’une méthode de clustering : Clustering.