Intuition derrière l'érosion des modèles

La plupart des modèles de machine learning doivent être rafraîchi régulièrement. Quelques intuitions derrière ce phénomène.

Des données très simples.

On simule un jeu de données pour une régression en deux dimensions : $y= \frac{x}{2}+1 + \epsilon$.

Régression linéaire

C'est le modèle idéal pour ces données.

C'est le graphe le plus classique qui soit. Mais on ne se pose jamais la question de ce qu'il se passe en dehors de l'intervalle initial.

Cela paraît plutôt censé de prolonger les prédictions en ce sens. Voyons ce qu'il se passe avec d'autres modèles.

Autres modèles

Essayons avec une autre fonction d'activation.

Si la prédiction est la même dans l'intervalle qui correspond aux données initiales, en dehors de celui-ci la prédiction est complètement différente. Voyons avec un arbre de décision ou une random forest.

Interprétation

Il faut retenir que ce jeu de données artificiel possède une tendance : il n'est pas stationnaire. C'est le cas de beaucoup de jeu de données liés à l'activité humaine, données web, population... Il est très rare d'avoir un jeu de données stationnaires. Cela veut dire que plus le temps avance, plus les données dérivent. Un modèle est appris à un instant $t$, selon le modèle choisi, il aura plus ou moins de mal à s'adapter à cette dérive. Les modèles non linéaires sont plus performances mais généralisent souvent très mal si les données s'éloignent trop des données utilisées pour apprendre. Il faut donc les réappendre régulièrement pour compenser la perte de performance en prédiction.