FAQ

  1. Les bases de train et test sont-elles homogènes ?

Les bases de train et test sont-elles homogènes ?

Lors d’une compétition, on dispose le plus souvent d’un jeu d’apprentissage (X_t, Y_t) et d’un jeu qui sert à évaluer les participants qui ne connaissent que X_e. Seul le jury connaît les Y_e correspondant. Les bases de train et test sont-elles homogènes ? Pour répondre à cette question, on apprend un classifieur qui est appris sur une base réordonnée aléatoirement à partir de (X_t \cup X_e, (x_i \in X_e)_i). Autrement dit, on essaye de construire un classifieur qui prédit si l’observation x_i appartient au jeu d’apprentissage ou à celui d’évaluation. Si le classifieur n’y parvient pas, alors les deux bases sont homogènes.

Que faire dans les deux bases ne sont pas homogènes ?

Une option consiste à utiliser le classifieur C_e précédent pour déterminer les observations de la base d’apprentissage qui sont proches de la base d’évaluation (le classifieur les classes dans X_e) et de les surpondérer pour estimer le modèle M_c lié à au problème de la compétition. On peut choisir comme pondération le score de classification du modèle C_e. Cela revient à corriger l’erreur d’apprenissage en construisant un estimateur de l’erreur que le modèle ferait sur la base d’évaluation :

E(X_e, M_c) = \mathbb{E}( E(X, M_c) | X \in X_e ) \sim \sum_i e(x_i, M_c) \mathbb{P}(x_i \in X_e)

Par extension, si les bases d’apprentissage et d’évaluation ont été construites de telle sorte qu’elles soient homogènes, un modèle capable de bien prédire l’appartenance d’une observation à l’une des deux bases fait nécessaire du surapprentissage (ou overfitting). Il en sera de même si le modèle est utilisé pour prédire autre chose.

Séries temporelles

Dans le cas des séries temporelles, le découpage apprentissage / évaluation est très souvent temporel. Les données passées sont utilisées pour l’apprentissage, les données futures pour l’évaluation. S’il est possible de construire un classifier capable de déterminer si une observation x_i fait partie du passé ou du futur, cela signifie certainement qu’il est préférable de prétraiter la série pour enlever une tendance.

(original entry : ensae201611.rst, line 142)