FAQ#
Les bases de train et test sont-elles homogènes ?
Lors d’une compétition, on dispose le plus souvent d’un jeu d’apprentissage
et d’un jeu qui sert à évaluer les participants qui ne connaissent
que
. Seul le jury connaît les
correspondant.
Les bases de train et test sont-elles homogènes ?
Pour répondre à cette question, on apprend un classifieur qui est appris sur
une base réordonnée aléatoirement à partir de
. Autrement dit, on essaye de construire
un classifieur qui prédit si l’observation
appartient au jeu d’apprentissage
ou à celui d’évaluation. Si le classifieur n’y parvient pas, alors les deux bases sont homogènes.
Que faire dans les deux bases ne sont pas homogènes ?
Une option consiste à utiliser le classifieur précédent pour déterminer les
observations de la base d’apprentissage qui sont proches de la base d’évaluation
(le classifieur les classes dans
) et de les surpondérer
pour estimer le modèle
lié à au problème de la compétition.
On peut choisir comme pondération le score de classification du modèle
.
Cela revient à corriger l’erreur d’apprenissage en construisant un estimateur de l’erreur
que le modèle ferait sur la base d’évaluation :
Par extension, si les bases d’apprentissage et d’évaluation ont été construites de telle sorte qu’elles soient homogènes, un modèle capable de bien prédire l’appartenance d’une observation à l’une des deux bases fait nécessaire du surapprentissage (ou overfitting). Il en sera de même si le modèle est utilisé pour prédire autre chose.
Séries temporelles
Dans le cas des séries temporelles, le découpage apprentissage / évaluation
est très souvent temporel. Les données passées sont utilisées pour l’apprentissage,
les données futures pour l’évaluation. S’il est possible de construire un classifier
capable de déterminer si une observation fait partie du passé
ou du futur, cela signifie certainement qu’il est préférable de prétraiter la série
pour enlever une tendance.
(original entry : ensae201611.rst, line 144)