Tagging#
Le tagging consiste à prédire un label pour chacun des mots d’une phrase. C’est ce qu’on veut faire lorsqu’on considère un problème de Named Entity Recognition (NER). On souhaite reconnaître dans une phrase s’il y a une ville, un lieu, un téléphone, une adresse. La difficulté consiste à intégrer un contexte dans la décision, c’est-à-dire de considérer la séquence des mots et non les mots pris séparément. Paris peut aussi bien être une ville que le mot pari au pluriel. Ce problème a longtemps été traité avec des outils de statistiques classiques tels que Hidden Marko Models (HMM) ou les Conditional Random Fields (CRF). Les meilleurs modèles sont des modèles de deep learning LSTM.
(à venir)
Lectures
Establishing a New State-of-the-Art for French Named Entity Recognition
Cheating a Parser to Death: Data-driven Cross-Treebank Annotation Transfer
Modules
spacy - entity recognition, voir aussi ressources spacy
MITIE (le module n’a pas l’air d’être vraiment maintenu)
Modules deep learning
Expérimental
Corpus