.. image:: pystat.png :height: 20 :alt: Statistique :target: http://www.xavierdupre.fr/app/ensae_teaching_cs/helpsphinx/td_2a_notions.html#pour-un-profil-plutot-data-scientist Tagging +++++++ Le tagging consiste à prédire un label pour chacun des mots d'une phrase. C'est ce qu'on veut faire lorsqu'on considère un problème de `Named Entity Recognition (NER) `_. On souhaite reconnaître dans une phrase s'il y a une ville, un lieu, un téléphone, une adresse. La difficulté consiste à intégrer un contexte dans la décision, c'est-à-dire de considérer la séquence des mots et non les mots pris séparément. *Paris* peut aussi bien être une ville que le mot *pari* au pluriel. Ce problème a longtemps été traité avec des outils de statistiques classiques tels que `Hidden Marko Models (HMM) `_ ou les `Conditional Random Fields (CRF) `_. Les meilleurs modèles sont des modèles de deep learning `LSTM `_. (*à venir*) *Lectures* * `Understanding LSTM Networks `_ * `Establishing a New State-of-the-Art for French Named Entity Recognition `_ * `Extracting an Etymological Database from Wiktionary `_ * `Cheating a Parser to Death: Data-driven Cross-Treebank Annotation Transfer `_ *Modules* * `NLTK.tag `_ * `hmmlearn `_ * `sklearn-crfsuite `_ * `spacy - entity recognition `_, voir aussi :ref:`ressources spacy ` * `tagger `_ * `MITIE `_ (le module n'a pas l'air d'être vraiment maintenu) * `stanza `_ *Modules deep learning* * `LightRNN `_ * `pytorch - bi-LSTM CRF `_ *Expérimental* * `NeuroNER `_ .. index:: corpus *Corpus* * `https://camembert-model.fr/ `_