.. image:: pyeco.png :height: 20 :alt: Economie :target: http://www.xavierdupre.fr/app/ensae_teaching_cs/helpsphinx/td_2a_notions.html#pour-un-profil-plutot-economiste .. image:: pystat.png :height: 20 :alt: Statistique :target: http://www.xavierdupre.fr/app/ensae_teaching_cs/helpsphinx/td_2a_notions.html#pour-un-profil-plutot-data-scientist .. _l-ml2a-text-features: Du texte aux features +++++++++++++++++++++ Ces méthodes sont non-supervisées et apparaissent le plus souvent comme prétraitements pour convertir le texte sous forme de features numériques ou tout simplement des vecteurs. On parlera ici de texte comme texte libre et non simplement une variable catégorielle représentée sous forme de texte. *Notebooks* * :ref:`td2asentimentanalysisrst` (:ref:`correction `) .. index:: word2vec, glove, tf-idf *Lectures* * `Texte et catégories `_ * `Texte comme une séquence de mots `_ * `tf-idf `_ * `Efficient Estimation of Word Representations in Vector Space `_ * `GloVe: Global Vectors for Word Representation `_ * `Multi-label Text Classification using BERT - The Mighty Transformer `_ * `Chars2vec: character-based language model for handling real world texts with spelling errors and human slang `_ *Modules* * :epkg:`gensim` * :epkg:`spacy` (:ref:`ressources spacy `) * :epkg:`nltk` * :epkg:`scikit-learn` * `glove sur GitHub `_ * `chars2vec `_ * `pyldavis `_ * `stanza `_