Economie Statistique

Text Embedding (NLP)

Les modèles de machine learning n’acceptent que des entrées numériques. Il faut nécessairement convertir le texte d’une manière ou d’une autre en vecteurs et si possible dans un espace vectoriel de dimension fixe. Il faut donc passer d’un texte de longueur variable à un vecteur de dimension fixe. La section Du texte aux features détaille les méthodes les plus courantes. La section Texte - Natural Language Processing - NLP explore d’autres directions.

Modules

  • spacy

  • gensim

  • HuggingFace: * huggingface/transformers

    (State-of-the-art Natural Language Processing for PyTorch and TensorFlow 2.0)

    • tokenizers (Provides an implementation of today’s most used tokenizers, with a focus on performance and versatility.)