Text Embedding (NLP)#
Les modèles de machine learning n’acceptent que des entrées numériques. Il faut nécessairement convertir le texte d’une manière ou d’une autre en vecteurs et si possible dans un espace vectoriel de dimension fixe. Il faut donc passer d’un texte de longueur variable à un vecteur de dimension fixe. La section Du texte aux features détaille les méthodes les plus courantes. La section Texte - Natural Language Processing - NLP explore d’autres directions.
Lectures
Google Brain Introduces Symbolic Programming + PyGlove Library to Reformulate AutoML
Encoder-decoders in Transformers: a hybrid pre-trained architecture for seq2se
Modules
HuggingFace: * huggingface/transformers
(State-of-the-art Natural Language Processing for PyTorch and TensorFlow 2.0)
tokenizers (Provides an implementation of today’s most used tokenizers, with a focus on performance and versatility.)