.. image:: pyeco.png :height: 20 :alt: Economie :target: http://www.xavierdupre.fr/app/ensae_teaching_cs/helpsphinx/td_2a_notions.html#pour-un-profil-plutot-economiste .. image:: pystat.png :height: 20 :alt: Statistique :target: http://www.xavierdupre.fr/app/ensae_teaching_cs/helpsphinx/td_2a_notions.html#pour-un-profil-plutot-data-scientist Traitement du langage +++++++++++++++++++++ Cette partie regroupe principalement des techniques relevant du `word embedding `_ qui consiste à convertir des données textuelles en données numériques directement exploitable par les algorithmes d'apprentissage. *Notebooks* .. toctree:: :maxdepth: 2 ../notebooks/_gs2a_nlp *Lectures - articles* * `Système de complétion `_ : la complétion est utilisée par tous les sites Internet pour aider les utilisateurs à saisir leur recherche. N'importe quel site commercial l'utiliser pour guider les utilisateurs plus rapidement vers le produit qu'ils recherchent. * `Text Understanding from Scratch `_, Xiang Zhang, Yann LeCun * `Text Generation With LSTM Recurrent Neural Networks in Python with Keras `_ * `Supervised Word Mover's Distance `_ * `Probabilistic Context-Free Grammars (PCFGs) `_ * `A Roundup of Recent Text Analytics and Vis Work `_ * `A Joint Model for Entity Analysis: Coreference, Typing, and Linking `_ * `Disfluency Detection with a Semi-Markov Model and Prosodic Features `_ * `Capturing Semantic Similarity for Entity Linking with Convolutional Neural Networks `_ * `Neural CRF Parsing `_ * `Less Grammar More Features `_ * `Learning-Based Single-Document Summarization with Compression and Anaphoricity Constraints `_ * `Multimodal Word Distributions `_ *Lectures - cours* * `Deep Learning for Natural Language Processing `_ *Lectures - revue* * `October Edition: Text Understanding - 9 Must-Read Articles `_ *Lectures - Classification* * `Bag of Tricks for Efficient Text Classification `_ *Lectures - word2vec* * `The amazing power of word vectors `_ * `Towards a continuous modeling of natural language domains `_ * `Efficient Estimation of Word Representations in Vector Space `_, Tomas Mikolov, Kai Chen, Greg Corrado, Jeffrey Dean, `Distributed Representations of Words and Phrases and their Compositionality `_, Tomas Mikolov, Ilya Sutskever, Kai Chen, Greg S Corrado, Jeff Dean, `word2vec Parameter Learning Explained `_, Xin Rong, `Tutorial on Auto-Encoders `_, Piotr Mirowski * `Mixing Dirichlet Topic Models and Word Embeddings to Make lda2vec `_ *Lectures - glove* * `GloVe: Global Vectors for Word Representation `_ (pdf), `GloVe: Global Vectors for Word Representation `_ (article de blog) * `glove `_ (`Glove avec R `_, `Glove avec python `_) *Lectures - vidéo* * :ref:`Cours de deep learning appliqués au NLP ` *Word embedding* * `On word embeddings - Part 1 `_ * `On word embeddings - Part 2: Approximating the Softmax `_ * `On word embeddings - Part 3: The secret ingredients of word2vec `_ * `From Word Embeddings To Document Distances `_ *Interprétation* * `Learning to Parse and Translate Improves Neural Machine Translation `_ * `Skip-Gram – Zipf + Uniform = Vector Additivity `_ *Résumé* * `Beyond SumBasic: Task-Focused Summarization with Sentence Simplification and Lexical Expansion `_ * `ROUGE: A Package for Automatic Evaluation of Summaries `_ *Vidéos* * `Modern NLP in Python `_ *Modules ML* * `nltk `_ * `gensim `_ * `fasttext `_ (Facebook) * `spacy `_ (:ref:`ressources spacy `) * `thinc `_ * `Stanford CoreNLP `_, `corenlpy `_ * `lda2vec `_ * `glove-python `_ * `tethne `_ * `torchtext `_ * `pycantonese `_ (texte cantonnais), `snownlp `_ (texte Chinois), `jieba `_ (tokenizer pour le chinois) * `polyglot `_ : fonctionne pour beaucoup de langues * `pattern `_ : possède une bonne base d'exemples, notemmant pour récupérer des données depuis internet `01-web `_ * `stanza `_ *Modules de recherche* * `BERT `_ *Modules moins ML* * `python-rake `_ : petit module pour extraire des mot-clés * `sumy `_ : construction automatique d'un résumé d'un texte * `pyrouge `_ : calcule de la métrique `ROUGE `_