2A.ml - Analyse de sentiments#

Links: notebook, html, python, slides, GitHub

C’est désormais un problème classique de machine learning. D’un côté, du texte, de l’autre une appréciation, le plus souvent binaire, positive ou négative mais qui pourrait être graduelle.

%matplotlib inline

from jyquickhelper import add_notebook_menu
add_notebook_menu()

Les données #

On récupère les données depuis le site UCI Sentiment Labelled Sentences Data Set où on utilise la fonction load_sentiment_dataset.

from ensae_teaching_cs.data import load_sentiment_dataset
df = load_sentiment_dataset()
df.head()

	sentance	sentiment	source
0	So there is no way for me to plug it in here i...	0	amazon_cells_labelled
1	Good case, Excellent value.	1	amazon_cells_labelled
2	Great for the jawbone.	1	amazon_cells_labelled
3	Tied to charger for conversations lasting more...	0	amazon_cells_labelled
4	The mic is great.	1	amazon_cells_labelled

Exercice 1 : approche td-idf #

La cible est la colonne sentiment, les deux autres colonnes sont les features. Il faudra utiliser les prétraitements LabelEncoder, OneHotEncoder, TF-IDF. L’un d’entre eux n’est pas nécessaire depuis la version 0.20.0 de scikit-learn.

Exercice 2 : word2vec #

On utilise l’approche word2vec du module gensim ou spacy.

Exercice 3 : comparer les deux approches #

Avec une courbe ROC par exemple.

Liens

Contenu

Information

Sujet précédent

Sujet suivant

2A.ml - Analyse de sentiments#

Les données #

Exercice 1 : approche td-idf #

Exercice 2 : word2vec #

Exercice 3 : comparer les deux approches #

Liens

Contenu

Information

Sujet précédent

Sujet suivant

2A.ml - Analyse de sentiments#

Les données#

Exercice 1 : approche td-idf#

Exercice 2 : word2vec#

Exercice 3 : comparer les deux approches#

Les données #

Exercice 1 : approche td-idf #

Exercice 2 : word2vec #

Exercice 3 : comparer les deux approches #