2022-03-08 Année 2022, séance 5#
Séance découpée en trois parties.
Exercice
On veut créer une classe d’arbre de décision qui fonctionne comme un arbre de décision mais génère une erreur si la distribution des feuilles prédites s’éloigne de celle observée durant l’apprentissage.
Partie I : réseaux de neurones et transfer learning
machine learning et deep learning
réseau de neurones profond, pytorch
utilisation de modèles de deep learning avec scikit-learn
Quelques éléments techniques.
CPU, GPU
double, float
dense, sparse
json, xml, yml
encoding
graphes, graphes sociaux, communautés
Partie II : données massives
Que faire quand les données sont énormes et qu’on n’a pas de cluster ?
Partie III : variables textuelles
Catégorie et texte
webscrapping, html, javascript
catégories, dirty-cat (rappel)
convertir du texte libre en variable numérique, n-grammes
traitement de phrase, tfidf
text embedding
word2vec, gloves, gensim, spacy
séries temporelles
Projet
Mois d’avril (début 28/3, rendu 15/5, note 30/6)
Modalités précisées en fin de mois
Exercice
Trouver les adresses identiques après la fusion de deux bases de données. Comment utiliser du machine learning ?