2022-03-08 Année 2022, séance 5#

Séance découpée en trois parties.

Exercice

On veut créer une classe d’arbre de décision qui fonctionne comme un arbre de décision mais génère une erreur si la distribution des feuilles prédites s’éloigne de celle observée durant l’apprentissage.

Partie I : réseaux de neurones et transfer learning

machine learning et deep learning
réseau de neurones profond, pytorch
onnx, onnxruntime
utilisation de modèles de deep learning avec scikit-learn

Quelques éléments techniques.

CPU, GPU
double, float
dense, sparse
json, xml, yml
encoding
graphes, graphes sociaux, communautés

Partie II : données massives

Que faire quand les données sont énormes et qu’on n’a pas de cluster ?

Partie III : variables textuelles

Catégorie et texte

webscrapping, html, javascript
catégories, dirty-cat (rappel)
convertir du texte libre en variable numérique, n-grammes
traitement de phrase, tfidf
text embedding
word2vec, gloves, gensim, spacy
séries temporelles

Projet

Mois d’avril (début 28/3, rendu 15/5, note 30/6)
Modalités précisées en fin de mois

Exercice

Trouver les adresses identiques après la fusion de deux bases de données. Comment utiliser du machine learning ?

Blog

2022-03-08 Année 2022, séance 5#