2023-01-20 Plan séance 1#
Voici le plan prévu pour la première séance du cours de machine learning pour l’économie et la finance.
Séance 1
Python, Anaconda, pandas, numpy, jupyter, matplotlib, expressions régulières, fichiers
Ressource www.xavierdupre.fr
scikit-learn : API
Classification et régression, multi-classification
Courbe ROC, AUC, voir Classifications et courbes ROC, Courbe ROC, graphe erreur ROC
Ranking, Clustering
Une discussion recopiée depuis un article sur Linkedin à propos de ChatGPT qui montre que c’est un outil efficace mais seulement un outil.
JP : Hey Chat GPT : La mère de Jean a 4 enfants. 3 des enfants s’appellent Pédro, Caroline et Robert. Quel est le prénom du quatrième ?
ChatGPT : « Il n’est pas possible de déterminer le prénom du quatrième enfant de la mère de Jean uniquement avec l’information donnée. »
JP : si c’est possible. c’est dans l’énoncé
ChatGPT : « Il n’y a pas assez d’informations dans l’énoncé pour déterminer le prénom du quatrième enfant. Il est seulement mentionné que les trois premiers enfants s’appellent Pedro, Caroline et Robert. »
JP : pourtant il est dit « La mère de Jean» c’est la mère de qui ?
ChatGPT : « Vous avez raison, dans l’énoncé il est mentionné « La mère de Jean », donc Jean est un individu dont on ne sait rien, à part qu’il a une mère et qu’elle a 4 enfants. »
Cela dit, il est possible que son utilisation change un peu la donne quant aux moteurs de recherches si ce n’est que son coût est sans doute encore prohibitif pour un usage si massif.
Training language models to follow instructions with human feedback
Un article intéressant sur l’inflation : De nouveaux indicateurs de perception de l’inflation en France issus des médias. A quoi ressemble le bruit d’une foule ?
Parmi les sujets abordés cette année :
expressions régulières, fichiers, calcul matriciel, dataframe, graphes ?
- scikit-learnconcepts de transformer
et prédicteur, revue des modèles les plus couramment utilisés, présentation de la validation croisée, et grille de recherche, notion de pipe-line en machine learning
valeurs manquantes, problème de classification avec des classes sous représentées,
- ingénierie logicielle ? tests unitaires, git, pull request,
notebook, librairies, réalisation d’un package pour partager son code, écrire une documentation. Cette partie est utile si on travaille à plusieurs sur le même code.
notions de séries temporelles ? prédiction, analyse de survie.
Grands jeux de données
Quelques mots de deep learning : encoding, transfer learning
Mise en production : déploiement de modèles de machine learning
machine learning éthique
algorithmes, plus court chemin dans un graphe, recherche dichotomique ?
La médecine de demain :
Intelligence artificielle et médecine, par le Pr. Jean-Emmanuel Bibault, aide à l’interprétation des images, à la localisation des tumeurs, assistance chirurgicale
enregistrement des données en temps réel, détection de symptômes sur des données qu’on n’avait pas avant
…
Ethique