2023-01-20 Plan séance 1#

Voici le plan prévu pour la première séance du cours de machine learning pour l’économie et la finance.

Séance 1

Une discussion recopiée depuis un article sur Linkedin à propos de ChatGPT qui montre que c’est un outil efficace mais seulement un outil.

  • JP : Hey Chat GPT : La mère de Jean a 4 enfants. 3 des enfants s’appellent Pédro, Caroline et Robert. Quel est le prénom du quatrième ?

  • ChatGPT : « Il n’est pas possible de déterminer le prénom du quatrième enfant de la mère de Jean uniquement avec l’information donnée. »

  • JP : si c’est possible. c’est dans l’énoncé

  • ChatGPT : « Il n’y a pas assez d’informations dans l’énoncé pour déterminer le prénom du quatrième enfant. Il est seulement mentionné que les trois premiers enfants s’appellent Pedro, Caroline et Robert. »

  • JP : pourtant il est dit « La mère de Jean» c’est la mère de qui ?

  • ChatGPT : « Vous avez raison, dans l’énoncé il est mentionné « La mère de Jean », donc Jean est un individu dont on ne sait rien, à part qu’il a une mère et qu’elle a 4 enfants. »

Cela dit, il est possible que son utilisation change un peu la donne quant aux moteurs de recherches si ce n’est que son coût est sans doute encore prohibitif pour un usage si massif.

Training language models to follow instructions with human feedback

Un article intéressant sur l’inflation : De nouveaux indicateurs de perception de l’inflation en France issus des médias. A quoi ressemble le bruit d’une foule ?

Parmi les sujets abordés cette année :

  • expressions régulières, fichiers, calcul matriciel, dataframe, graphes ?

  • scikit-learnconcepts de transformer

    et prédicteur, revue des modèles les plus couramment utilisés, présentation de la validation croisée, et grille de recherche, notion de pipe-line en machine learning

  • valeurs manquantes, problème de classification avec des classes sous représentées,

  • ingénierie logicielle ? tests unitaires, git, pull request,

    notebook, librairies, réalisation d’un package pour partager son code, écrire une documentation. Cette partie est utile si on travaille à plusieurs sur le même code.

  • notions de séries temporelles ? prédiction, analyse de survie.

  • Grands jeux de données

  • Quelques mots de deep learning : encoding, transfer learning

  • Mise en production : déploiement de modèles de machine learning

  • machine learning éthique

  • algorithmes, plus court chemin dans un graphe, recherche dichotomique ?

La médecine de demain :

Ethique