Economie Statistique

Machine Learning éthique

Toutes les entreprises ont des données. Ce qui a changé récemment est ce ne sont plus seulement des données à caractère personnel, l’ensemble de vos commandes, le montant, mais aussi des données de déplacements. Le téléphone portable et les applications permet à beaucoup plus d’acteurs de collecter ces mêmes données. La législation n’est pas toujours très claire quant à ce qu’on le droit d’en faire et les pays ne partagent pas tous les mêmes règles. De plus, c’est une chose que de fixer une limite, c’est autre chose que de vérifier qu’elle n’a pas été franchie. Des modèles construits avec des données si précises peuvent de retrouver des informations que vous n’avez pourtant pas divulgué. Comment déterminer si un modèle ne produit pas des résultats biaisés envers une partie de la population même avec des données anonymes ? Les articles sont encore peu nombreux à ce sujet et plutôt récents. Il est probable qu’il y en ait un peu plus à l’avenir. Il n’existe pas de certitude quant au caractère éthique d’un modèle. Quelques idées ont néanmoins émergé :

  • La collecte des données est parfois biaisée, les échantillons aléatoires sont rares sur Internet, la collecte est incitative (échange service contre données). Certaines sous-population sont sur-représentées, d’autres sous-représentées. Il faut en tenir compte.

  • Construire un modèle interprétable et de cette façon vérifier son côté éthique : Ideas on interpreting machine learning.

  • Fabriquer de fausses observations pour vérifier que le modèle ne change pas de prédictions quand il ne le devrait pas : Equality of Opportunity in Supervised Learning.

  • Construire deux modèles pour éviter les interactions entre X_1 et X_2, le premier modèle ne voit que X_1, le second ne voit que X_2, puis on combine les prédictions : When Recommendations Systems Go Bad.

  • Construire une partition de la population à étudier pour vérifier que l’appartenance à un sous-groupe n’est pas corrélée à la prédiction ou à l’erreur de prédiction : FairTest: Discovering Unwarranted Associations in Data-Driven Applications.

L’article Equality of Opportunity in Supervised Learning définit l’aspect éthique comme l’invariance d’une loi marginale. On suppose que S est un attribut protégé binaire (exemple : le genre). I sont les entrées du modèle de machine learning, O les sorties. Le modèle est éthique si :

\pr{ O | I, S=0} = \pr{ O | I, S=1}

La connaissance de S ne change pas la prédiction. Cela pose deux problèmes. Le premier est que parfois cette distribution change car cet attribut est corrélé avec un autre qui lui n’est pas protégé. Que décide-t-on dans ce cas ? Le second est l’égalité n’est jamais vérifié sur de vraies données, les deux distributions doivent être proches. Elles peuvent l’être sur l’ensemble de la population tout en ne l’étant pas du tout sur une petite partie de la population. L’article FairTest: Discovering Unwarranted Associations in Data-Driven Applications propose une réponse à ces deux problèmes.

L’article A Reductions Approach to Fair Classification pousse ces concepts jusqu’à définir mathématiquement la parité d’un modèle et l’égalité des chances (voir 2018-10-24 Fairness - fairlearn - classification).

Notebooks

Lectures mathématiques

Lectures françaises

Lectures

Conférences

Sites

  • Data Transparency Lab

  • OPAL

  • FATML ou Fairness, Accountability, and Transparency in Machine Learning, ce site est une excellente source d’article scientifiques sur le sujet.

  • FATE, groupe de recherche sur Fairness, Accountability, Transparency, and Ethics in AI chez Microsoft

  • Data&Society, publications d’articles ou rapports comme celui-ci Fairness in Precision Medicine qui traite des biais qui peuvent survenir lorsqu’on adapte les décisions médicales en fonction des données récoltées pour une personne en particulier (precision medecine).

Articles

Modules