XD blog

blog page

big data


2018-05-29 Aveu de médiocrité

Toujours pas de date de sortie du glyphosate : Rejet à l’Assemblée de l’inscription dans la loi de la date de sortie du glyphosate. D'après l'article, la solution doit d'abord exister avant de pouvoir inscrire cette date. J'interprète ce renoncement comme un aveu : l'assemblée pense que c'est impossible, que nous n'en sommes pas capables. Les oiseaux meurent, les abeilles disparaissent, les insectes sont au musée. C'est quand même un terrible aveu de médiocrité que de penser que nous n'en sommes pas capables.


more...

2018-05-26 Democracy - La ruée vers les datas

Je vous recommande le visionnage du documentaire Democracy - La ruée vers les datas sur Arte qui relate l'histoire de la création de la loi sur le Règlement général sur la protection des données, un peu comme Villani l'avait fait avec sa médialle Fields dans Théorème vivant. Il relate le temps de la réflexion qui a précédé le vote de la loi en 2016 pour une entrée en vigueur le 25 mai 2018. Le documentaire insiste peu sur les amendements proposés par les lobbyistes ni la pression qu'ils ont exercée - un seul a apparemment accepté d'être filmé -, elle n'est qu'esquissée, au contraire, il insiste sur l'immense travail de réflexion et de discussion fournis par les auteurs du texte qui a été adopté. Il faut remercier son auteur opiniâtre Jan Philipp Albrecht, forçat du RGPD.

Un des interlocuteur donne un exemple de ce qu'on peut trouver comme enseignements dans les données. Je suppose qu'il a trouvé un accueil favorable dans l'oreille du réalisateur puisqu'il a conservé. Je la transcris également car elle traduit à mon sens ce que l'école oublie parfois d'être, un endroit où on doit rêver : Students who took creative litterature course in 9th grade have a better chance to pass algebra in the 10th grade. Ce n'est pas moi qui le dit, ce sont les données. (9th = troisième).

Je termine par une métaphore initiée par Albrecht lui-même. Si les données étaient du pétrole, la loi RGPD serait une loi de protection de l'environnement. On attend la suivante.

La loi s'applique à toute donnée transitant par l'Europe. Ceci explique pourquoi Facebook déplace les données des utilisateurs non Européens Données personnelles : Facebook met 1,5 milliard d‘utilisateurs hors de portée du droit européen.

La loi RGPD est sortie mais pas la loi sur les voitures ou les pesticides. Il faut croire que les lobby des GAFA ne sont pas aussi méchants que ça en tout cas moins persistants. On a plus de contrôle sur ce qui est fait de nos données et pas encore ce qui arrive dans notre assiette La fabrique du silence : retour à Glomel.

2018-05-23 Un livre à lire sur le Big Data

Big Data, penser l'homme et le monde autrement, de Gilles Babinet de Gilles Babinet. Les données sont peut-être dangereuses mais on peut faire un grand nombre de choses utiles avec. Le livre cite de nombeux exemples, évoque aussi le passage d'une société au numérique. Quelques extraits...


more...

2016-07-07 Machine Learning? What did you say?

Yesterday my sister asked : What is machine learning? And she quickly added please explain with terms I know.

Ok...

So I won't say this is just a bunch of optimization problems which apply on data to improve the efficiency of a company.

What should i say?

Should I apply the shaddock logic to my job: if I can't explain, I'm no use. Is it about quantifying people's intuition with data?

Well...

Machine Learning is everywhere but that won't help. In cars, in websites, in sales, but that won't help.

So I thought. Think about your job today, think about it in 20 years. A robot will probably do it. We always think a robot is a machine as if you could only automate physical jobs such as a mechanical arm. But the smaller robot is a program for computers. I press a button to update my blog: this is a robot. By extension, we could consider machine learning a kind of robot for statisticians. We don't try anymore to analyze the data, to model it. We just try to apply a black box which tells us if the data can be predicted. How? we care less.

Is that the end of the story?

The robot knows more and more and still can only solve problems we've seen. Not the last one. The new one. So the job is now to improve the robot so that I don't solve the same problem twice.

2016-02-05 Yann Le Cun au collège de France

Yann Le Cun au collège de France. Pour ceux qui découvrent : La leçon d’un maître de l'intelligence artificielle au Collège de France ou sur France Culture Le "Deep Learning", ou l'apprentissage profond des machines.

2016-02-03 Cancer, pesticides, Epidemium

A en croire l'émission Cash Investigation, la France est inondée de pesticides et beaucoup sont cancérigènes. Un article est même paru dans Le monde le lendemain : Pesticides : des substances toxiques, invisibles et omniprésentes. L'émission commence par la construction d'une carte qui recense les pesticides épandus sur le territoire français. Ces données sont a priori très difficiles à obtenir. Il seraient sans doute intéressant de les ajouter dans une version non agrégée aux jeux de données proposés par le challenge Epidemium. Les données que l'émission a regroupé semblent autrement plus détaillées que celles disponibles où la valeur Non renseigné semble assez fréquente.

Aujourd'hui, j'ai regardé les bouteilles de vin de façon différente. Au rayon bordeaux, la région la plus arrosée, j'ai cherché les vins bio.

2016-02-02 Leicester en tête du championnat grâce au Big Data

D'après l'article Football : il était une fois Leicester City..., le manager de Leicester a utilisé des statistiques pour recruter des joueurs méconnus mais prometteurs. Pour citer l'article : Selon lui, 200 000 euros d'investissement dans les algorithmes sont l'équivalent d'un budget de 10 millions d'euros en achat de joueurs. Leicester est premier du championnat aujourd'hui avec le meilleur buteur.

2015-09-25 MOOC Big Data

Il y a trois jours, Le Monde a publié l'article Treize MOOC à suivre en cette rentrée. Le premier de la liste Comprendre le Big Data à travers les films de cinéma est produit par le groupement ENSAE-ENSAI-CEPE.

2015-09-07 Quelques applications du Big Data

Quelques aperçus de notre quotidien dans quelques années :

2015-07-05 Le voyant lumineux est allumé

Les stations de métros défilent sans que je m'en rende compte, le nez plongé dans un livre. Le dernier que j'ai lu, Loar de Loïc Henry, était proche de Dune, une sorte de mélange de magie et de futur qui semble très lointain voire improbable contrairement de celui de The Minority Report de Philip K. Dick qui pointe le bout de son nez soixante ans après son écriture. Qu'auraient dit nos grands-parents à mon âge si on leur avait dit que ce futur existerait dans soixante ans ?

On a le temps d'y penser...

Oui sans doute, mais on n'y pense jamais. Le réchauffement climatique est passé d'un danger qu'on peut empêcher à une certitude qu'on accepte avec fatalité. Conçu après la guerre, gratuit, le système de santé s'adressait à une majorité de gens en bonne santé qu'on soignait avec une médecine très peu chère car nous ne disposions pas de toutes ces machines très élaborées. Le régime de retraite fut imaginé aussi après la guerre mais l'espérance de vie a quelque peu évolué depuis. Beaucoup de systèmes sont pensés sur des données présentes - comment faire autrement - et sont fournis sans recommandations pour les années futures.

Ah au fait, le système ne marchera plus très bien si jamais on sort de ce cadre là...

Il est plus facile de stopper une centrale nucléaire que le régime de retraite. On mesure tout un tas d'indicateurs afin d'éviter l'accident. Et pour les retraites... Elles ont été mises sur pied car c'était possible à l'époque. Quelques années plus tard, au diable les aspects techniques, seul le principe demeure. Pourtant, faire durer le principe, techniquement, ce n'est pas aussi simple.

Et dans soixante ans, imaginez qu'il n'y ait plus que des métiers créatifs. Le moindre travail manuel est effectué par un robot. Que deviendrait le principe de vacances dans ce contexte ? Que deviendront les artistes si on le devient tous un peu ? On n'en voit d'ailleurs pas beaucoup dans les livres de science fiction. Avez-vous le souvenir d'une mise en abyme, d'un auteur de science-fiction se représentant lui-même dans la période qu'il décrit ?

2015-07-03 Livres, films, couches, prêts... Amazon en assurance ?

C'est paru il y a deux jours : Amazon va faire du crédit aux PME en Europe et en Chine. Amazon sera capable de décider de prêter ou non de l'argent en une journée pour des montants allant de 1000 à 600.000 euros à des taux de 6% à 14%. L'article met en avant la simplicité et la rapidité du système. Derrière ces deux mots, je suppose qu'Amazon aggrègera de nombreuses informations autre que celles récupérées depuis le questionnaire proposé à l'emprunteur (informations géographiques, économiques, web scraping, livres achetés chez Amazon...) Derrière la rapidité se cache probablement le machine learning et des modèles capables d'aggréger toutes ces informations disparates.

Je fais un parallèle avec la reconnaissance d'image ou plus particulièrement celle des chèques. Un ordinateur lit le montant à partir d'une image. Il retourne une prédiction (le montant) avec un score (un nombre entre 0 - mauvais et 1 - bon). Concrètement, l'ordinateur permet de traiter 80% des chèques les plus difficiles et laisse le reliquat à des opérateurs humains. Le modèle d'Amazon ne devrait pas être si éloigné : la société va s'emparer d'une part de marché correspondant aux empunteurs faciles à catégoriser tout en proposant des taux de d'emprunts plus faibles que ceux de la concurrence grâce à un coût de traitement plus faible expliqué par une chaîne de traitement automatisée. Le reliquat des autres emprunteurs devra être traité manuellement probablement par les acteurs de ce secteur qui se partageront la part la plus difficile à gérer et la moins rentable. Après les livres, les films, et à peu près tout ce qui se vend de non périssable, les prêts, que reste-t-il... Les contrats d'assurance ?

2015-04-23 Open data and bias

The article 3 Cities Using Open Data in Creative Ways to Solve Problems shows three different ways to play with data and to build interesting information at a city level. Based on that, it becomes easier to improve the life of people leaving in that city. If this data is available to people taking decisions, they can take action to fix some the issues reported on the maps and they can measure the impact after it is fixed. However, if everybody knows this data, they would probably start to change their behaviour and the data will start reflecting that change. The first issue could artificially disappear without being fixed.

That's what explains the second article Randomized experimentation. By learning from the data, machine learned models end up proposing better options to people and they both forget others options are still possible.

2015-01-24 La donnée isolée et la moyenne

Les données sont légions et n'attendent que d'être intégrées à une histoire qui selon les personnes prend le nom d'interprétation, de modèle, d'analyse, de synthèse. Mais bien mystérieuse est la gestation de cette histoire. Mon premier témoignage d'une avalanche de chiffres remonte sans doute à Matrix où un programmateur fascinant interprétait un déluge de bits en temps réel sans aucune lampe stroboscopique dont tout humain normal aurait eu besoin pour espérer y voir quelque chose.

Nous ne sommes pas vraiment capables de donner un sens à une telle diarrhée numérique. Le plus souvent, on en fait la moyenne ou la médiane et on en garde que ce seul chiffre qui devient la seule chose à raconter. Personne n'aime affronter une tonne de chiffres mais savoir que celle-ci a accouché d'un seul nombre qui résume le tout, ça rassure et c'est simple à retenir. Le salaire médiane, le salaire moyen des ministres du gouvernement, le nombre d'élèves moyens par classe, le taux de chômages (moyen), le QI moyen, on fait une somme, on divise, on est content. On se sent même un peu savant dès qu'on parle d'écart type, un peu plus encore si on évoque les corrélations.

Et puis tout de suite, comme ces moyennes ont un poids certain, on se compare à elle. On est au dessus. On est heureux. On est en dessous, on se sent lésé. Tout à coup, on sait où on se trouve. On se sait rien du voisin mais on sait tout des français. Moi (donnée isolée) contre les autres (données agrégées), un grand classique. Lorsqu'on est du bon côté, on se repose, du mauvais, on a enfin trouvé l'objectif : la moyenne ou mieux encore, le premier quartile.

Et puis patatras, j'ai calculé le taux moyen de guérison de deux hôpitaux pour choisir le meilleur. Et je n'aurais pas pris toutes les données en considération, j'aurais raté un morceau de l'histoire ? C'est Le paradoxe de Simpson. J'hésite entre deux hôpitaux, le premier a un taux de succès de 98%, le second 90%. - Ah bon, tu hésites ? - Allez, on y va.

Un peu plus tard.

Tu lis quoi sur le fronton ? Euh... Chirurgie esthétique. - Tu n'aurais pas pu le dire avant ! - Mais tu m'as dit de prendre le meilleur. - Le meilleur pour ton type d'opération ! - J'ai oublié de regarder cette donnée.

2015-01-22 C'est quoi les données, c'est quoi le Big Data ?

Dans le film Bienvenue à Gattaca, le héros joué par Ethan Hawke doit non seulement faire disparaître ses traces mais aussi laisser celles de celui dont il usurpe l'identité. La moindre inattention peut jeter le doute voire dévoiler le stratagème. Une empreinte digitale inattendue interpelle immédiatement. Comme c'est inattendu, il faut lui trouver une explication.

La donnée : c'est une information juste avant qu'elle ne devienne partie intégrante d'une histoire, juste avant qu'on l'interprète. Et comme le suggère ce film, on en laisse partout et tout le temps. On en génère tellement qu'on est forcé de ne pas y prêter trop attention. La moindre connexion internet, la poussière sur le plancher, la température de l'eau, la fuite d'air à la fenêtre. C'est une donnée dès qu'on la décrit. Il y en a tellement qu'on les oublie rapidement. C'est juste un fait divers.

Mais pourquoi sont-elles si populaires maintenant ?

Une des raisons est qu'elles restent plus longtemps. La poussière sur mon plancher disparaît avec l'aspirateur. La connexion à un site internet restent plusieurs mois dans plusieurs fichiers de plusieurs machines différentes. Ces données numériques ont la vie dure. Ca n'explique pas pourquoi elles sont populaires. Seulement, du fait qu'elles restent plus longtemps, on a plus de temps pour les observer et leur donner du sens.

Comment donne-t-on du sens aux données ?

Les statistiques y sont pour beaucoup même si ce terme n'est pas une explication en soi. David Hume dans Enquête sur l'entendement humain nous apporte quelques éléments de réponses. Nous sommes tous très amnésiques mais une des façons qui nous permet de retenir est la répétition. Une observation, une donnée, commence à prendre du sens dès qu'elle se répète. Pour citer Hume :

De causes qui paraissent semblables, nous attendons des effets semblables. Telle est la somme de toutes nos conclusions expérimentales.

Les marins utilisaient les étoiles pour se repérer. Ils ont su associer la position d'une étoile dans le ciel (une donnée) de la même étoile à la même position une année plus tard (la donnée est répétée). C'est le début de la connaissance : chaque année, la même étoile est à la même position dans le ciel. On peut l'utiliser pour se repérer.

Et Big Data ?

La somme des données qui se rapporte à la même personne est quasiment infini. Seulement, aujourd'hui, elle persiste. Qu'en faire ? C'est tellement énorme que ce serait comme découvrir toute la voie lactée le même jour. Il faudrait une vie pour l'étudier... Sauf que... on a maintenant des ordinateurs qui font plein de calculs très rapidement. Alors on reprend notre cher Hume : on se répète beaucoup ! On fait presque tous les jours la même chose, et si ce n'est pas tous les jours, c'est toutes les semaines. Nous avons une vie rythmée - au sens musical -. Alors en comparant toutes les journées entre elles, et avec un bon ordinateur, on arrive à déterminer les habitudes et les goûts de chacun.

Et alors ?

Et bien c'est d'abord très drôle. On porte un bracelet au poignet qui enregistre les déplacements. On peut compter ses pas, enregistrer son poids tous les jours. C'est un peu comme si découvrait qu'on n'était plus intéressant que le voisin parce qu'on découvre plein de choses sur soi-même. Et le voisin, il n'est plus aussi intéressant ? Si si toujours, mais c'est lui qui nous montre sa courbe de poids, alors ce n'est plus aussi drôle. Et puis, quand on mange un carré de chocolat, on peut le mesurer tout de suite. Et ça c'est fun.

Autrefois si éphémères, les données sont quasi éternelles, et elles disent beaucoup de choses. Votre enfant sera peut-être dans 25 ans archéologue numérique. Les listes des relevés de cartes bleues pourraient permettre tout à la fois d'ajuster un régime alimentaire mal équilibré qu'à prédire la probabilité d'avoir un cancer (sauf si vous achetez toujours tout y compris votre whisky préféré en liquide).

Tu as vu le Monde aujourd'hui ? Les français prennent du poids à Noël ! - Incroyable, ils ont piraté ma balance numérique ! - Euh... tu es sûr ?

Les données, d'accord... et le bruit alors ?

C'est Agatha Christie qui nous apporte la réponse. Hercule Poirot avait coutume de dire que le meurtrier est un homme parfaitement normal qui cherche justement à l'être le seul jour où il ne l'est pas. Il pense à chaque instant à gommer tout ce qui pourrait éveiller les soupçons. S'il avait envie de manger une petite gâterie, il y renoncera car d'hatitude, il prend un jambon beurre à midi. Le meurtrier évacuera pour une journée toute fantaisie. Et pourtant, ce sont tous ces petits aléas qui font qu'une journée est parfaitement normale, tous ces petits détails qu'on n'est incapable de retenir, tous ces petits détails qui, parfois, sont remarqués par votre collègue car justement ils sortent de l'ordinaire. Mais si toute la journée, un meutrier pense à son crime, il n'y a plus de relâchement possible et il va chercher à gommer ces petits aléas qui attirent l'attention. En fin de compte, il aura paru tout à fait normal, bien trop normal pour être vrai, d'après Hercule Poirot. Le bruit, ce sont les fausses notes de la journée par rapport à une journée parfaitement normale, fausses notes délicieuses pour toute personne sensée, fausses notes malheureuses pour tout statisticien sensé.

2014-12-28 Garder un peu d'anonymat

Big Data est devenu un terme plutôt populaire ces temps-ci. Il est évoqué dans la dernière émission de Soft Power du 28 décembre. Un des thèmes abordés est l'incroyable masses de données accumulées pour une seule personne. Tout est numérisé ou en passe d'être numérisé, les passages sur les sites internet, des données de santé avec des gadgets du type jawbone, la conduite, ... On y évoque les bienfaits et les dangers que cela représente. On peut faire beaucoup de choses avec les données et certaines sont à la frontière de l'éthique. Un des moyens de prévenir les excès serait d'Ouvrir les algorithmes pour comprendre et améliorer les traitements dont nous sommes l'objet. On y découre un nouveau terme : l'obfuscation qui consiste à noyer ses vraies données dans une masse de fausses.


-->

Xavier Dupré