XD blog

blog page


2018-07-22 La paie des soldats de l'armée française

L'émission Louvois, le scandale d'un logiciel de paie de l'armée française revient sur les problèmes rencontrés par l'armée sur une période de 10 ans pour assurer la paie de ses soldats, problèmes non encore tout-à-fait résolus à ce jour. Des sommes folles ont été englouties en pure, un immense gâchis pourrait-on dire si ce n'est que le documentaire semble montrer qu'un projet de cette envergure a beaucoup plus de chances de réussir s'il est confié à une équipe de bons ingénieurs. Le logiciel de la paie a eu plusieurs vies et plusieurs supervisions. Il semble que celle de l'armée qui a repris la suite des premiers jets par l'entreprise SOPRA jusqu'à la reprise la même entreprise et STERIA a fait montre d'un certain amateurisme. Gérer un projet d'informatique d'envergure n'est pas à laisser au premier venu même si la tradition française a tendance à laisser croire que ce pourrait être le cas.

2018-07-14 Jour de pollution à Mimizan

Alors que je joue tranquillement avec ma nièce dans le sable de la plage sud de Mimizan, une garde nageuse passe pour me dire que la plage est polluée et qu'il vaut mieux éviter tout contact avec l'eau, même au niveau des pieds. Je lui demande si c'est l'éternelle papèterie qui salit l'eau un peu plus que d'habitude. Elle me réponds qu'elle n'en sait rien mais probablement non car la plage dans l'estuaire de la rivière n'est pas fermée. A défaut d'en savoir plus, je lui demande si les résultats des tests qu'on ne lui a pas communiqué visiblement seront publiés quelque part et ils seront affichés prochainement selon elle. J'y suis retourné le lendemain alors que la plage avait réouverte sans trouver aucun indication de cette dite pollution. Le site internet de la ville ne le publiant pas. Je lui donne raison puisque cette trace a toute les chances de devenir indélélile sur le web mais par soucis de transparence, en tant que citoyen, je ne peux que m'interroger sur la véritable nature d'une pollution qui incite la mairie à ne pas divulguer les résultats, tout du moins d'une façon facilement accessible.


more...

2018-07-10 DataFrame for C Sharp

Microsoft has recently released an open source machine learning library called ML.net. As opposed to scikit-learn, there is no dataframe in C# and the data are described as an array of instances specific to the data the learning pipeline has to handle : Get started with ML.NET in 10 minutes. I was wondering if there could be a way to skip that part even if it means to be a little bit slower. I finally ended up by implementing something similar to what a dataframe in Python with pandas which I called Scikit.ML.DataFrame. I modified the inital example:


more...

2018-07-06 echarts, pyecharts

C'est une librairie de visualisation qu'on m'a fait découvrir et qui mérite le détour : pyecharts + echarts.

2018-07-05 Comment détecter un mauvais système de données

EDF, ou Enedis, je ne sais pas vraiment comment l'appeler, m'a envoyé quatre fois le même courrier le même jour pour la même raison, à savoir, la visite de mon compteur d'électricité. EDF cherche toujours à les visiter quand je ne suis pas là ou en me proposant des horaires assez larges. La dernière fois, c'était un intervalle de cinq heures sans même qu'il puisse réduire quelques heures à l'avance. Et aujourd'hui, je me demande comment la même société peut envoyer 4 fois le même courier pour la même raison et le même si ce n'est qu'elle a un système de données plutôt défaillant. Cela me rappelle la SNCF l'année dernière qui était capable de me dire que mon train partait dans une gare et l'inverse une gare plus loin.


more...

2018-06-29 Le meilleur data scientist de France

C'est par un concours de circonstances pas si incroyable que ça d'ailleurs que le concours du meilleur datascientist de France s'est déroulé à station F avec les mêmes données que celles utilisées lors du hackathon de l'ENSAE Hackathon Ernst & Young / ENSAE / Genius / Latitudes / Label Emmaüs / 2017. La gagnant a partagé sa solution How I won Le Meilleur Data Scientist de France 2018, le dixième également Meilleur Data Scientist de France 2018. La vidéo de l'événement dans laquelle j'apparais très rapidement...

La présentation des solutions aura lieu le 4 juillet au meetup de FrenchData FrenchData Meetup #5 : les coulisses de 2 startups data et les solutions du MDSF.

2018-06-26 Data for Good #4

J'ai assisté à la quatrième session de Présentation des projets Data for Good (ou sur la page facebook) A noter, Cédric Villani faisait partie du jury. Il a partagé un peu de son expérience de la vie parlementaire, de la nécessité de convaincre qu'une idée est une bonne idée et que cette partie est au moins aussi importante que l'idée elle-même. C'était de mon point de vue une des sessions les plus réussies et pour la première fois les présentations ont été filmées et sont visibles sur le compte facebook.

Le premier projet hippocrate.tech a regroupé data scientist, philosophe et juriste pour traduire l'éthique sous la forme d'un code de bonne conduite pour les datascientist. Il n'est pas inutile d'y faire un détour.

J'ai découvert la base de données MIMIC qui contient les résultats de tests médicaux de 40.000 patients de services de réanimations. L'objectif d'un des projets était de construire un indicateur du caractère critique de l'état d'un patient. Après les présentations, la conversion m'a amené à Owkin, une startup qui construit des outils d'aide au diagnostique à partir d'intelligence artificielle. Elle a récemment effectué une levée de fond auprès de Otium : OWKIN, la pépite française spécialisée dans le machine learning lève 11 millions de dollars

Un dernier vers openfisca qui donne accès à de nombreuses données économiques et qui permet de faire des simulations pour mesurer l'impact d'une loi.

2018-06-13 Retard en intelligence artificielle

L'Europe est en retard dans ce moment. C'est un fait. Voici quelques chiffres dans ce sens : AI Startups as Innovation Drivers. Une version PDF est disponible en bas de page, l'un des auteurs est Axelle Lemaire. Si vous n'êtes pas convaincu, vous le serez sans doute par Andrew Ng - The State of Artificial Intelligence.

2018-06-11 De l'impolitesse des courriers automatisés

Les courriers automatisés manquent parfois de tact et sont parfois incorrects. Dans le dernier, Free m'apprend qu'un prélèvement a été refusé suite à un décès et que cela me coûtera 7.5 euros supplémentaires. Ma maladresse n'est pas intentionnelle et je trouve le courrier quelque peu impoli. Par la suite, le courrier est envoyé le 9 en me laissant 2 semaines pour régulariser la situation, 2 jours plus tard, la ligne internet était coupée.


more...

2018-05-30 The practice of reproducible research

Common rules, common formats, documentation, small steps, unit tests, it seems obvious to many and not that obvious for every who tried to put that in practice. Some inspiration: The Practice of Reproducible Research (or the PDF). To my opinion, reproducible research is not a goal, it is a need.

2018-05-29 Aveu de médiocrité

Toujours pas de date de sortie du glyphosate : Rejet à l’Assemblée de l’inscription dans la loi de la date de sortie du glyphosate. D'après l'article, la solution doit d'abord exister avant de pouvoir inscrire cette date. J'interprète ce renoncement comme un aveu : l'assemblée pense que c'est impossible, que nous n'en sommes pas capables. Les oiseaux meurent, les abeilles disparaissent, les insectes sont au musée. C'est quand même un terrible aveu de médiocrité que de penser que nous n'en sommes pas capables.


more...

2018-05-26 Democracy - La ruée vers les datas

Je vous recommande le visionnage du documentaire Democracy - La ruée vers les datas sur Arte qui relate l'histoire de la création de la loi sur le Règlement général sur la protection des données, un peu comme Villani l'avait fait avec sa médialle Fields dans Théorème vivant. Il relate le temps de la réflexion qui a précédé le vote de la loi en 2016 pour une entrée en vigueur le 25 mai 2018. Le documentaire insiste peu sur les amendements proposés par les lobbyistes ni la pression qu'ils ont exercée - un seul a apparemment accepté d'être filmé -, elle n'est qu'esquissée, au contraire, il insiste sur l'immense travail de réflexion et de discussion fournis par les auteurs du texte qui a été adopté. Il faut remercier son auteur opiniâtre Jan Philipp Albrecht, forçat du RGPD.

Un des interlocuteur donne un exemple de ce qu'on peut trouver comme enseignements dans les données. Je suppose qu'il a trouvé un accueil favorable dans l'oreille du réalisateur puisqu'il a conservé. Je la transcris également car elle traduit à mon sens ce que l'école oublie parfois d'être, un endroit où on doit rêver : Students who took creative litterature course in 9th grade have a better chance to pass algebra in the 10th grade. Ce n'est pas moi qui le dit, ce sont les données. (9th = troisième).

Je termine par une métaphore initiée par Albrecht lui-même. Si les données étaient du pétrole, la loi RGPD serait une loi de protection de l'environnement. On attend la suivante.

La loi s'applique à toute donnée transitant par l'Europe. Ceci explique pourquoi Facebook déplace les données des utilisateurs non Européens Données personnelles : Facebook met 1,5 milliard d‘utilisateurs hors de portée du droit européen.

La loi RGPD est sortie mais pas la loi sur les voitures ou les pesticides. Il faut croire que les lobby des GAFA ne sont pas aussi méchants que ça en tout cas moins persistants. On a plus de contrôle sur ce qui est fait de nos données et pas encore ce qui arrive dans notre assiette La fabrique du silence : retour à Glomel.

2018-05-23 Un livre à lire sur le Big Data

Big Data, penser l'homme et le monde autrement, de Gilles Babinet de Gilles Babinet. Les données sont peut-être dangereuses mais on peut faire un grand nombre de choses utiles avec. Le livre cite de nombeux exemples, évoque aussi le passage d'une société au numérique. Quelques extraits...


more...

2018-05-22 Les trains autonomes de demain

La grève à la SNCF nous est relatée principalement par les statistiques du nombre de grévistes qui s'étiole de semaine en semaine. Je n'en ai pas retenu grand si ce n'est la disparition du statut des cheminots et la privatisation partielle voulue par la communauté Européenne. Je n'ai pas l'impression que ces deux mesures répondent au fond du problème à savoir la vétusté des voies autres que TGV qui est à peine rentable de son côté. Je fais un aparté sur un sujet qui témoigne de notre incapacité à prendre de bonne décision. Le tracé de la ligne Est passe dans une gare Champagne Ardennes qui est un hangar en rase campagne à mi-chemin entre deux ville sans que je parvienne à m'expliquer les raisons de ce choix. De ce fait, le train ne s'arrête pas dans un centre-ville ce qui est à mon sens un de ses grands avantages. J'y reviendrai.


more...

2018-05-03 Régression logistique et diagramme de Voronoï

Je retombe régulièrement sur le jeu de données Iris très souvent utilisé pour illustrer car il marche bien. J'aime bien aussi cette image :

Elle me fait penser à un diagramme de Voronoï, le graphe qui dessine les zones d'influences de points dans un plan et plus généralement dans un espace vectoriel. Je me suis alors demandé s'il n'y avait pas d'équivalence entre les deux... La réponse est non dans le cas général mais cela n'empêche pas une petite promenade pour comprendre deux ou trois petites choses sur les problèmes que peut modéliser une régression logistique : Régression logistique, diagramme de Voronoï, k-Means. Vous y verrez une image comme celle-ci :


<-- -->

Xavier Dupré