XD blog

blog page


2019-04-01 Determines close leaves in a decision tree

That's a problem I had in mind yesterday. When scikit-learn builds a decision tree, we might want to say which classes share a border with another one, which I translated by which couples of leaves of a decision tree share a border. The final node determines which feature to use to split between two leaves and two classes. What can we say about two leaves far away in the tree structure? Do they share a border? We could use the training data to build a kind of Voronoï diagram for points and group cells which belong to the same leave. What if we do not have the training data?

My answer is implemented somewhere on my website. This question was something I was looking into to imagine a way to build a continuous piecewise linear regression with at least two features... which is impossible but still finding close leaves seemed a good algorithmic problem.

2019-03-28 Airbus et Huawei

Je ne peux m'empêcher de rapprocher les deux nouvelles : Gigantesque commande de 300 avions Airbus par l’entreprise d’Etat chinoise CASC, Huawei : l’Europe résiste aux pressions américaines. La Chine achète des Airbus et Huawei est autorisé en Europe. Une coïncidence... Et l'écologie dans tout ça...

2019-03-24 Ecran blanc pour les notebooks, panique à bord

J'ai passé la nuit à coder un truc et que je lorsque je veux montrer que le code est plus rapide, j'ouvre un server de notebook pour me retrouver avec un écran blanc. Mon premier réflexe est d'essayer pas mal de navigateur pour avoir toujours le même résultat. Un écran blanc. Merde, merde, merde ! Le bug pour lequel vous n'aimez pas la programmation. Mon premier réflexe fut de réinstaller mon python en intégralité, comme sur windows, quand ça merde, on reboote.

Evidemment, après une heure d'installation, toujours la même chose. Il faut deviner le package qui ne tourne pas rond. Quelques recherches plus loin, je tombe sur cette issue while launching jupyter notebook ou celle-ci Jupyter Notebook - Blank Screen - after pip install jupyter. C'est le genre de problème qui n'apparaissait que sous Windows, allez savoir pourquoi. Bref, la solution proposée par le premier a marché. L'erreur survient quand on installe le module notebook>=5.7.6.

J'ai réinstallé mon python pour rien. Merde.

2019-03-16 Le métro est plus régulé que la finance

Je prends le métro tous les jours quasiment et je suis sûr que vous avez déjà entendu comme moi que le métro stationnait pour cause de régulation, que le métro précédent soit parti une ou dix minutes avant, ça ne change rien. La régulation vous cueille au moins une fois par jour et on ne sait jamais pourquoi. Je suppose que le métro précédent est coincé pour régulation, même s'il n'est plus là depuis longtemps, et celui d'avant aussi, et encore celui d'avant... Bref, ça n'en finit pas.

Imaginer que la finance soit régulée de la même façon : Désolé, vous ne pouvez pas passer vos ordres, la bourse est embouteillée, rappelez plus tard. Ou encore, la quotation est suspensdue, le gérant est surmené et n'arrive plus à gérer le stress de ses actionnaires. Pour raisons de santé, la quotation reprendra dans une semaine, voire plus selon les recommandations du médecin. Allez boire un verre !

2019-03-10 Open Source

First time in my life when whatever I do is open source and on GitHub. I remember when I left my first company, it was quite annoying to leave everything I contributed to behind me and not being able to look what it became from time to time. It is like coming back to your hometown, it is a place you know very well and quite hard to leave for ever.

I made a page for all the open source projects I work on. Most of them are my own, a couple of them contains the teaching I do, some others automate the publishing of the first one, some help me during my daily life, the last ones are Microsoft's one.

2019-02-28 Sprint scikit-learn

J'ai vécu mon premier sprint scikit-learn. J'avais posté au préalable une issue Faster PolynomialFeatures à laquelle j'ai proposé une solution Fixes #13173, implements faster polynomial features for dense matrices. Je recommande l'aventure à tous ceux qui souhaitent comprendre comment on construit une librairie de machine learning qui plaise au plus grande nombre. J'y ai croisé des chercheurs venus de tous horizons, des contributeurs de scikit-learn, venus pour réfléchir sur les prochains grands défis de la librairie que je résumérais par : Comment répondre à de nouveaux usages tout en conservant la simplicité du design actuel ?.


more...

2019-02-15 J'ai vieilli

L'image en couleur extraite du dernier hackathon de l'école... Data Driven Paris 13 mars.

Je vais parler d'ONNX... Pour les vieux comme moi, ça pourrait rappeler un album de Papyrus... Onyx...

2019-02-13 Data For Good #5

Le cinquième opus de DataForGood a lieu dans une annexe de l'assemblée nationale qui, d'après la député Paula Forteza, accueille tous les vendredis matin quelques membres du gouvernement dont le premier ministre pour réfléchir à la numérisation de l'Etat. C'est de loin la session la plus aboutie avec des projets qui peuvent réellement déboucher sur des utilisations quotidiennes. Dans le jury également, Laura Létourneau qui a écrit Ubérisons l'État ! Avant que d'autres ne s'en chargent.


more...

2019-01-27 Les OGM des sorciers

L'émission Vox Pop sur Arte Le retour des OGM revient brièvement sur des OGM qui échappent à l'étiquettage européen : on les mange sans le savoir car la loi ne classifie comme OGM qu'une plante génétiquement modifée avec les gènes d'une autre plante. Ces nouveaux OGM sont censés être une évolution possible de la plante elle-même, une évolution improbable capable de résister à un pesticide en particulier. Il est impossible d'en savoir plus puisque chaque protège son secret de fabrication. Mais supposons que cela soit vrai...


more...

2019-01-26 Le procès du champ contaminé

Macron est revenu sur sa promesse : Emmanuel Macron renonce à sa promesse d’interdire le glyphosate en 2021, officiellement pour des raisons économiques car son arrêt tuerait notre agriculture. Je me demande ce qui l'a poussé à promettre une telle chose, soit il ne savait pas et c'est un peu léger pour un ancien ministre de l'économie, soit il savait et c'est un homme politique aussi brillant que tous ceux qui l'ont précédé.

Nous ne sommes jamais aussi inventifs que sous la contrainte, ce qui est économiquement inenvisageable est souvent techniquement possible à condition de se donner les moyens. Nous sommes même allés sur la lune. Emplois perdus maintenant ou cancers probables plus tard... Tribune de Corinne Lepage sur le glyphosate : "Après la justice climatique, la justice sanitaire". L'innovation est une chose que l'économie modélise difficilement.


more...

2019-01-20 La pollution il y a 10 ans

Deux vieux articles écrits en 2007, il y a plus de 10 ans donc... Le poison français, La mort des abeilles met la planète en danger. Et rien n'a changé. On écrirait les mêmes aujourd'hui. Sans doute en pire.

2019-01-15 E171

Le ministre a repoussé l'application d'un décret voté par les parlementaites aux calandes grecques : E171 : l’additif alimentaire controversé ne sera pas suspendu. Ce qui pourrait s'apparenter à un déni de démocratie est justifié par le ministre par le fait que les rapports scientifiques ne concordent pas sur la dangerosité de ce produit et que, je suppose, l'Europe pourrait retoquer la décision prise par les députés français. On ne sait pas si l'additif est toxique à haute dose ni sur le long terme, les expériences sur les rats suggèrent que oui, mais on sait pourquoi il est dangereux : les fines particules s'accumulent dans le corps sans que le corps sans les éliminer. Sur Amazon, on voit qu'il est à peu près partout : dioxyde de titane, et s'il sert à faire briller les bonbons, il fait aussi briller la peinture et le savon. L'article Mais où se cachent les nanoparticules ? recense de nombreux produits alimentaires qui contiennent des additifs que nous devrions éviter d'absorber, information qu'il est possible sur le sur le site site OpenFoodFacts. Il y en a même dans les médicaments Colorant E171: attention, les médicaments en contiennent aussi!. Pour faire plus court, dès que vous avez mal au crâne, vous prenez du paracétamol qui contient de l'E171.


more...

2019-01-06 Réplique tirée de Battlestar Gallactica à propos des gilets jaunes

Cette réplique fait écho aux manifestations des gilets jaunes, elle dite par le chef qui dirige l'équipe produisant le carburant pour toute la flotte y compris les bâtiments de l'armée : Quand le carburant coule, mes coups de fil sont sans effets, en revanche, à la minute où il y a un ennui pour fournir le carburant, j'arrive à avoir un entretien dans la minute avec la présidente et l'amiral. Peut-être qu'on devrait se décider à avoir plus d'ennuis à l'avenir. L'épisode est celui-ci : Grève générale. La réponse que lui opposent la présidente et l'amiral revient à dire qu'en période de guerre, le moindre ennui revient à mettre en jeu la survie de l'humanité. La suite de l'épisode évolue entre affrontement, lutte des classes et happy end à la fin.

2019-01-03 Amazon et la loi antitrust

Amazon’s Antitrust Paradox

2018-12-29 Pourquoi les objets connectés ont des défauts ?

La plupart des assistants vocaux ne fonctionnent qu'à partir du moment où ils ont reconnu un ordre précis dans le flot de paroles que leurs utilisateurs prononcent. Les premières versions sont probablement des chat bots améliorées répondent à un nombre grand d'ordres préprogrammés, suffisamment grand pour susciter l'intérêt du consommateur. Mais l'essentiel n'est pas là, il est surtout de récolter beaucoup de données qui permettent d'entraîner des modèles de machine learning de plus en plus complexe. Pour construire un service d'automatisation basé sur de l'intelligence artificielle, la première étape passe par la récole de données liées à l'usage future de ce service, ce qui n'est pas toujours évident puisque le service n'existe pas encore d'où l'usage de premières versions défectueuses mais très utiles pour la moisson.


-->

Xavier Dupré