Main Filters

~technical - ~ENSAE - ~recreative

XD blog

blog page


2016-09-21 A few tricks with Anaconda

Anaconda hides some undesirable behaviors sometimes. I ran into this one a few days ago: cannot import name 'QtCore' which I solved by applying the following trick: ImportError: cannot import name 'QtCore'. Another unexpected behavior happened when I tried to create a virtual environment on a different drive. Finally, I'd like to have a way to avoid copying everything when I need a new virtual environment. At least, this is what happens on Windows.

2016-09-20 Digging into a random forest

A few links. Help yourself. Interpreting random forests, Reading and interpreting random forest models, treeinterpreter.

2016-09-19 Apprendre la programmation avec Python

Je songe à donner une seconde vie au livre que j'ai écrit voici quelques années pour apprendre la programmation sous la même forme que celle que j'utilise pour mes enseignements. Apprendre la programmation avec Python.

2016-09-18 HDF5

A slightly biaised post is a good way to learn. See for example this one Moving away from HDF5 and the next one more objective Should you use HDF5?. The post is about publishing a blog post with Travis: Setting up a blog with Pelican and GitHub Pages. By following the link, you find a way to put private keys in your code Publish your Pelican blog on Github pages via Travis-CI.

2016-09-05 Reprise des cours

Et donc je n'ai pas trop le temps de blogger. J'ai jeté un coup d'oeil sur PyCon 2016. Pas mal de vidéo intéressante. Pour ceux qui préfèrent les maths, quelques jeux autour des systèmes de complétion. Mais je ne suis pas le seul artiste dans la famille. Si vous passez à Charleville.


more...

2016-08-16 Reading, modules about machine learning...

How to train a model with imbalanced datasets (not enough observation for a class), to do recommendations or to compute confidence intervals on prediction with a random forest? That's some of the answer the following extensions of scikit-learn try to answer.

Some papers. I will not probably have time to read more than one or two with the teachings preparation but I should to get more ideas about students projects.

2016-08-11 Tous mes cours sont sur GitHub...

Et pour m'envoyer une correction, vous pouvez m'envoyer un mail ou utiliser le processus suivant : Editing files in your repository.

2016-08-09 Quelques lectures intéressantes pendant la préparation des cours

2016-08-01 Un peu d'agriculture de quartier

C'est plus une conversation volée hier à Paris à un agriculteur qui expliquait à un client pourquoi on ne pouvait pas trouver ses fraises chez Carrefour. L'agricultrice produit six cagettes par jour et cette quantité est trop petite pour intéresser les grandes surfaces. La discussion se poursuivit sur le changement opéré par l'agriculteur ces dernières années pour choisir une agriculture raisonnée. Avant, il gérait 55.000 mètres carrés de pommier qu'il traitait avec toutes sortes de produits dont des pesticides. Il produisait 55 tonnes de pommes par an pour une attention constante régulier et une perte de 100.000 euros. Aujourd'hui, il gère seulement 8.000 mètres carrés, ne répand aucun produit. Il travaille beaucoup moins qu'avant pour presser les 6 tonnes de pommes qu'il vent sous forme de jus de fruits. Je ne me souviens plus du chiffre exact mais il gagne maintenant quelques milliers d'euros. De son discours, on comprenait qu'il essayait de convaincre ses amis d'opérer la même bascule. Je risquais une remarque sur le sac en plastique qu'il me tendait et la réponse fusa : c'était un sac en amidon de maïs.

Je n'aurais sans doute pas retenu cette histoire si je n'étais allé au marché de Morcenx qui aurait dû rassembler une soixantaine de petits producteurs locaux d'après les différents site web que nous avons consultés. A l'arrivée, seul une dizaine. L'un d'eux nous disait que cette affluence était habituelle et la raison est économique. Les agriculteurs s'en sortent difficilement. J'ai tout de même acheté des melons, deux fois moins cher qu'à Paris.

2016-07-31 Ouvrir les données

Je reviens de vacances. J'étais à Mimizan. Au cours de mes balades, je suis tombé sur ce panneau.

Il est apposé sur une sorte de piédestal assez haut pour surmonter les grandes marées. Au pied s'écoulent les rejets de l'usine GascognePapier. Je ne doute pas de la véracité de l'annonce mais l'odeur assez forte qui se dégage du ruisseau qui s'écoule dans la mer ébranle quelque peu cette affirmation. Pourquoi chercher à réduire des rejets s'ils ne sont pas toxiques ? Une personne qui a traversé l'écoulement pieds nus - nous sommes sur une plage - a pris soin quelques mètres plus loin de nettoyer ses jambes jusqu'au genou. Et puis réduire par 5, qu'est-ce que cela veut dire ? Je suppose qu'en 20 ans, la composition de ces déchets a évolué. Que veut dire réduire par 5 ? On peut réduire le volume des rejets par 5 tout en rejetant la même quantité de produits nocifs.

Je me suis alors demandé si j'aboutirais à la même conclusion à partir de données relatives à la composition de ces rejets. Pourquoi ne pas publier ces données si ces rejets ne sont pas toxiques ?

2016-07-20 Python module: mlxtend

A module to follow mlxtend. Don't forget to read the blog of his author: sebastianraschka. Worth the detour.

2016-07-07 Machine Learning? What did you say?

Yesterday my sister asked : What is machine learning? And she quickly added please explain with terms I know.

Ok...

So I won't say this is just a bunch of optimization problems which apply on data to improve the efficiency of a company.

What should i say?

Should I apply the shaddock logic to my job: if I can't explain, I'm no use. Is it about quantifying people's intuition with data?

Well...

Machine Learning is everywhere but that won't help. In cars, in websites, in sales, but that won't help.

So I thought. Think about your job today, think about it in 20 years. A robot will probably do it. We always think a robot is a machine as if you could only automate physical jobs such as a mechanical arm. But the smaller robot is a program for computers. I press a button to update my blog: this is a robot. By extension, we could consider machine learning a kind of robot for statisticians. We don't try anymore to analyze the data, to model it. We just try to apply a black box which tells us if the data can be predicted. How? we care less.

Is that the end of the story?

The robot knows more and more and still can only solve problems we've seen. Not the last one. The new one. So the job is now to improve the robot so that I don't solve the same problem twice.

2016-06-25 Writing scientific with Sphinx

There exists many cheat sheets for Sphinx. One of the most simple and useful is the following: Sample Document. Just click on the source.

Sometimes line-block does not keep indentation. The solution is then to update your style as follows: my-style.css.

2016-06-20 A joke but it is so true

source: commitstrip

2016-06-15 Talk at PyData: 10 plotting libraries

I did a talk at PyData yesterday. My slides and notebook are available at: PyData 06/14/2016 in Paris.


<-- -->

Xavier Dupré