XD blog

blog page

2016-06


2016-06-25 Writing scientific with Sphinx

There exists many cheat sheets for Sphinx. One of the most simple and useful is the following: Sample Document. Just click on the source.

Sometimes line-block does not keep indentation. The solution is then to update your style as follows: my-style.css.

2016-06-20 A joke but it is so true

source: commitstrip

2016-06-15 Talk at PyData: 10 plotting libraries

I did a talk at PyData yesterday. My slides and notebook are available at: PyData 06/14/2016 in Paris.

2016-06-14 Post de Microsoft sur le hackathon avec l'ENSAE et la Croix-Rouge

Je relaie les deux articles publiés par Microsoft à propos de la série de hackathons académiques dont celui organisé à Paris avec l'ENSAE et La Croix-Rouge : Developing the Next Wave of Data Scientists, Firing up next-generation data scientists. Le premier article contient un lien vers les vidéos réalisées pour chaque événement.

J'ai participé à celui-ci.

2016-06-10 Lectures et algorithmes un vendredi

Je commencerai par le plus facile : Dans la vallée de la Bièvre, la crue et les inondations ont été contenues. En bref, 18 km de rivière sont régulées par des vannes commandées par un algorithme. Et cela a fonctionné.

Côté programmation, TensorFlow commence à faire des petits. En voici un : tflearn qui propose une API Python différente pour les fonctionnalités de TensorFlow. De fil en aiguille, on remonte jusqu'au compte GitHub de l'auteur pour tomber sur des exemples avec TensorFlow et un autre site Machine Learning & Deep Learning Tutorials. C'est sans doute un peu moins poli que celui-ci Free Kaggle Machine Learning Tutorial for Python. Ensuite, CVXPY est un module qui permet de faire de l'optimisation convexe avec ou sans contrainte. Pour fermer cette parenthèse, je vous suggère de retourner sur Kaggle avec le script de la semaine May 2016: Scripts of the Week, February 2016: Scripts of the Week.

Pour finir, quelques articles très récents. Le premier pour comprendre comment fonctionnent les enchères sur internet Learning Algorithms for Second-Price Auctions with Reserve. Le second pour avoir envie de faire autre chose que de la sélection de variables : Structure-Leveraged Methods in Breast Cancer Risk Prediction. Le troisième parce que j'ai toujours eu envie d'étudier les sessions des utilisateurs d'un moteur de recherche d'une façon différente : A Gibbs Sampler for Learning DAGs. DAG veut dire directed acyclic graph. Le quatrième parce que je suis curieux : Consistent Distribution-Free K -Sample and Independence Tests for Univariate Random Variables. Le cinquième pour le titre : Learning Using Anti-Training with Sacrificial Data". Enfin, dans les sujets en vogue, l'apprentissage par renforcement : Thompson sampling et An Information-Theoretic Analysis of Thompson Sampling.

2016-06-09 Old R or Young Python?

Python was conceived in 1990 (source Wikidepia). Not so young maybe compare to R which is in fact younger but inspired from a much older language S born around 1975. Why bringing back this question when every data scientist knows both, when universities teach both? Difficult to say which one is best according to R and python usages. According to Top Data Scientists to Follow & Best Data Science Tutorials on GitHub, Python seems to be more popular among the top data scientist on GitHub. But is there any competition? Choosing R or Python for data analysis? An infographic

So...

Every data scientist is using both language but all of them are using mostly one. Then a former student told me that little story. His company was using R as a preferred language but as new hires joined, Python became more and more popular. I was thinking maybe we should compare the average age of people mostly using one or the other.


Xavier Dupré