XD blog

data

2014-12-20 Fréquentation d'un site internet...

Google Analytics est un service qui permet d'avoir rapidement des chiffres sur la fréquentation d'un site internet. On détecte sa présence par un petit code javascript inséré à la fin du code source d'une page. J'avoue que je l'ajoute à la plupart des pages. Ca me permet de dire que l'article le plus lu de ce blog est celui qui permet de compter les couleurs d'une cellule Excel. Lu n'est probablement pas le bon terme puisque beaucoup de gens atterrissent sur cette page et repartent. Combien... difficile à dire. Et puis, le site est aspiré par des robots... Que fait Google de ces données ? Difficile à dire. Même le site de l'Elysee l'utilise.

2014-09-30 Graphs, Large Datasets, Algorithm, 3D printing

I was looking at some papers, this one is particular: Community Detection via Local Dynamic Interaction which made me discover a link to website with many datasets on graphs Stanford Large Network Dataset Collection. And if you are looking for a way to show your facebook connections in your living-room, maybe you will be interested by this one: Using 3D Printing to Visualize Social Media Big Data.

2014-03-15 Data pipeline in Python

I started to use Hadoop in 2008 at Yahoo. At that time, I liked it because the language introduced new constraints (there is no index, you can dispatch a huge amount of data among many machines but you have a limited amount of memory to process it on each machine) and it was fun playing with them. However, after a while, I accumulated many jobs, and I had to remember which one to run and in which order to get the final results. It is fine when you do research but not very convenient when you need to explain the full workflow to somebody else and even less convenient when you need to productionize the workflow.

more...

2013-05-06 Quelques références

Python XY est une compilation de modules Python utilisés pour le calcul scientifique. Il inclut également un environnement qui ressemble à Matlab où R studio. Je n'ai pas vraiment réussi à l'installer sans casse la dernière fois que j'ai essayé et il n'est pas disponible en version 3. La liste des modules est intéressante. On y trouve un module tel que swapy qui permet d'automatiser des clicks sur des applications Windows, pyMC pour faire de l'inférence bayésienne ou encore WinMerge un outil pour comparer des fichiers ou des arborescences de fichiers.

Le format de documentation (ReStructuredText) développé pour Sphinx est directement intégré à GitHub qui recueille de plus en plus de projets open source. Le livre Probabilistic Programming and Bayesian Methods for Hackers est écrit avec ce format et il s'affiche directement depuis GitHub.

Dans un autre ordre d'idées, lorsqu'on développe et qu'on veut tester l'installation d'un module ou d'avoir des versions différentes de modules, il est possible de créer un environnement virtuel avec VirtuelEnv. Pour déployer un site web avec un push sur GitHub, on peut utiliser Heroku qui prend en charge des tests basiques et le déploiement.

Enfin, JCDecaux a rendu certaines données temps réel publiques données vélib. On peut télécharger au moyen d'une interface des données sur la présence ou l'absence de vélos à toutes les stations à n'importe quelle heure.

Xavier Dupré