Data en folie

Il est difficile de résumer les sujets de cette rubrique. Il s’agit toujours de triturer des données de différentes façons, machine learning, datamining, recherche opérationnelle, texte mining…

Inférer les trajectoirs de vélo vélib

C’était le sujet de la première coding party que personne n’est vraiment arrivé à conclure. Avec un peu plus de temps, qui sait ? Voir aussi Déterminer la vitesse moyenne des vélib.

Nuages de mots, extraction de concepts

Les nuages de mots sont apparus récemment pour représenter les mots-clés les plus importants sur une page, un ensemble de pages internet : Tag Cloud.

../_images/nuage.png

L’objectif est de construire ces nuages de points pour les discours du premier ministre et du président de la République. Le rendu graphique peut être réalisé simplement à partir du langage HTML (voir l”exemple suivant) ou en utilisant des représentations dynamiques (voir More about interactive graphs using Python, d3.js, R, shiny, Jupyter, vincent, d3py, python-nvd3). Pour déterminer l’importance des termes, les premiers essais pourront être faits en fonction de la fréquence de chaque mot bien que cette méthode a tendance à favoriser les petits mots. On pourra ensuite utiliser des critères plus complexes comme celles suggérées sur la page Tag Cloud.

Quelques références bibliographiques :

Pour la partie extraction de concepts, on pourra s’inspirer de :

Deux blogs qui pourront vous donner d’autres idées comme calculer la richesse d’un vocabulaire :

Si besoin, voici d’autres données sur un autre blog :

Et quelques exemples de nuages : Creating Stylish, High-Quality Word Clouds Using Python and Font Awesome Icons.

Twitter

On peut faire beaucoup de choses avec Twitter. La première étape consiste à récupérer des données avec des modules tels que :

Ensuite, l’exploitation des données peut varier. A partir de données historiques qu’on collectera tout au long du projet, on peut chercher à prédire un événément, la météo, des opinions…

Quelques références :

Il est préférable de lire le dernier article avant de commencer le projet.

Recherche de texte dans n’importe quelle base de données avec Whoosh

Whoosh est un module Python qui permet de faire de la recherche dans une base de données de textes. Il faudra d’abord constituer un corpus de texte (discours politiques, pages wikipedia dumps, Twitter, blogs, …)

Evaluer un moteur de recherche n’est pas chose facile, cela dépend de la tâche, du corpus… Une métrique possible est le DCG. Le projet se déroulera en plusieurs étapes :

Source de textes