Statistiques Wikipedia - énoncé

On s'instéresse aux statistiques de consultations de Wikipédia : pageviews. Ce TD commence par récupération des données avant de s'intéresser aux séries temporelles.

Récupération des données

Les statistiques sont disponibles pour chaque heure et chaque jour. Compressés, cela représente environ 60Mo. On regarde un fichier.

Ca va prend un petit peu de temps et d'espace de télécharger ces données.

Exercice 1 : parallélisation du téléchargement

Regarde le module multiprocessing et implémenter une version parallélisée du programme suivant. multiprocessing est la librairie standard mais il en existe beaucoup d'autres : ParallelProcessing, joblib.

Exercice 2 : statistiques

On veut comparer les habitudes de lectures des utilisateurs pour différents types de pages, politique, musique, cinéma, science, littérature... On prendra une semaine quelconque comme période d'étude. Que proposez-vous ?