Galleries de notebooks

Notebooks Coverage

Découvertes

Quelques notebooks autour de modules très utiles.

_images/pandas_start.thumb.png

DataFrames Pandas

Un Data Frame est un objet qui est présent dans la plupart des logiciels de traitements de données, c’est une matrice à 2 dimensions, chaque colonne a un type et toutes les cellules de cette colonne sont de ce type (nombre, dates, texte). Une cellule peut contenir une valeur manquante. On peut considérer chaque colonne comme les variables d’une table (pandas.Dataframe - cette page contient toutes les méthodes de la classe).

Examens

Solutions des exercices servant à l’évaluation de ce cursus.

_images/solution_2017.thumb.png

Evaluation Python année 2016-2017 - solution

Le répertoire data contient deux fichiers csv simulés aléatoirement dont il faudra se servir pour répondre aux 10 questions qui suivent. Chaque question vaut deux points. Le travail est à rendre pour le lundi 20 février sous la forme d’un notebook envoyé en pièce jointe d’un mail.

_images/enonce_2017.thumb.png

Evaluation Python année 2016-2017 - énoncé

Le répertoire data contient deux fichiers csv simulés aléatoirement dont il faudra se servir pour répondre aux 10 questions qui suivent. Chaque question vaut deux points. Le travail est à rendre pour le lundi 20 février sous la forme d’un notebook envoyé en pièce jointe d’un mail.

_images/solution_2016.thumb.png

Solution - énoncé avril 2016

Solution de l’énoncé noté d’avril 2016 (lecture de gros fichiers avec pandas). Voir examens.

Exemples

Quelques astuces récurrentes.

_images/basic_example.thumb.png

Exemple de notebooks

Exemple très simple permettant de créer un dataframe.

_images/tables_avec_guillemets.thumb.png

Tables avec guillemets

Le fichier de données à gérer contient quelques désagrément avec des guillements qui gênent la lecture lorsqu’on applique les exemples donnés par la documentation de pandas.

Exercices

Exerices pour pratiquer.

_images/pyramide_bigarree.thumb.png

Tracer une pyramide bigarrée

Ce notebook est la réponse à l’exercice proposé lors de l’article de blog qui consiste à afficher des boules de trois couleurs différentes de sorte qu’aucune boule n’est de voisine de la même couleur : tracer une pyramide bigarrée.

Internet

Automatisation de traitements avec des données récupérées depuis Internet.

_images/wikipedia_stats_correction2.thumb.png

Statistiques Wikipedia - correction (live)

Récupération de données wikipedia Correction effectué le 4 octobre 2016.

_images/wikipedia_stats_correction.thumb.png

Statistiques Wikipedia - énoncé

Parallélisation de la récupération de fichiers de données depuis wikipédia.

_images/wikipedia_stats_enonce.thumb.png

Statistiques Wikipedia - énoncé

On s’instéresse aux statistiques de consultations de Wikipédia : pageviews. Ce TD commence par récupération des données avant de s’intéresser aux séries temporelles.

nlp

_images/reconstruction_synonymes_correction.thumb.png

Reconstruction de synonymes - correction

On s’intéresse la construction automatiquement de synonymes. En résumé :

_images/reconstruction_synonymes_enonce.thumb.png

Reconstruction de synonymes - énoncé

Ce notebook est plus un jeu. On récupère d’abord des synonymes via la base WOLF. On ne garde que les synonymes composé d’un seul mot. On prend ensuite un texte quelconque qu’on découpe en phrase. Pour chaque phrase qu’on rencontre, on remplace des mots au hasard par leur synonymes. Chaque phrase sera présente une fois à l’identique et plusieurs fois avec des synonymes différents. L’objectif est alors de proposer une méthode pour reconstruire la base de synonymes.

Supports pour les sessions réalisées à l’Institut des actuaiaires

Simulation de population, études statistiques, machine learning, à partir de données publiques.

_images/seance5_cube_multidimensionnel_correction.thumb.png

Cube multidimensionnel - correction

Manipulation de tables de mortalités façon OLAP, correction des exercices.

_images/seance5_cube_multidimensionnel_enonce.thumb.png

Cube multidimensionnel - énoncé

Ce notebook aborde différentes solutions pour traiter les données qu’on représente plus volontiers en plusieurs dimensions. Le mot-clé associé est OLAP ou cube OLAP. Mondrian est une solution open source, cubes est écrit en python. Kylin propose ce service sur des données stockées sur Hadoop. L’objectif est ici de découvrir pas d’explorer ces solutions.

_images/seance5_sql_multidimensionnelle_correction.thumb.png

Données multidimensionnelles SQL - correction

Correction de la séance sur l’utilisation du SQL depuis un notebook.

_images/seance5_sql_multidimensionnelle_enonce.thumb.png

Données multidimensionnelles SQL - énoncé

Ce notebook propose l’utilisation de SQL avec SQLite pour manipuler les données depuis un notebook (avec le module sqlite3.

_images/seance5_approche_fonctionnelle_correction.thumb.png

Données, approches fonctionnelles - correction

Correction de l’approche fonctionnelle. Elle s’appuie principalement sur des itérateurs et le module cytoolz.

_images/seance5_approche_fonctionnelle_enonce.thumb.png

Données, approches fonctionnelles - énoncé

L’approche fonctionnelle est une façon de traiter les données en ne conservant qu’une petite partie en mémoire. D’une manière générale, cela s’applique à tous les calculs qu’on peut faire avec le langage SQL. Le notebook utilisera des données issues d’une table de mortalité extraite de table de mortalité de 1960 à 2010 (le lien est cassé car data-publica ne fournit plus ces données, le notebook récupère une copie) qu’on récupère à l’aide de la fonction table_mortalite_euro_stat.

_images/election_carte_electorale_correction.thumb.png

Elections et cartes électorales - correction

Bidouiller les cartes électorales n’est pas facile mais il n’est pas nécessaire d’être très efficace pour orienter la décision dans un sens ou dans l’autre. L’idée principale consiste à bouger des électeurs d’une circoncription à l’autre pour favoriser les candidats d’un seul parti. Il faut que ces candidats sont élus avec une majorité suffisante tandis que les candidats adversaires doivent l’être avec une grande majorité. C’est une façon de donner plus d’importance aux voix d’un seul parti car elles annulent celles des autres. L’objectif visé est la préparation d’une prochaine élection à partir des résultats de la précédente sans que cela se voit trop. Mais nous pourrions essayer de faire basculer les résultats d’une élection dans un camp ou dans l’autre.

_images/election_carte_electorale.thumb.png

Elections et cartes électorales - énoncé

D’après wikipédia, le Gerrymandering est un terme politique nord-américain pour désigner le découpage des circonscriptions électorales ayant pour objectif de donner l’avantage à un parti, un candidat, ou un groupe donné. Et c’est ce que nous allons faire dans cette séance. C’est un problème tout-à-fait d’actualité : Primaire de la droite : 10 228 bureaux de vote stratégiquement répartis.

_images/seance4_projection_population_correction.thumb.png

Evoluation d’une population (correction)

Evolution d’une population à partir des tables de mortalités et d’une situation initiale.

_images/seance4_projection_population_enonce.thumb.png

Evoluation d’une population - énoncé

On souhaite ici faire évoluer une population à partir de table de mortalité et d’une situation initiale. Dans ce type d’exercice, on fait souvent un grand nombre de recherche internet pour trouver la fonction qui permet d’aller vite. Avec la pratique, on retient le nom de ces méthodes. La correction propose une solution mais il n’existe pas une façon unique de répondre à ces questions.

_images/seance6_graphes_correction.thumb.png

Graphes - correction

Correction des exercices sur les graphes avec matplotlib.

_images/seance6_graphes_enonce.thumb.png

Graphes - énoncé

Ce notebook introduit matplotlib et d’autres modules Python qui permettent de tracer des graphes et bâtis sur la même logique que matplotlib.

_images/seance6_graphes_ml_correction.thumb.png

Graphes en machine learning - correction

Correction (en cours de rédaction) des exercices autour des graphes courants en machine learning.

_images/seance6_graphes_ml_enonce.thumb.png

Graphes en machine learning - énoncé

Ce notebook propose une série de graphes qu’on utilise fréquemment dans un notebook lorsqu’on fait du machine learning. Cela comprend notamment la courbe ROC pour les problèmes de classification.

_images/population_recuperation_donnees.thumb.png

Récupération des données

Ce notebook donne quelques exemples de codes qui permettent de récupérer les données utilisées par d’autres notebooks. Le module actuariat_python est implémenté avec Python 3. Pour les utilisateurs de Python 2.7, il suffira de recopier le code chaque fonction dans le notebook (suivre les liens insérés dans le notebook).

_images/2017_session6.thumb.png

Session 26/6/2017 - machine learning

Découverte des trois problèmes de machine learning exposé dans l’article Machine Learning - session 6.

_images/bigdata_ways.thumb.png

Séance big data

Découverte de plusieurs façons de calculer des statistiques sur des fichiers volumineux.