Galleries

Notebooks Coverage

Découvertes

Quelques notebooks autour de modules très utiles.

_images/pandas_start.thumb.png DataFrames Pandas Un Data Frame est un objet qui est présent dans la plupart des logiciels de traitements de données, c’est une matrice à 2 dimensions, chaque colonne a un type et toutes les cellules de cette colonne sont de ce type (nombre, dates, texte). Une cellule peut contenir une valeur manquante. On peut considérer chaque colonne comme les variables d’une table (pandas.Dataframe - cette page contient toutes les méthodes de la classe).

Examens

Solutions des exercices servant à l’évaluation de ce cursus.

_images/solution_2017.thumb.png Evaluation Python année 2016-2017 - solution Le répertoire data contient deux fichiers csv simulés aléatoirement dont il faudra se servir pour répondre aux 10 questions qui suivent. Chaque question vaut deux points. Le travail est à rendre pour le lundi 20 février sous la forme d’un notebook envoyé en pièce jointe d’un mail.
_images/enonce_2017.thumb.png Evaluation Python année 2016-2017 - énoncé Le répertoire data contient deux fichiers csv simulés aléatoirement dont il faudra se servir pour répondre aux 10 questions qui suivent. Chaque question vaut deux points. Le travail est à rendre pour le lundi 20 février sous la forme d’un notebook envoyé en pièce jointe d’un mail.
_images/solution_2016.thumb.png Solution - énoncé avril 2016 Solution de l’énoncé noté d’avril 2016 (lecture de gros fichiers avec pandas). Voir examens.

Exemples

Quelques astuces récurrentes.

_images/basic_example.thumb.png Exemple de notebooks Exemple très simple permettant de créer un dataframe.
_images/tables_avec_guillemets.thumb.png Tables avec guillemets Le fichier de données à gérer contient quelques désagrément avec des guillements qui gênent la lecture lorsqu’on applique les exemples donnés par la documentation de pandas.

Exercices

Exerices pour pratiquer.

_images/pyramide_bigarree.thumb.png Tracer une pyramide bigarrée Ce notebook est la réponse à l’exercice proposé lors de l’article de blog qui consiste à afficher des boules de trois couleurs différentes de sorte qu’aucune boule n’est de voisine de la même couleur : tracer une pyramide bigarrée.

Internet

Automatisation de traitements avec des données récupérées depuis Internet.

_images/wikipedia_stats_correction2.thumb.png Statistiques Wikipedia - correction (live) Récupération de données wikipedia Correction effectué le 4 octobre 2016.
_images/wikipedia_stats_correction.thumb.png Statistiques Wikipedia - énoncé Parallélisation de la récupération de fichiers de données depuis wikipédia.
_images/wikipedia_stats_enonce.thumb.png Statistiques Wikipedia - énoncé On s’instéresse aux statistiques de consultations de Wikipédia : pageviews. Ce TD commence par récupération des données avant de s’intéresser aux séries temporelles.

nlp

_images/reconstruction_synonymes_correction.thumb.png Reconstruction de synonymes - correction On s’intéresse la construction automatiquement de synonymes. En résumé :
_images/reconstruction_synonymes_enonce.thumb.png Reconstruction de synonymes - énoncé Ce notebook est plus un jeu. On récupère d’abord des synonymes via la base WOLF. On ne garde que les synonymes composé d’un seul mot. On prend ensuite un texte quelconque qu’on découpe en phrase. Pour chaque phrase qu’on rencontre, on remplace des mots au hasard par leur synonymes. Chaque phrase sera présente une fois à l’identique et plusieurs fois avec des synonymes différents. L’objectif est alors de proposer une méthode pour reconstruire la base de synonymes.

Supports pour les sessions réalisées à l’Institut des actuaiaires

Simulation de population, études statistiques, machine learning, à partir de données publiques.

_images/seance5_cube_multidimensionnel_correction.thumb.png Cube multidimensionnel - correction Manipulation de tables de mortalités façon OLAP, correction des exercices.
_images/seance5_cube_multidimensionnel_enonce.thumb.png Cube multidimensionnel - énoncé Ce notebook aborde différentes solutions pour traiter les données qu’on représente plus volontiers en plusieurs dimensions. Le mot-clé associé est OLAP ou cube OLAP. Mondrian est une solution open source, cubes est écrit en python. Kylin propose ce service sur des données stockées sur Hadoop. L’objectif est ici de découvrir pas d’explorer ces solutions.
_images/seance5_sql_multidimensionnelle_correction.thumb.png Données multidimensionnelles SQL - correction Correction de la séance sur l’utilisation du SQL depuis un notebook.
_images/seance5_sql_multidimensionnelle_enonce.thumb.png Données multidimensionnelles SQL - énoncé Ce notebook propose l’utilisation de SQL avec SQLite pour manipuler les données depuis un notebook (avec le module sqlite3.
_images/seance5_approche_fonctionnelle_correction.thumb.png Données, approches fonctionnelles - correction Correction de l’approche fonctionnelle. Elle s’appuie principalement sur des itérateurs et le module cytoolz.
_images/seance5_approche_fonctionnelle_enonce.thumb.png Données, approches fonctionnelles - énoncé L’approche fonctionnelle est une façon de traiter les données en ne conservant qu’une petite partie en mémoire. D’une manière générale, cela s’applique à tous les calculs qu’on peut faire avec le langage SQL. Le notebook utilisera des données issues d’une table de mortalité extraite de table de mortalité de 1960 à 2010 (le lien est cassé car data-publica ne fournit plus ces données, le notebook récupère une copie) qu’on récupère à l’aide de la fonction table_mortalite_euro_stat.
_images/seance5_approche_fonctionnelle_enonce_blaze.thumb.png Données, approches fonctionnelles - énoncé - blaze - odo Ce notebook illustre le module Blaze.
_images/election_carte_electorale_correction.thumb.png Elections et cartes électorales - correction Bidouiller les cartes électorales n’est pas facile mais il n’est pas nécessaire d’être très efficace pour orienter la décision dans un sens ou dans l’autre. L’idée principale consiste à bouger des électeurs d’une circoncription à l’autre pour favoriser les candidats d’un seul parti. Il faut que ces candidats sont élus avec une majorité suffisante tandis que les candidats adversaires doivent l’être avec une grande majorité. C’est une façon de donner plus d’importance aux voix d’un seul parti car elles annulent celles des autres. L’objectif visé est la préparation d’une prochaine élection à partir des résultats de la précédente sans que cela se voit trop. Mais nous pourrions essayer de faire basculer les résultats d’une élection dans un camp ou dans l’autre.
_images/election_carte_electorale.thumb.png Elections et cartes électorales - énoncé D’après wikipédia, le Gerrymandering est un terme politique nord-américain pour désigner le découpage des circonscriptions électorales ayant pour objectif de donner l’avantage à un parti, un candidat, ou un groupe donné. Et c’est ce que nous allons faire dans cette séance. C’est un problème tout-à-fait d’actualité : Primaire de la droite : 10 228 bureaux de vote stratégiquement répartis.
_images/seance4_projection_population_correction.thumb.svg Evoluation d’une population (correction) Evolution d’une population à partir des tables de mortalités et d’une situation initiale.
_images/seance4_projection_population_enonce.thumb.png Evoluation d’une population - énoncé On souhaite ici faire évoluer une population à partir de table de mortalité et d’une situation initiale. Dans ce type d’exercice, on fait souvent un grand nombre de recherche internet pour trouver la fonction qui permet d’aller vite. Avec la pratique, on retient le nom de ces méthodes. La correction propose une solution mais il n’existe pas une façon unique de répondre à ces questions.
_images/seance6_graphes_correction.thumb.png Graphes - correction Correction des exercices sur les graphes avec matplotlib.
_images/seance6_graphes_enonce.thumb.png Graphes - énoncé Ce notebook introduit matplotlib et d’autres modules Python qui permettent de tracer des graphes et bâtis sur la même logique que matplotlib.
_images/seance6_graphes_ml_correction.thumb.png Graphes en machine learning - correction Correction (en cours de rédaction) des exercices autour des graphes courants en machine learning.
_images/seance6_graphes_ml_enonce.thumb.png Graphes en machine learning - énoncé Ce notebook propose une série de graphes qu’on utilise fréquemment dans un notebook lorsqu’on fait du machine learning. Cela comprend notamment la courbe ROC pour les problèmes de classification.
_images/population_recuperation_donnees.thumb.png Récupération des données Ce notebook donne quelques exemples de codes qui permettent de récupérer les données utilisées par d’autres notebooks. Le module actuariat_python est implémenté avec Python 3. Pour les utilisateurs de Python 2.7, il suffira de recopier le code chaque fonction dans le notebook (suivre les liens insérés dans le notebook).
_images/2017_session6.thumb.png Session 26/6/2017 - machine learning Découverte des trois problèmes de machine learning exposé dans l’article Machine Learning - session 6.
_images/bigdata_ways.thumb.png Séance big data Découverte de plusieurs façons de calculer des statistiques sur des fichiers volumineux.