2A.eco - Mise en pratique des séances 1 et 2 - Utilisation de pandas et visualisation

Links: notebook, html, PDF, python, slides, GitHub

Trois exercices pour manipuler les donner, manipulation de texte, données vélib.

from jyquickhelper import add_notebook_menu
add_notebook_menu()

Données

Les données sont téléchargeables à cette adresse : td2a_eco_exercices_de_manipulation_de_donnees.zip. Le code suivant permet de les télécharger automatiquement.

from pyensae.datasource import download_data
files = download_data("td2a_eco_exercices_de_manipulation_de_donnees.zip",
                      url="https://github.com/sdpython/ensae_teaching_cs/raw/master/_doc/notebooks/td2a_eco/data/")
files
['.\Players_WC2014.xlsx',
 '.\velib_t1.txt',
 '.\velib_t2.txt',
 '.\villes.txt']

Exercice 1 - manipulation des textes

Durée : 20 minutes

  1. Importer la base de données relatives aux joueurs de la Coupe du Monde 2014 >> Players_WC2014.xlsx

  2. Déterminer le nombre de joueurs dans chaque équipe et créer un dictionnaire { équipe : Nombre de joueurs}

  3. Déterminer quels sont les 3 joueurs qui ont couvert le plus de distance. Y a t il un biais de sélection ?

  4. Parmis les joueurs qui sont dans le premier décile des joueurs plus rapides, qui a passé le plus clair de son temps à courrir sans la balle ?

Exercice 2 - Les villes

Durée : 40 minutes

  1. Importer la base des villes villes.xls

  2. Les noms de variables et les observations contiennent des espaces inutiles (exemple : ‘MAJ’) : commnecer par nettoyer l’ensemble des chaines de caractères (à la fois dans les noms de colonnes et dans les observations)

  3. Trouver le nombre de codes INSEE différents (attention aux doublons)

  4. Comment calculer rapidement la moyenne, le nombre et le maximum pour chaque variable numérique ? (une ligne de code)

  5. Compter le nombre de villes dans chaque Region et en faire un dictionnaire où la clé est la région et la valeur le nombre de villes

  6. Représenter les communes en utilisant

    • matplotlib

    • une librairie de cartographie (ex : folium)

Exercice 3 - Disponibilité des vélibs

Durée : 30 minutes

  1. Importer les données sous la forme d’un dataFrame

    • velib_t1.txt - avec les données des stations à un instant t

    • velib_t2.txt - avec les données des stations à un instant t + 1

  2. Représenter la localisation des stations vélib dans Paris

    • représenter les stations en fonction du nombre de places avec un gradient

  3. Comparer pour une station donnée l’évolution de la disponibilité (en fusionnant les deux bases t et t+1)

    • représenter les stations qui ont connu une évolution significative (plus de 5 changements) avec un gradient de couleurs