.. _td1acenoncesession10rst:

==============================
1A.data - DataFrame et Matrice
==============================


.. only:: html

    **Links:** :download:`notebook <td1a_cenonce_session_10.ipynb>`, :downloadlink:`html <td1a_cenonce_session_102html.html>`, :download:`python <td1a_cenonce_session_10.py>`, :downloadlink:`slides <td1a_cenonce_session_10.slides.html>`, :githublink:`GitHub|_doc/notebooks/td1a_dfnp/td1a_cenonce_session_10.ipynb|*`


Les `DataFrame <http://en.wikipedia.org/wiki/Data_frame>`__ se sont
imposés pour manipuler les données avec le module
`pandas <http://pandas.pydata.org/>`__. Le module va de la manipulation
des données jusqu’au calcul d’une régresion linéaire.

Avec cette façon de représenter les données, associée à des un ensemble
de méthodes couramment utilisées, ce qu’on faisait en une ou deux
boucles se fait maintenant en une seule fonction. Cette séance contient
beaucoup d’exemples et peu d’exercices. Il est conseillé de supprimer
toutes les sorties et de les exécuter une à une.

.. code:: ipython3

    from jyquickhelper import add_notebook_menu
    add_notebook_menu()


.. contents::
    :local:


L’introduction ne contient pas d’éléments nécessaires à la réalisation
du TD.

Trouver chaussure à ses stats
-----------------------------

La programmation est omni-présente lorsqu’on manipule des données. On
leur applique des traitements parfois standards, souvent adaptés pour la
circonstance. On souhaite toujours programmer le moins possible mais
aussi ne pas avoir à réapprendre un langage à chaque fois qu’on doit
manipuler les données.

Le logiciel `MATLAB <http://www.mathworks.fr/products/matlab/>`__ a
proposé voici 30 ans un premier environnement de travail facilitant le
calcul matriciel et ce standard s’est imposé depuis. Comme *MATLAB* est
un logiciel payant, des équivalents open source et gratuits ont été
développés. Ils proposent tous le calcul matriciel, la possibilité de
visualiser, un environnement de développement. Ils différent pas des
performances différentes et des éventails d’extensions différentes.


-  `R <http://www.r-project.org/>`__ : la référence pour les
   statisticiens, il est utilisé par tous les chercheurs dans ce
   domaine.
-  `SciLab <http://www.scilab.org/fr>`__ : développé par
   l’\ `INRIA <http://www.inria.fr/>`__.
-  `Octave <http://www.gnu.org/software/octave/>`__ : clone open source
   de *MATLAB*, il n’inclut pas autant de librairies mais il est
   gratuit.
-  `Julia <http://julialang.org/>`__ : c’est le plus jeune, il est plus
   rapide mais ses librairies sont moins nombreuses.

Ils sont tous performants en qui concerne le calcul numérique, ils le
sont beaucoup moins lorsqu’il s’agit de faire des traitements qui ne
sont pas numériques (traiter du texte par exemple) car ils n’ont pas été
prévus pour cela à la base (à l’exception de Julia peut être qui est
plus jeune `Python v. Clojure v.
Julia <http://matthewrocklin.com/blog/work/2014/01/13/Text-Benchmarks>`__).
Le langage Python est devenu depuis 2012 une alternative intéressante
pour ces raisons (voir également `Why
Python? <http://www.xavierdupre.fr/blog/2014-07-11_nojs.html>`__) :


-  Il propose les même fonctionnalités de base (calcul matriciel,
   graphiques, environnement).
-  Python est plus pratique pour tout ce qui n’est pas numérique
   (fichiers, web, server web, SQL, …).
-  La plupart des librairies connues et écrites en C++ ont été portée
   sous Python.
-  Il est plus facile de changer un composant important en Python (numpy
   par exemple) si le nouveau est plus efficace.

Un inconvénient peut-être est qu’il faut installer plusieurs extensions
avant de pouvoir commencer à travailler (voir `Installation de
Python <http://www.xavierdupre.fr/app/ensae_teaching_cs/helpsphinx/data2a.html#usage-regulier>`__)
:


-  `numpy <http://www.numpy.org/>`__ : calcul matriciel
-  `pandas <http://pandas.pydata.org/>`__ : DataFrame
-  `jupyter <http://jupyter.org/>`__ : notebooks (comme celui-ci)
-  `matplotlib <http://matplotlib.org/>`__ : graphiques
-  `scikit-learn <http://scikit-learn.org/stable/>`__ : machine
   learning, statistique descriptive
-  `statsmodels <http://statsmodels.sourceforge.net/>`__ : statistiques
   descriptives

Optionnels :


-  `Spyder <https://code.google.com/p/spyderlib/>`__ : environnement
   type R, MATLAB, …
-  `scipy <http://www.scipy.org/>`__ : autres traitements numériques
   (voir `NumPy vs. SciPy vs. other
   packages <http://www.scipy.org/scipylib/faq.html#what-is-the-difference-between-numpy-and-scipy>`__)
-  `dask <http://dask.pydata.org/en/latest/>`__ : dataframe distribué et
   capables de gérer des gros volumes de données (> 5Go)

Les environnements Python évoluent très vite, les modules mentionnés ici
sont tous maintenus mais il eut en surgir de nouveau très rapidement.
Quelques environnements à suivre :


-  `Python Tools for Visual
   Studio <https://microsoft.github.io/PTVS/>`__ : environnement de
   développement pour Visual Studio
-  `PyCharm <http://www.jetbrains.com/pycharm/>`__ : n’inclut pas les
   graphiques mais est assez agréable pour programmer
-  `IEP <http://www.iep-project.org/index.html>`__ : écrit en Python
-  `PyDev <http://pydev.org/>`__ : extension pour
   `Eclipse <http://www.eclipse.org/>`__
-  `WingIDE <https://wingware.com/>`__

Si vous ne voulez pas programmer, il existe des alternatives. C’est
assez performant sur de petits jeux de données mais cela devient plus
complexe dès qu’on veut programmer car le code doit tenir compte des
spécificités de l’outil.


-  `Orange <http://orange.biolab.si/>`__ : écrit en Python
-  `Weka <http://www.cs.waikato.ac.nz/ml/weka/>`__ : écrit en Java (le
   pionnier)
-  `dataiku <https://www.dataiku.com/>`__ : startup française
-  `RapidMiner <http://rapidminer.com/>`__ : version gratuite et payante
-  `AzureML <https://studio.azureml.net/>`__ : solution Microsoft de
   workflow de données

C’est parfois plus pratique pour commencer mais mal commode si on veut
automatiser un traitrment pour répéter la même tâche de façon régulière.
Pour les travaux pratiques à l’ENSAE, j’ai choisi les
`notebooks <http://jupyter.org/notebook.html>`__ : c’est une page
blanche où on peut mélanger texte, équations, graphiques, code et
exécution de code.

**Taille de DataFrame**

Les DataFrame en Python sont assez rapides lorsqu’il y a moins de 10
millions d’observations et que le fichier texte qui décrit les données
n’est pas plus gros que 10 Mo. Au delà, il faut soit être patient, soit
être astucieux comme ici : `DataFrame et
SQL <http://www.xavierdupre.fr/blog/2014-07-19_nojs.html>`__, `Data
Wrangling with
Pandas <http://nbviewer.ipython.org/urls/gist.github.com/fonnesbeck/5850413/raw/3a9406c73365480bc58d5e75bc80f7962243ba17/2.+Data+Wrangling+with+Pandas.ipynb>`__.

**Valeurs manquantes**

Lorsqu’on récupère des données, il peut arriver qu’une valeur soit
manquante.


-  `Missing
   Data <http://pandas.pydata.org/pandas-docs/dev/10min.html?highlight=working#missing-data>`__
-  `Working with missing
   data <http://pandas.pydata.org/pandas-docs/dev/missing_data.html>`__

DataFrame (pandas)
------------------

**Quelques liens :** `An Introduction to
Pandas <http://synesthesiam.com/posts/an-introduction-to-pandas.html>`__

Un `Data Frame <http://en.wikipedia.org/wiki/Data_frame>`__ est un objet
qui est présent dans la plupart des logiciels de traitements de données,
c’est une **matrice**, chaque colonne est de même type (nombre, dates,
texte), elle peut contenir des valeurs manquantes. On peut considérer
chaque colonne comme les variables d’une table
(`pandas.Dataframe <http://pandas.pydata.org/pandas-docs/dev/generated/pandas.DataFrame.html>`__
- cette page contient toutes les méthodes de la classe).

.. code:: ipython3

    import pandas
    l = [ { "date":"2014-06-22", "prix":220.0, "devise":"euros" }, 
          { "date":"2014-06-23", "prix":221.0, "devise":"euros" },]
    df = pandas.DataFrame(l)
    df


.. raw:: html

    <div style="max-height:1000px;max-width:1500px;overflow:auto;">
    <table border="1" class="dataframe">
      <thead>
        <tr style="text-align: right;">
          <th></th>
          <th>date</th>
          <th>devise</th>
          <th>prix</th>
        </tr>
      </thead>
      <tbody>
        <tr>
          <th>0</th>
          <td> 2014-06-22</td>
          <td> euros</td>
          <td> 220</td>
        </tr>
        <tr>
          <th>1</th>
          <td> 2014-06-23</td>
          <td> euros</td>
          <td> 221</td>
        </tr>
      </tbody>
    </table>
    <p>2 rows × 3 columns</p>
    </div>


Avec une valeur manquante :

.. code:: ipython3

    l = [ { "date":"2014-06-22", "prix":220.0, "devise":"euros" }, 
          { "date":"2014-06-23", "devise":"euros"  },]
    df = pandas.DataFrame(l)
    df


.. raw:: html

    <div style="max-height:1000px;max-width:1500px;overflow:auto;">
    <table border="1" class="dataframe">
      <thead>
        <tr style="text-align: right;">
          <th></th>
          <th>date</th>
          <th>devise</th>
          <th>prix</th>
        </tr>
      </thead>
      <tbody>
        <tr>
          <th>0</th>
          <td> 2014-06-22</td>
          <td> euros</td>
          <td> 220</td>
        </tr>
        <tr>
          <th>1</th>
          <td> 2014-06-23</td>
          <td> euros</td>
          <td> NaN</td>
        </tr>
      </tbody>
    </table>
    <p>2 rows × 3 columns</p>
    </div>


`NaN <http://docs.scipy.org/doc/numpy/reference/generated/numpy.isnan.html#numpy.isnan>`__
est une convention pour une valeur manquante. On extrait la variable
``prix`` :

.. code:: ipython3

    df.prix


.. parsed-literal::
    0    220
    1    NaN
    Name: prix, dtype: float64


Ou :

.. code:: ipython3

    df["prix"]


.. parsed-literal::
    0    220
    1    NaN
    Name: prix, dtype: float64


Pour extraire plusieurs colonnes :

.. code:: ipython3

    df [["date","prix"]]


.. raw:: html

    <div style="max-height:1000px;max-width:1500px;overflow:auto;">
    <table border="1" class="dataframe">
      <thead>
        <tr style="text-align: right;">
          <th></th>
          <th>date</th>
          <th>prix</th>
        </tr>
      </thead>
      <tbody>
        <tr>
          <th>0</th>
          <td> 2014-06-22</td>
          <td> 220</td>
        </tr>
        <tr>
          <th>1</th>
          <td> 2014-06-23</td>
          <td> NaN</td>
        </tr>
      </tbody>
    </table>
    <p>2 rows × 2 columns</p>
    </div>


Pour prendre la transposée (voir aussi
`DataFrame.transpose <http://pandas.pydata.org/pandas-docs/stable/generated/pandas.Panel.transpose.html>`__)
:

.. code:: ipython3

    df.T


.. raw:: html

    <div style="max-height:1000px;max-width:1500px;overflow:auto;">
    <table border="1" class="dataframe">
      <thead>
        <tr style="text-align: right;">
          <th></th>
          <th>0</th>
          <th>1</th>
        </tr>
      </thead>
      <tbody>
        <tr>
          <th>date</th>
          <td> 2014-06-22</td>
          <td> 2014-06-23</td>
        </tr>
        <tr>
          <th>devise</th>
          <td>      euros</td>
          <td>      euros</td>
        </tr>
        <tr>
          <th>prix</th>
          <td>        220</td>
          <td>        NaN</td>
        </tr>
      </tbody>
    </table>
    <p>3 rows × 2 columns</p>
    </div>


Lecture et écriture de DataFrame
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

Aujourd’hui, on n’a plus besoin de réécrire soi-même une fonction de
lecture ou d’écriture de données présentées sous forme de tables. Il
existe des fonctions plus génériques qui gère un grand nombre de cas.
Cette section présente brièvement les fonctions qui permettent de
lire/écrire un DataFrame aux formats texte/Excel. On reprend l’exemple
de section précédente. L’instruction ``encoding=utf-8`` n’est pas
obligatoire mais conseillée lorsque les données contiennent des accents
(voir
`read_csv <http://pandas.pydata.org/pandas-docs/stable/generated/pandas.io.parsers.read_csv.html>`__).

.. code:: ipython3

    import pandas
    l = [ { "date":"2014-06-22", "prix":220.0, "devise":"euros" }, 
          { "date":"2014-06-23", "prix":221.0, "devise":"euros" },]
    df = pandas.DataFrame(l)
    
    # écriture au format texte
    df.to_csv("exemple.txt",sep="\t",encoding="utf-8", index=False)
    
    # on regarde ce qui a été enregistré
    with open("exemple.txt", "r", encoding="utf-8") as f : text = f.read()
    print(text)
    
    # on enregistre au format Excel
    df.to_excel("exemple.xlsx", index=False)
    
    # on ouvre Excel sur ce fichier (sous Windows)
    from pyquickhelper.loghelper import run_cmd
    from pyquickhelper.loghelper.run_cmd import skip_run_cmd
    out,err = run_cmd("exemple.xlsx", wait = False)


.. parsed-literal::
    date	devise	prix
    2014-06-22	euros	220.0
    2014-06-23	euros	221.0
    

On peut récupérer des données directement depuis Internet ou une chaîne
de caractères et afficher le début
(`head <http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.head.html>`__)
ou la fin
(`tail <http://pandas.pydata.org/pandas-docs/dev/generated/pandas.DataFrame.tail.html>`__).
Le code qui suit est ce qu’on écrirait d’habitude :

.. code:: ipython3

    if False:
        import pandas, urllib.request
        furl = urllib.request.urlopen("http://www.xavierdupre.fr/enseignement/complements/marathon.txt")
        df = pandas.read_csv(furl, sep="\t", names=["ville", "annee", "temps","secondes"])
        df.head()

Et pout éviter les erreurs de connexion internet, les données font
partie intégrante du module :

.. code:: ipython3

    from ensae_teaching_cs.data import marathon
    import pandas
    df = pandas.read_csv(marathon(filename=True), 
                         sep="\t", names=["ville", "annee", "temps","secondes"])
    df.head()


.. raw:: html

    <div>
    <table border="1" class="dataframe">
      <thead>
        <tr style="text-align: right;">
          <th></th>
          <th>ville</th>
          <th>annee</th>
          <th>temps</th>
          <th>secondes</th>
        </tr>
      </thead>
      <tbody>
        <tr>
          <th>0</th>
          <td>PARIS</td>
          <td>2011</td>
          <td>02:06:29</td>
          <td>7589</td>
        </tr>
        <tr>
          <th>1</th>
          <td>PARIS</td>
          <td>2010</td>
          <td>02:06:41</td>
          <td>7601</td>
        </tr>
        <tr>
          <th>2</th>
          <td>PARIS</td>
          <td>2009</td>
          <td>02:05:47</td>
          <td>7547</td>
        </tr>
        <tr>
          <th>3</th>
          <td>PARIS</td>
          <td>2008</td>
          <td>02:06:40</td>
          <td>7600</td>
        </tr>
        <tr>
          <th>4</th>
          <td>PARIS</td>
          <td>2007</td>
          <td>02:07:17</td>
          <td>7637</td>
        </tr>
      </tbody>
    </table>
    </div>


La fonction
`describe <http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.describe.html>`__
permet d’en savoir un peu plus sur les colonnes numériques de cette
table.

.. code:: ipython3

    df.describe()


.. raw:: html

    <div style="max-height:1000px;max-width:1500px;overflow:auto;">
    <table border="1" class="dataframe">
      <thead>
        <tr style="text-align: right;">
          <th></th>
          <th>annee</th>
          <th>secondes</th>
        </tr>
      </thead>
      <tbody>
        <tr>
          <th>count</th>
          <td>  359.000000</td>
          <td>   359.000000</td>
        </tr>
        <tr>
          <th>mean</th>
          <td> 1989.754875</td>
          <td>  7933.660167</td>
        </tr>
        <tr>
          <th>std</th>
          <td>   14.028545</td>
          <td>   385.289830</td>
        </tr>
        <tr>
          <th>min</th>
          <td> 1947.000000</td>
          <td>  7382.000000</td>
        </tr>
        <tr>
          <th>25%</th>
          <td> 1981.000000</td>
          <td>  7698.000000</td>
        </tr>
        <tr>
          <th>50%</th>
          <td> 1991.000000</td>
          <td>  7820.000000</td>
        </tr>
        <tr>
          <th>75%</th>
          <td> 2001.000000</td>
          <td>  8046.500000</td>
        </tr>
        <tr>
          <th>max</th>
          <td> 2011.000000</td>
          <td> 10028.000000</td>
        </tr>
      </tbody>
    </table>
    <p>8 rows × 2 columns</p>
    </div>


DataFrame et Index
~~~~~~~~~~~~~~~~~~

On désigne généralement une colonne ou *variable* par son nom. Les
lignes peuvent être désignées par un entier.

.. code:: ipython3

    import pandas
    l = [ { "date":"2014-06-22", "prix":220.0, "devise":"euros" }, 
          { "date":"2014-06-23", "prix":221.0, "devise":"euros" },]
    df = pandas.DataFrame(l)
    df


.. raw:: html

    <div style="max-height:1000px;max-width:1500px;overflow:auto;">
    <table border="1" class="dataframe">
      <thead>
        <tr style="text-align: right;">
          <th></th>
          <th>date</th>
          <th>devise</th>
          <th>prix</th>
        </tr>
      </thead>
      <tbody>
        <tr>
          <th>0</th>
          <td> 2014-06-22</td>
          <td> euros</td>
          <td> 220</td>
        </tr>
        <tr>
          <th>1</th>
          <td> 2014-06-23</td>
          <td> euros</td>
          <td> 221</td>
        </tr>
      </tbody>
    </table>
    <p>2 rows × 3 columns</p>
    </div>


On extrait une ligne
(`loc <http://pandas.pydata.org/pandas-docs/dev/generated/pandas.DataFrame.loc.html>`__)
:

.. code:: ipython3

    df.iloc[1]


.. parsed-literal::
    date      2014-06-23
    devise         euros
    prix             221
    Name: 1, dtype: object


Mais il est possible d’utiliser une colonne ou plusieurs colonnes comme
index
(`set_index <http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.set_index.html>`__)
:

.. code:: ipython3

    dfi = df.set_index("date")
    dfi


.. raw:: html

    <div style="max-height:1000px;max-width:1500px;overflow:auto;">
    <table border="1" class="dataframe">
      <thead>
        <tr style="text-align: right;">
          <th></th>
          <th>devise</th>
          <th>prix</th>
        </tr>
        <tr>
          <th>date</th>
          <th></th>
          <th></th>
        </tr>
      </thead>
      <tbody>
        <tr>
          <th>2014-06-22</th>
          <td> euros</td>
          <td> 220</td>
        </tr>
        <tr>
          <th>2014-06-23</th>
          <td> euros</td>
          <td> 221</td>
        </tr>
      </tbody>
    </table>
    <p>2 rows × 2 columns</p>
    </div>


On peut maintenant désigner une ligne par une date :

.. code:: ipython3

    dfi.loc["2014-06-23"]


.. parsed-literal::
    devise    euros
    prix        221
    Name: 2014-06-23, dtype: object


Il est possible d’utiliser plusieurs colonnes comme index :

.. code:: ipython3

    df = pandas.DataFrame([ {"prénom":"xavier", "nom":"dupré", "arrondissement":18}, 
           {"prénom":"clémence", "nom":"dupré", "arrondissement":15 } ])
    dfi = df.set_index(["nom","prénom"])
    dfi.loc["dupré","xavier"]


.. parsed-literal::
    arrondissement    18
    Name: (dupré, xavier), dtype: int64


Si on veut changer l’index ou le supprimer
(`reset_index <http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.reset_index.html>`__)
:

.. code:: ipython3

    dfi.reset_index(drop=False, inplace=True)  
            # le mot-clé drop pour garder ou non les colonnes servant d'index
            # inplace signifie qu'on modifie l'instance et non qu'une copie est modifiée
            # donc on peut aussi écrire dfi2 = dfi.reset_index(drop=False)  
    dfi.set_index(["nom", "arrondissement"],inplace=True)
    dfi


.. raw:: html

    <div style="max-height:1000px;max-width:1500px;overflow:auto;">
    <table border="1" class="dataframe">
      <thead>
        <tr style="text-align: right;">
          <th></th>
          <th></th>
          <th>prénom</th>
        </tr>
        <tr>
          <th>nom</th>
          <th>arrondissement</th>
          <th></th>
        </tr>
      </thead>
      <tbody>
        <tr>
          <th rowspan="2" valign="top">dupré</th>
          <th>18</th>
          <td>   xavier</td>
        </tr>
        <tr>
          <th>15</th>
          <td> clémence</td>
        </tr>
      </tbody>
    </table>
    <p>2 rows × 1 columns</p>
    </div>


Les index sont particulièrement utiles lorsqu’il s’agit de fusionner
deux tables. Pour des petites tables, la plupart du temps, il est plus
facile de s’en passer.

Notation avec le symbole ``:``
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

Le symbole ``:`` désigne une plage de valeurs.

.. code:: ipython3

    from ensae_teaching_cs.data import marathon
    import pandas
    df = pandas.read_csv(marathon(filename=True), 
                         sep="\t", names=["ville", "annee", "temps","secondes"])
    df.head()


.. raw:: html

    <div>
    <table border="1" class="dataframe">
      <thead>
        <tr style="text-align: right;">
          <th></th>
          <th>ville</th>
          <th>annee</th>
          <th>temps</th>
          <th>secondes</th>
        </tr>
      </thead>
      <tbody>
        <tr>
          <th>0</th>
          <td>PARIS</td>
          <td>2011</td>
          <td>02:06:29</td>
          <td>7589</td>
        </tr>
        <tr>
          <th>1</th>
          <td>PARIS</td>
          <td>2010</td>
          <td>02:06:41</td>
          <td>7601</td>
        </tr>
        <tr>
          <th>2</th>
          <td>PARIS</td>
          <td>2009</td>
          <td>02:05:47</td>
          <td>7547</td>
        </tr>
        <tr>
          <th>3</th>
          <td>PARIS</td>
          <td>2008</td>
          <td>02:06:40</td>
          <td>7600</td>
        </tr>
        <tr>
          <th>4</th>
          <td>PARIS</td>
          <td>2007</td>
          <td>02:07:17</td>
          <td>7637</td>
        </tr>
      </tbody>
    </table>
    </div>


On peut sélectionner un sous-ensemble de lignes :

.. code:: ipython3

    df[3:6]


.. raw:: html

    <div style="max-height:1000px;max-width:1500px;overflow:auto;">
    <table border="1" class="dataframe">
      <thead>
        <tr style="text-align: right;">
          <th></th>
          <th>ville</th>
          <th>annee</th>
          <th>temps</th>
          <th>secondes</th>
        </tr>
      </thead>
      <tbody>
        <tr>
          <th>3</th>
          <td> PARIS</td>
          <td> 2008</td>
          <td> 02:06:40</td>
          <td> 7600</td>
        </tr>
        <tr>
          <th>4</th>
          <td> PARIS</td>
          <td> 2007</td>
          <td> 02:07:17</td>
          <td> 7637</td>
        </tr>
        <tr>
          <th>5</th>
          <td> PARIS</td>
          <td> 2006</td>
          <td> 02:08:03</td>
          <td> 7683</td>
        </tr>
      </tbody>
    </table>
    <p>3 rows × 4 columns</p>
    </div>


On extrait la même plage mais avec deux colonnes seulement :

.. code:: ipython3

    df.loc[3:6,["annee","temps"]]


.. raw:: html

    <div style="max-height:1000px;max-width:1500px;overflow:auto;">
    <table border="1" class="dataframe">
      <thead>
        <tr style="text-align: right;">
          <th></th>
          <th>annee</th>
          <th>temps</th>
        </tr>
      </thead>
      <tbody>
        <tr>
          <th>3</th>
          <td> 2008</td>
          <td> 02:06:40</td>
        </tr>
        <tr>
          <th>4</th>
          <td> 2007</td>
          <td> 02:07:17</td>
        </tr>
        <tr>
          <th>5</th>
          <td> 2006</td>
          <td> 02:08:03</td>
        </tr>
        <tr>
          <th>6</th>
          <td> 2005</td>
          <td> 02:08:02</td>
        </tr>
      </tbody>
    </table>
    <p>4 rows × 2 columns</p>
    </div>


Le même code pour lequel on renomme les colonnes extraites :

.. code:: ipython3

    sub = df.loc[3:6,["annee","temps"]]
    sub.columns = ["year","time"]
    sub


.. raw:: html

    <div style="max-height:1000px;max-width:1500px;overflow:auto;">
    <table border="1" class="dataframe">
      <thead>
        <tr style="text-align: right;">
          <th></th>
          <th>year</th>
          <th>time</th>
        </tr>
      </thead>
      <tbody>
        <tr>
          <th>3</th>
          <td> 2008</td>
          <td> 02:06:40</td>
        </tr>
        <tr>
          <th>4</th>
          <td> 2007</td>
          <td> 02:07:17</td>
        </tr>
        <tr>
          <th>5</th>
          <td> 2006</td>
          <td> 02:08:03</td>
        </tr>
        <tr>
          <th>6</th>
          <td> 2005</td>
          <td> 02:08:02</td>
        </tr>
      </tbody>
    </table>
    <p>4 rows × 2 columns</p>
    </div>


Exercice 1 : créer un fichier Excel
-----------------------------------

On souhaite récupérer les données
`donnees_enquete_2003_television.txt <http://www.xavierdupre.fr/enseignement/complements/donnees_enquete_2003_television.txt>`__
(source :
`INSEE <http://www.insee.fr/fr/themes/detail.asp?ref_id=fd-hdv03&page=fichiers_detail/HDV03/telechargement.htm>`__).


-  ``POIDSLOG`` : Pondération individuelle relative
-  ``POIDSF`` : Variable de pondération individuelle
-  ``cLT1FREQ`` : Nombre d’heures en moyenne passées à regarder la
   télévision
-  ``cLT2FREQ`` : Unité de temps utilisée pour compter le nombre
   d’heures passées à regarder la télévision, cette unité est
   représentée par les quatre valeurs suivantes

   -  0 : non concerné
   -  1 : jour
   -  2 : semaine
   -  3 : mois

Ensuite, on veut :

1. Supprimer les colonnes vides
2. Obtenir les valeurs distinctes pour la colonne ``cLT2FREQ``
3. Modifier la matrice pour enlever les lignes pour lesquelles l’unité
   de temps (cLT2FREQ) n’est pas renseignée ou égale à zéro.
4. Sauver le résultat au format Excel.

Vous aurez peut-être besoin des fonctions suivantes :


-  `numpy.isnan <http://docs.scipy.org/doc/numpy/reference/generated/numpy.isnan.html>`__
-  `DataFrame.apply <http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.apply.html>`__
-  `DataFrame.fillna <http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.fillna.html>`__
   ou
   `DataFrame.isnull <http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.isnull.html>`__
-  `DataFrame.copy <http://pandas.pydata.org/pandas-docs/dev/generated/pandas.DataFrame.copy.html>`__

.. code:: ipython3

    import pandas, io
    # ...

Manipuler un DataFrame : filtrer, union, sort, group by, join, pivot
--------------------------------------------------------------------

Si la structure *DataFrame* s’est imposée, c’est parce qu’on effectue
toujours les mêmes opérations. Chaque fonction cache une boucle ou deux
dont le coût est précisé en fin de ligne :


-  **filter** : on sélectionne un sous-ensemble de lignes qui vérifie
   une condition :math:`\rightarrow O(n)`
-  **union** : concaténation de deux jeux de données
   :math:`\rightarrow O(n_1 + n_2)`
-  **sort** : tri :math:`\rightarrow O(n \ln n)`
-  **group by** : grouper des lignes qui partagent une valeur commune
   :math:`\rightarrow O(n)`
-  **join** : fusionner deux jeux de données en associant les lignes qui
   partagent une valeur commune
   :math:`\rightarrow \in [O(n_1 + n_2), O(n_1 n_2)]`
-  **pivot** : utiliser des valeurs présentes dans colonne comme noms de
   colonnes :math:`\rightarrow O(n)`

Les 5 premières opérations sont issues de la logique de manipulation des
données avec le langage
`SQL <http://fr.wikipedia.org/wiki/Structured_Query_Language>`__ (ou le
logiciel `SAS <http://www.sas.com>`__). La dernière correspond à un
`tableau croisé
dynamique <http://fr.wikipedia.org/wiki/Tableau_crois%C3%A9_dynamique>`__.
Pour illustrer ces opérations, on prendre le DataFrame suivant :

.. code:: ipython3

    from ensae_teaching_cs.data import marathon
    import pandas
    df = pandas.read_csv(marathon(), sep="\t", names=["ville", "annee", "temps","secondes"])
    print(df.columns)
    print("villes",set(df.ville))
    print("annee",list(set(df.annee))[:10],"...")


.. parsed-literal::
    Index(['ville', 'annee', 'temps', 'secondes'], dtype='object')
    villes {'FUKUOKA', 'STOCKOLM', 'PARIS', 'CHICAGO', 'AMSTERDAM', 'BOSTON', 'BERLIN', 'LONDON', 'NEW YORK'}
    annee [1947, 1948, 1949, 1950, 1951, 1952, 1953, 1954, 1955, 1956] ...


filter
~~~~~~

Filter consiste à sélectionner un sous-ensemble de lignes du dataframe.
Pour filter sur plusieurs conditions, il faut utiliser les opérateurs
logique & (et), \| (ou), ~ (non) (voir `Mapping Operators to
Functions <https://docs.python.org/3.4/library/operator.html#mapping-operators-to-functions>`__).


-  `filter <http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.filter.html>`__,
   `mask <http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.mask.html>`__,\ `where <http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.where.html>`__
-  `pandas: filter rows of DataFrame with operator
   chaining <http://stackoverflow.com/questions/11869910/pandas-filter-rows-of-dataframe-with-operator-chaining>`__
-  `Indexing and Selecting
   Data <http://pandas.pydata.org/pandas-docs/stable/indexing.html>`__

.. code:: ipython3

    subset = df [ df.annee == 1971 ]
    subset.head()


.. raw:: html

    <div>
    <table border="1" class="dataframe">
      <thead>
        <tr style="text-align: right;">
          <th></th>
          <th>ville</th>
          <th>annee</th>
          <th>temps</th>
          <th>secondes</th>
        </tr>
      </thead>
      <tbody>
        <tr>
          <th>112</th>
          <td>FUKUOKA</td>
          <td>1971</td>
          <td>02:12:51</td>
          <td>7971</td>
        </tr>
        <tr>
          <th>204</th>
          <td>NEW YORK</td>
          <td>1971</td>
          <td>02:22:54</td>
          <td>8574</td>
        </tr>
        <tr>
          <th>285</th>
          <td>BOSTON</td>
          <td>1971</td>
          <td>02:18:45</td>
          <td>8325</td>
        </tr>
      </tbody>
    </table>
    </div>


.. code:: ipython3

    subset = df [ (df.annee == 1971) & (df.ville == "BOSTON") ]
    subset.head()


.. raw:: html

    <div>
    <table border="1" class="dataframe">
      <thead>
        <tr style="text-align: right;">
          <th></th>
          <th>ville</th>
          <th>annee</th>
          <th>temps</th>
          <th>secondes</th>
        </tr>
      </thead>
      <tbody>
        <tr>
          <th>285</th>
          <td>BOSTON</td>
          <td>1971</td>
          <td>02:18:45</td>
          <td>8325</td>
        </tr>
      </tbody>
    </table>
    </div>


union
~~~~~

union = concaténation de deux DataFrame (qui n’ont pas nécessaire les
mêmes colonnes). On peut concaténer les lignes ou les colonnes.


-  `concat <http://pandas.pydata.org/pandas-docs/stable/generated/pandas.concat.html>`__
-  `Merge, join, and
   concatenate <http://pandas.pydata.org/pandas-docs/stable/merging.html>`__

.. code:: ipython3

    concat_ligne = pandas.concat((df,df))
    df.shape,concat_ligne.shape


.. parsed-literal::
    ((360, 4), (720, 4))


.. code:: ipython3

    concat_col = pandas.concat((df,df), axis=1)
    df.shape,concat_col.shape


.. parsed-literal::
    ((360, 4), (360, 8))


sort
~~~~

Sort = trier

-  `sort <http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.sort.html>`__

.. code:: ipython3

    tri = df.sort_values( ["annee", "ville"], ascending=[0,1])
    tri.head()


.. raw:: html

    <div style="max-height:1000px;max-width:1500px;overflow:auto;">
    <table border="1" class="dataframe">
      <thead>
        <tr style="text-align: right;">
          <th></th>
          <th>ville</th>
          <th>annee</th>
          <th>temps</th>
          <th>secondes</th>
        </tr>
      </thead>
      <tbody>
        <tr>
          <th>35 </th>
          <td>   BERLIN</td>
          <td> 2011</td>
          <td> 02:03:38</td>
          <td> 7418</td>
        </tr>
        <tr>
          <th>326</th>
          <td>   BOSTON</td>
          <td> 2011</td>
          <td> 02:03:02</td>
          <td> 7382</td>
        </tr>
        <tr>
          <th>203</th>
          <td>   LONDON</td>
          <td> 2011</td>
          <td> 02:04:40</td>
          <td> 7480</td>
        </tr>
        <tr>
          <th>0  </th>
          <td>    PARIS</td>
          <td> 2011</td>
          <td> 02:06:29</td>
          <td> 7589</td>
        </tr>
        <tr>
          <th>277</th>
          <td> STOCKOLM</td>
          <td> 2011</td>
          <td> 02:14:07</td>
          <td> 8047</td>
        </tr>
      </tbody>
    </table>
    <p>5 rows × 4 columns</p>
    </div>


group by
~~~~~~~~

Cette opération consiste à grouper les lignes qui partagent une
caractéristique commune (une ou ou plusieurs valeurs par exemple). Sur
chaque groupe, on peut calculer une somme, une moyenne…


-  `groupby <http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.groupby.html>`__
-  `sum <http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.sum.html>`__,
   `cumsum <http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.cumsum.html>`__,
   `mean <http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.mean.html>`__,
   `count <http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.count.html>`__
-  `SQL GROUP BY <http://sql.sh/cours/group-by>`__
-  `Group By:
   split-apply-combine <http://pandas.pydata.org/pandas-docs/dev/groupby.html>`__
-  `group by
   customisé <http://stackoverflow.com/questions/15322632/python-pandas-df-groupby-agg-column-reference-in-agg>`__

.. code:: ipython3

    gr = df.groupby("annee")
    gr


.. parsed-literal::
    <pandas.core.groupby.DataFrameGroupBy object at 0x04887DB0>


.. code:: ipython3

    nb = gr.count()
    nb.sort_index(ascending=False).head()


.. raw:: html

    <div style="max-height:1000px;max-width:1500px;overflow:auto;">
    <table border="1" class="dataframe">
      <thead>
        <tr style="text-align: right;">
          <th></th>
          <th>ville</th>
          <th>annee</th>
          <th>temps</th>
          <th>secondes</th>
        </tr>
        <tr>
          <th>annee</th>
          <th></th>
          <th></th>
          <th></th>
          <th></th>
        </tr>
      </thead>
      <tbody>
        <tr>
          <th>2011</th>
          <td> 5</td>
          <td> 5</td>
          <td> 5</td>
          <td> 5</td>
        </tr>
        <tr>
          <th>2010</th>
          <td> 9</td>
          <td> 9</td>
          <td> 9</td>
          <td> 9</td>
        </tr>
        <tr>
          <th>2009</th>
          <td> 9</td>
          <td> 9</td>
          <td> 9</td>
          <td> 9</td>
        </tr>
        <tr>
          <th>2008</th>
          <td> 9</td>
          <td> 9</td>
          <td> 9</td>
          <td> 9</td>
        </tr>
        <tr>
          <th>2007</th>
          <td> 9</td>
          <td> 9</td>
          <td> 9</td>
          <td> 9</td>
        </tr>
      </tbody>
    </table>
    <p>5 rows × 4 columns</p>
    </div>


.. code:: ipython3

    nb = gr.sum()
    nb.sort_index(ascending=False).head(n=2)


.. raw:: html

    <div style="max-height:1000px;max-width:1500px;overflow:auto;">
    <table border="1" class="dataframe">
      <thead>
        <tr style="text-align: right;">
          <th></th>
          <th>secondes</th>
        </tr>
        <tr>
          <th>annee</th>
          <th></th>
        </tr>
      </thead>
      <tbody>
        <tr>
          <th>2011</th>
          <td> 37916</td>
        </tr>
        <tr>
          <th>2010</th>
          <td> 68673</td>
        </tr>
      </tbody>
    </table>
    <p>2 rows × 1 columns</p>
    </div>


.. code:: ipython3

    nb = gr.mean()
    nb.sort_index(ascending=False).head(n=3)


.. raw:: html

    <div style="max-height:1000px;max-width:1500px;overflow:auto;">
    <table border="1" class="dataframe">
      <thead>
        <tr style="text-align: right;">
          <th></th>
          <th>secondes</th>
        </tr>
        <tr>
          <th>annee</th>
          <th></th>
        </tr>
      </thead>
      <tbody>
        <tr>
          <th>2011</th>
          <td> 7583.200000</td>
        </tr>
        <tr>
          <th>2010</th>
          <td> 7630.333333</td>
        </tr>
        <tr>
          <th>2009</th>
          <td> 7652.555556</td>
        </tr>
      </tbody>
    </table>
    <p>3 rows × 1 columns</p>
    </div>


Si les nom des colonnes utilisées lors de l’opération ne sont pas
mentionnés, implicitement, c’est l’index qui sera choisi. On peut aussi
aggréger les informations avec une fonction personnalisée.

.. code:: ipython3

    def max_entier(x):
        return int(max(x))
    nb = df[["annee","secondes"]].groupby("annee").agg(max_entier).reset_index()
    nb.tail(n=3)


.. raw:: html

    <div style="max-height:1000px;max-width:1500px;overflow:auto;">
    <table border="1" class="dataframe">
      <thead>
        <tr style="text-align: right;">
          <th></th>
          <th>annee</th>
          <th>secondes</th>
        </tr>
      </thead>
      <tbody>
        <tr>
          <th>62</th>
          <td> 2009</td>
          <td> 8134</td>
        </tr>
        <tr>
          <th>63</th>
          <td> 2010</td>
          <td> 7968</td>
        </tr>
        <tr>
          <th>64</th>
          <td> 2011</td>
          <td> 8047</td>
        </tr>
      </tbody>
    </table>
    <p>3 rows × 2 columns</p>
    </div>


Ou encore considérer des aggrégations différentes pour chaque colonne :

.. code:: ipython3

    nb = df[["annee","ville","secondes"]].groupby("annee").agg({ "ville":len, "secondes":max_entier})
    nb.tail(n=3)


.. raw:: html

    <div style="max-height:1000px;max-width:1500px;overflow:auto;">
    <table border="1" class="dataframe">
      <thead>
        <tr style="text-align: right;">
          <th></th>
          <th>secondes</th>
          <th>ville</th>
        </tr>
        <tr>
          <th>annee</th>
          <th></th>
          <th></th>
        </tr>
      </thead>
      <tbody>
        <tr>
          <th>2009</th>
          <td> 8134</td>
          <td> 9</td>
        </tr>
        <tr>
          <th>2010</th>
          <td> 7968</td>
          <td> 9</td>
        </tr>
        <tr>
          <th>2011</th>
          <td> 8047</td>
          <td> 5</td>
        </tr>
      </tbody>
    </table>
    <p>3 rows × 2 columns</p>
    </div>


join (*merge* ou fusion)
~~~~~~~~~~~~~~~~~~~~~~~~

Fusionner deux tables consiste à apparier les lignes de la première
table avec celle de la seconde si certaines colonnes de ces lignes
partagent les mêmes valeurs. On distingue quatre cas :


-  ``INNER JOIN`` - **inner** : on garde tous les appariements réussis
-  ``LEFT OUTER JOIN`` - **left** : on garde tous les appariements
   réussis et les lignes non appariées de la table de gauche
-  ``RIGHT OUTER JOIN`` - **right** : on garde tous les appariements
   réussis et les lignes non appariées de la table de droite
-  ``FULL OUTER JOIN`` - **outer** : on garde tous les appariements
   réussis et les lignes non appariées des deux tables

Exemples et documentation : \* `merging,
joining <http://pandas.pydata.org/pandas-docs/stable/merging.html#database-style-dataframe-joining-merging>`__
\*
`join <http://pandas.pydata.org/pandas-docs/stable/pandas.DataFrame.join.html>`__
\*
`merge <http://pandas.pydata.org/pandas-docs/stable/pandas.merge.html>`__
ou
`DataFrame.merge <http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.merge.html>`__
\* `jointures SQL <http://sql.sh/cours/jointures>`__ - illustrations
avec graphiques en patates

Si les noms des colonnes utilisées lors de la fusion ne sont pas
mentionnés, implicitement, c’est l’index qui sera choisi. Pour les
grandes tables (> 100.000 lignes), il est fortement recommandés
d’ajouter un index s’il n’existe pas avant de fusionner.

A quoi correspondent les quatre cas suivants :

.. code:: ipython3

    from IPython.display import Image
    Image("patates.png")


.. image:: td1a_cenonce_session_10_68_0.png


On souhaite ajouter une colonne pays aux marathons se déroulant dans les
villes suivanes.

.. code:: ipython3

    values = [  {"V":'BOSTON', "C":"USA"}, 
                {"V":'NEW YORK', "C":"USA"}, 
                {"V":'BERLIN', "C":"Germany"}, 
                {"V":'LONDON', "C":"UK"}, 
                {"V":'PARIS', "C":"France"}]
    pays = pandas.DataFrame(values)
    pays


.. raw:: html

    <div style="max-height:1000px;max-width:1500px;overflow:auto;">
    <table border="1" class="dataframe">
      <thead>
        <tr style="text-align: right;">
          <th></th>
          <th>C</th>
          <th>V</th>
        </tr>
      </thead>
      <tbody>
        <tr>
          <th>0</th>
          <td>     USA</td>
          <td>   BOSTON</td>
        </tr>
        <tr>
          <th>1</th>
          <td>     USA</td>
          <td> NEW YORK</td>
        </tr>
        <tr>
          <th>2</th>
          <td> Germany</td>
          <td>   BERLIN</td>
        </tr>
        <tr>
          <th>3</th>
          <td>      UK</td>
          <td>   LONDON</td>
        </tr>
        <tr>
          <th>4</th>
          <td>  France</td>
          <td>    PARIS</td>
        </tr>
      </tbody>
    </table>
    <p>5 rows × 2 columns</p>
    </div>


.. code:: ipython3

    dfavecpays = df.merge(pays, left_on="ville", right_on="V")
    pandas.concat([dfavecpays.head(n=2),dfavecpays.tail(n=2)])


.. raw:: html

    <div style="max-height:1000px;max-width:1500px;overflow:auto;">
    <table border="1" class="dataframe">
      <thead>
        <tr style="text-align: right;">
          <th></th>
          <th>ville</th>
          <th>annee</th>
          <th>temps</th>
          <th>secondes</th>
          <th>C</th>
          <th>V</th>
        </tr>
      </thead>
      <tbody>
        <tr>
          <th>0  </th>
          <td>  PARIS</td>
          <td> 2011</td>
          <td> 02:06:29</td>
          <td> 7589</td>
          <td> France</td>
          <td>  PARIS</td>
        </tr>
        <tr>
          <th>1  </th>
          <td>  PARIS</td>
          <td> 2010</td>
          <td> 02:06:41</td>
          <td> 7601</td>
          <td> France</td>
          <td>  PARIS</td>
        </tr>
        <tr>
          <th>193</th>
          <td> BOSTON</td>
          <td> 2010</td>
          <td> 02:05:52</td>
          <td> 7552</td>
          <td>    USA</td>
          <td> BOSTON</td>
        </tr>
        <tr>
          <th>194</th>
          <td> BOSTON</td>
          <td> 2011</td>
          <td> 02:03:02</td>
          <td> 7382</td>
          <td>    USA</td>
          <td> BOSTON</td>
        </tr>
      </tbody>
    </table>
    <p>4 rows × 6 columns</p>
    </div>


pivot (tableau croisé dynamique)
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

Cette opération consiste à créer une seconde table en utilisant utiliser
les valeurs d’une colonne comme nom de colonnes.

+----+----+----+
| A  | B  | C  |
+====+====+====+
| A1 | B1 | C1 |
+----+----+----+
| A1 | B2 | C2 |
+----+----+----+
| A2 | B1 | C3 |
+----+----+----+
| A2 | B2 | C4 |
+----+----+----+
| A2 | B3 | C5 |
+----+----+----+

L’opération ``pivot(A,B,C)`` donnera :

+----+----+----+----+
| A  | B1 | B2 | B3 |
+====+====+====+====+
| A1 | C1 | C2 |    |
+----+----+----+----+
| A2 | C3 | C4 | C5 |
+----+----+----+----+


-  `pivot <http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.pivot.html>`__
-  `Reshaping and Pivot
   Tables <http://pandas.pydata.org/pandas-docs/stable/reshaping.html>`__
-  `Tableau croisé dynamique -
   wikipédia <http://fr.wikipedia.org/wiki/Tableau_crois%C3%A9_dynamique>`__

On applique cela aux marathons où on veut avoir les villes comme noms de
colonnes et une année par lignes.

.. code:: ipython3

    piv = df.pivot("annee","ville","temps")
    pandas.concat([piv[20:23],piv[40:43],piv.tail(n=3)])


.. raw:: html

    <div style="max-height:1000px;max-width:1500px;overflow:auto;">
    <table border="1" class="dataframe">
      <thead>
        <tr style="text-align: right;">
          <th>ville</th>
          <th>AMSTERDAM</th>
          <th>BERLIN</th>
          <th>BOSTON</th>
          <th>CHICAGO</th>
          <th>FUKUOKA</th>
          <th>LONDON</th>
          <th>NEW YORK</th>
          <th>PARIS</th>
          <th>STOCKOLM</th>
        </tr>
        <tr>
          <th>annee</th>
          <th></th>
          <th></th>
          <th></th>
          <th></th>
          <th></th>
          <th></th>
          <th></th>
          <th></th>
          <th></th>
        </tr>
      </thead>
      <tbody>
        <tr>
          <th>1967</th>
          <td>      NaN</td>
          <td>      NaN</td>
          <td> 02:15:45</td>
          <td>      NaN</td>
          <td> 02:09:37</td>
          <td>      NaN</td>
          <td>      NaN</td>
          <td>      NaN</td>
          <td>      NaN</td>
        </tr>
        <tr>
          <th>1968</th>
          <td>      NaN</td>
          <td>      NaN</td>
          <td> 02:22:17</td>
          <td>      NaN</td>
          <td> 02:10:48</td>
          <td>      NaN</td>
          <td>      NaN</td>
          <td>      NaN</td>
          <td>      NaN</td>
        </tr>
        <tr>
          <th>1969</th>
          <td>      NaN</td>
          <td>      NaN</td>
          <td> 02:13:49</td>
          <td>      NaN</td>
          <td> 02:11:13</td>
          <td>      NaN</td>
          <td>      NaN</td>
          <td>      NaN</td>
          <td>      NaN</td>
        </tr>
        <tr>
          <th>1987</th>
          <td> 02:12:40</td>
          <td> 02:11:11</td>
          <td> 02:11:50</td>
          <td>      NaN</td>
          <td> 02:08:18</td>
          <td> 02:09:50</td>
          <td> 02:11:01</td>
          <td> 02:11:09</td>
          <td> 02:13:52</td>
        </tr>
        <tr>
          <th>1988</th>
          <td> 02:12:38</td>
          <td> 02:11:45</td>
          <td> 02:08:43</td>
          <td> 02:08:57</td>
          <td> 02:11:04</td>
          <td> 02:10:20</td>
          <td> 02:08:20</td>
          <td> 02:13:53</td>
          <td> 02:14:26</td>
        </tr>
        <tr>
          <th>1989</th>
          <td> 02:13:52</td>
          <td> 02:10:11</td>
          <td> 02:09:06</td>
          <td> 02:11:25</td>
          <td> 02:12:54</td>
          <td> 02:09:03</td>
          <td> 02:08:01</td>
          <td> 02:13:03</td>
          <td> 02:13:34</td>
        </tr>
        <tr>
          <th>2009</th>
          <td> 02:06:18</td>
          <td> 02:06:08</td>
          <td> 02:08:42</td>
          <td> 02:05:41</td>
          <td> 02:05:18</td>
          <td> 02:05:10</td>
          <td> 02:09:15</td>
          <td> 02:05:47</td>
          <td> 02:15:34</td>
        </tr>
        <tr>
          <th>2010</th>
          <td> 02:05:44</td>
          <td> 02:05:08</td>
          <td> 02:05:52</td>
          <td> 02:06:23</td>
          <td> 02:08:24</td>
          <td> 02:05:19</td>
          <td> 02:08:14</td>
          <td> 02:06:41</td>
          <td> 02:12:48</td>
        </tr>
        <tr>
          <th>2011</th>
          <td>      NaN</td>
          <td> 02:03:38</td>
          <td> 02:03:02</td>
          <td>      NaN</td>
          <td>      NaN</td>
          <td> 02:04:40</td>
          <td>      NaN</td>
          <td> 02:06:29</td>
          <td> 02:14:07</td>
        </tr>
      </tbody>
    </table>
    <p>9 rows × 9 columns</p>
    </div>


Il existe une méthode qui effectue l’opération inverse :
`Dataframe.stack <http://pandas.pydata.org/pandas-docs/dev/generated/pandas.DataFrame.stack.html>`__.

Exercice 2 : moyennes par groupes
---------------------------------

Toujours avec le même jeu de données
(`marathon.txt <http://www.xavierdupre.fr/enseignement/complements/marathon.txt>`__),
on veut ajouter une ligne à la fin du tableau croisé dynamique contenant
la moyenne en secondes des temps des marathons pour chaque ville.

Dates
-----

Les dates sont souvent compliquées à gérer car on n’utilise pas le mêmes
format dans tous les pays. Pour faire simple, je recommande deux options
:


-  Soit convertir les dates/heures au format chaînes de caractères
   ``AAAA-MM-JJ hh:mm:ss:ms`` qui permet de trier les dates par ordre
   croissant.
-  Soit convertir les dates/heures au format
   `datetime <https://docs.python.org/3/library/datetime.html>`__ (date)
   ou
   `timedelta <https://docs.python.org/3/library/datetime.html#timedelta-objects>`__
   (durée) (voir `Quelques notions sur les
   dates <http://www.xavierdupre.fr/blog/notebooks/example%20pyensae.html#date>`__,
   `format de
   date/heure <https://docs.python.org/3/library/datetime.html#strftime-strptime-behavior>`__).

Par exemple, voici le code qui a permis de générer la colonne seconde de
la table marathon :

.. code:: ipython3

    from datetime import datetime, time
    from ensae_teaching_cs.data import marathon
    import pandas
    df = pandas.read_csv(marathon(), sep="\t", names=["ville", "annee", "temps","secondes"])
    df = df [["ville", "annee", "temps"]]  # on enlève la colonne secondes pour la recréer
    df["secondes"] = df.apply( lambda r : (datetime.strptime(r.temps,"%H:%M:%S") - \
                                             datetime(1900,1,1)).total_seconds(), axis=1)
    df.head()


.. raw:: html

    <div>
    <table border="1" class="dataframe">
      <thead>
        <tr style="text-align: right;">
          <th></th>
          <th>ville</th>
          <th>annee</th>
          <th>temps</th>
          <th>secondes</th>
        </tr>
      </thead>
      <tbody>
        <tr>
          <th>0</th>
          <td>PARIS</td>
          <td>2011</td>
          <td>02:06:29</td>
          <td>7589.0</td>
        </tr>
        <tr>
          <th>1</th>
          <td>PARIS</td>
          <td>2010</td>
          <td>02:06:41</td>
          <td>7601.0</td>
        </tr>
        <tr>
          <th>2</th>
          <td>PARIS</td>
          <td>2009</td>
          <td>02:05:47</td>
          <td>7547.0</td>
        </tr>
        <tr>
          <th>3</th>
          <td>PARIS</td>
          <td>2008</td>
          <td>02:06:40</td>
          <td>7600.0</td>
        </tr>
        <tr>
          <th>4</th>
          <td>PARIS</td>
          <td>2007</td>
          <td>02:07:17</td>
          <td>7637.0</td>
        </tr>
      </tbody>
    </table>
    </div>


Matrix, Array (numpy)
---------------------

Le module le plus populaire sous Python est
`numpy <http://www.numpy.org/>`__. Il propose deux containers
`Matrix <http://docs.scipy.org/doc/numpy/reference/generated/numpy.matrix.html>`__
et
`Array <http://docs.scipy.org/doc/numpy/reference/generated/numpy.array.html>`__
qui facilitent le calcul matriciel. Ce module est écrit en C++, Fortran.
Il sera plus rapide que tout code écrit en Python. De nombreuses modules
Python s’appuient sur numpy : `SciPy <http://www.scipy.org/>`__,
`pandas <http://pandas.pydata.org/>`__,
`scikit-learn <http://scikit-learn.org/stable/>`__,
`matplotlib <http://matplotlib.org/>`__, … Il y a deux différences entre
un ``DataFrame`` et un tableau ``numpy`` :


-  Il n’y a pas d’index sur les lignes autre que l’index entier de la
   ligne.
-  Tous les types doivent être identiques (tous entier, tous réels, tous
   str). Il n’y a pas de mélange possible. C’est à cette condition que
   les calculs sont aussi rapides.

.. code:: ipython3

    import numpy
    print("int","\n",numpy.matrix([[1, 2], [3, 4,]]))
    print("float","\n",numpy.matrix([[1, 2], [3, 4.1]]))
    print("str","\n",numpy.matrix([[1, 2], [3, '4']]))


.. parsed-literal::
    int 
     [[1 2]
     [3 4]]
    float 
     [[ 1.   2. ]
     [ 3.   4.1]]
    str 
     [['1' '2']
     ['3' '4']]


Il y a deux types d’objets, ``array`` et ``matrix``. Le type ``matrix``
se comporte comme on peut l’attendre d’une matrice. Le type ``array``
est plus générique et autorise plus de deux dimensions. Les opérateurs
qui s’y appliquent ne comportent pas comme ceux d’une matrice, en
particulier la multiplication qui se fait terme à terme pour un tableau.

.. code:: ipython3

    m1 = numpy.matrix( [[0.0,1.0],[1.0,0.0]])
    print("multiplication de matrices\n",m1 * m1)
    m2 = numpy.array([[0.0,1.0],[1.0,0.0]])
    print("multiplication de tableaux (terme à terme)\n",m2 * m2)


.. parsed-literal::
    multiplication de matrices
     [[ 1.  0.]
     [ 0.  1.]]
    multiplication de tableaux (terme à terme)
     [[ 0.  1.]
     [ 1.  0.]]


Un tableau en plusieurs dimensions :

.. code:: ipython3

    cube = numpy.array( [  [[0.0,1.0],[1.0,0.0]],
                           [[0.0,1.0],[1.0,0.0]] ] )
    print(cube.shape)
    cube


.. parsed-literal::
    (2, 2, 2)


.. parsed-literal::

    array([[[ 0.,  1.],
            [ 1.,  0.]],
    
           [[ 0.,  1.],
            [ 1.,  0.]]])


Quelques liens pour apprendre à manipuler ces objets :


-  `opérations avec
   numpy.matrix <http://www.xavierdupre.fr/app/ensae_teaching_cs/helpsphinx/all_example_science.html#operations-avec-numpy-matrix>`__
-  `Numpy - multidimensional data
   arrays <http://nbviewer.jupyter.org/github/jrjohansson/scientific-python-lectures/blob/master/Lecture-2-Numpy.ipynb>`__
-  `NUmpy Tutorial <http://wiki.scipy.org/Tentative_NumPy_Tutorial>`__
-  `classe
   numpy.matrix <http://docs.scipy.org/doc/numpy/reference/generated/numpy.matrix.html>`__
-  `classe
   numpy.array <http://docs.scipy.org/doc/numpy/reference/arrays.html>`__

matrices nulle, identité, aléatoire
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

On utilise beaucoup les fonctions suivantes pour créer une matrice ou un
tableau particulier.

.. code:: ipython3

    # la matrice nulle
    numpy.zeros( (3,4) )


.. parsed-literal::
    array([[ 0.,  0.,  0.,  0.],
           [ 0.,  0.,  0.,  0.],
           [ 0.,  0.,  0.,  0.]])


.. code:: ipython3

    # la matrice de 1
    numpy.ones( (3,4) )


.. parsed-literal::
    array([[ 1.,  1.,  1.,  1.],
           [ 1.,  1.,  1.,  1.],
           [ 1.,  1.,  1.,  1.]])


.. code:: ipython3

    # la matrice identité
    numpy.identity( 3 )


.. parsed-literal::
    array([[ 1.,  0.,  0.],
           [ 0.,  1.,  0.],
           [ 0.,  0.,  1.]])


.. code:: ipython3

    # la matrice aléatoire
    numpy.random.random( (3,4))


.. parsed-literal::
    array([[ 0.56295296,  0.77545561,  0.56041393,  0.90371888],
           [ 0.09984123,  0.59781939,  0.09845057,  0.30856921],
           [ 0.37161512,  0.5630934 ,  0.6359542 ,  0.13298039]])


Pour d’autres fonctionnalités aléatoires :
`numpy.random <http://docs.scipy.org/doc/numpy/reference/routines.random.html>`__.

Quelques fonctions fréquemment utilisées
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~


-  `column_stack <http://docs.scipy.org/doc/numpy/reference/generated/numpy.column_stack.html>`__
   : pour assembler des colonnes les unes à côté des autres
-  `vstack <http://docs.scipy.org/doc/numpy/reference/generated/numpy.vstack.html>`__
   : pour assembler des lignes les unes à la suite des autres

de DataFrame à numpy
~~~~~~~~~~~~~~~~~~~~

Le plus simple est sans doute d’utiliser ``pandas`` pour lire un fichier
texte et d’utiliser la propriété
`values <http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.values.html>`__
pour convertir tout ou partie du ``DataFrame`` en ``numpy.matrix``.

.. code:: ipython3

    from pandas import read_csv
    import numpy
    from datetime import datetime, time
    from ensae_teaching_cs.data import marathon
    df = read_csv(marathon(filename=True), 
                         sep="\t", names=["ville", "annee", "temps","secondes"])
    arr = df[["annee","secondes"]].values # retourne un array (et non un matrix)
    mat = numpy.matrix(arr)
    print(type(arr),type(mat))
    arr[:2,:]


.. parsed-literal::
    <class 'numpy.ndarray'> <class 'numpy.matrixlib.defmatrix.matrix'>


.. parsed-literal::

    array([[2011, 7589],
           [2010, 7601]], dtype=int64)


La conversion réciproque est aussi simple mais il faut préciser les noms
des colonnes qui ne sont pas mémorisées dans l’objet ``numpy.array`` :

.. code:: ipython3

    import pandas
    df2 = pandas.DataFrame(arr, columns=["annee", "secondes"])
    df2.head(n=2)


.. raw:: html

    <div style="max-height:1000px;max-width:1500px;overflow:auto;">
    <table border="1" class="dataframe">
      <thead>
        <tr style="text-align: right;">
          <th></th>
          <th>annee</th>
          <th>secondes</th>
        </tr>
      </thead>
      <tbody>
        <tr>
          <th>0</th>
          <td> 2011</td>
          <td> 7589</td>
        </tr>
        <tr>
          <th>1</th>
          <td> 2010</td>
          <td> 7601</td>
        </tr>
      </tbody>
    </table>
    <p>2 rows × 2 columns</p>
    </div>


Exercice 3 : régression linéaire
--------------------------------

On souhaite implémenter une
`régression <http://fr.wikipedia.org/wiki/R%C3%A9gression_lin%C3%A9aire_multiple>`__
qui se traduit par le problème suivant : :math:`Y=XA+\epsilon`. La
solution est donnée par la formule matricielle :
:math:`A^*=(X'X)^{-1}X'Y`. On prépare les données suivantes.

.. code:: ipython3

    from pandas import read_csv
    from datetime import datetime, time
    from ensae_teaching_cs.data import marathon
    df = read_csv(marathon(filename=True), 
                  sep="\t", names=["ville", "annee", "temps","secondes"])
    df = df [ (df["ville"] == "BERLIN") | (df["ville"] == "PARIS") ] 
    for v in ["PARIS","BERLIN"]:
        df["est" + v] = df.apply( lambda r : 1 if r["ville"] == v else 0, axis=1)
    df.head(n = 3)


.. raw:: html

    <div>
    <table border="1" class="dataframe">
      <thead>
        <tr style="text-align: right;">
          <th></th>
          <th>ville</th>
          <th>annee</th>
          <th>temps</th>
          <th>secondes</th>
          <th>estPARIS</th>
          <th>estBERLIN</th>
        </tr>
      </thead>
      <tbody>
        <tr>
          <th>0</th>
          <td>PARIS</td>
          <td>2011</td>
          <td>02:06:29</td>
          <td>7589</td>
          <td>1</td>
          <td>0</td>
        </tr>
        <tr>
          <th>1</th>
          <td>PARIS</td>
          <td>2010</td>
          <td>02:06:41</td>
          <td>7601</td>
          <td>1</td>
          <td>0</td>
        </tr>
        <tr>
          <th>2</th>
          <td>PARIS</td>
          <td>2009</td>
          <td>02:05:47</td>
          <td>7547</td>
          <td>1</td>
          <td>0</td>
        </tr>
      </tbody>
    </table>
    </div>


On veut construire le modèle :
:math:`secondes = a_0 \; annee + a_1 \; stPARIS + a_2 \; estBERLIN`. En
appliquant la formule ci-dessus, déterminer les coefficients
:math:`a_0,a_1,a_2`.

Annexes
-------

Créer un fichier Excel avec plusieurs feuilles
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

La page `Allow ExcelWriter() to add sheets to existing
workbook <https://github.com/pydata/pandas/issues/3441>`__ donne
plusieurs exemples d’écriture.

.. code:: ipython3

    import pandas
    writer = pandas.ExcelWriter('tou_example.xlsx')
    df.to_excel(writer, 'Data 0')
    df.to_excel(writer, 'Data 1')
    writer.save()