from jyquickhelper import add_notebook_menu
add_notebook_menu()


import pandas
l = [ { "date":"2014-06-22", "prix":220.0, "devise":"euros" }, 
      { "date":"2014-06-23", "prix":221.0, "devise":"euros" },]
df = pandas.DataFrame(l)
df


l = [ { "date":"2014-06-22", "prix":220.0, "devise":"euros" }, 
      { "date":"2014-06-23", "devise":"euros"  },]
df = pandas.DataFrame(l)
df


df.prix

0    220
1    NaN
Name: prix, dtype: float64


df["prix"]

0    220
1    NaN
Name: prix, dtype: float64


df [["date","prix"]]


df.T


import pandas
l = [ { "date":"2014-06-22", "prix":220.0, "devise":"euros" }, 
      { "date":"2014-06-23", "prix":221.0, "devise":"euros" },]
df = pandas.DataFrame(l)

# écriture au format texte
df.to_csv("exemple.txt",sep="\t",encoding="utf-8", index=False)

# on regarde ce qui a été enregistré
with open("exemple.txt", "r", encoding="utf-8") as f : text = f.read()
print(text)

# on enregistre au format Excel
df.to_excel("exemple.xlsx", index=False)

# on ouvre Excel sur ce fichier (sous Windows)
from pyquickhelper.loghelper import run_cmd
from pyquickhelper.loghelper.run_cmd import skip_run_cmd
out,err = run_cmd("exemple.xlsx", wait = False)

date	devise	prix
2014-06-22	euros	220.0
2014-06-23	euros	221.0


if False:
    import pandas, urllib.request
    furl = urllib.request.urlopen("http://www.xavierdupre.fr/enseignement/complements/marathon.txt")
    df = pandas.read_csv(furl, sep="\t", names=["ville", "annee", "temps","secondes"])
    df.head()


from ensae_teaching_cs.data import marathon
import pandas
df = pandas.read_csv(marathon(filename=True), 
                     sep="\t", names=["ville", "annee", "temps","secondes"])
df.head()


df.describe()


import pandas
l = [ { "date":"2014-06-22", "prix":220.0, "devise":"euros" }, 
      { "date":"2014-06-23", "prix":221.0, "devise":"euros" },]
df = pandas.DataFrame(l)
df


df.iloc[1]

date      2014-06-23
devise         euros
prix             221
Name: 1, dtype: object


dfi = df.set_index("date")
dfi


dfi.loc["2014-06-23"]

devise    euros
prix        221
Name: 2014-06-23, dtype: object


df = pandas.DataFrame([ {"prénom":"xavier", "nom":"dupré", "arrondissement":18}, 
       {"prénom":"clémence", "nom":"dupré", "arrondissement":15 } ])
dfi = df.set_index(["nom","prénom"])
dfi.loc["dupré","xavier"]

arrondissement    18
Name: (dupré, xavier), dtype: int64


dfi.reset_index(drop=False, inplace=True)  
        # le mot-clé drop pour garder ou non les colonnes servant d'index
        # inplace signifie qu'on modifie l'instance et non qu'une copie est modifiée
        # donc on peut aussi écrire dfi2 = dfi.reset_index(drop=False)  
dfi.set_index(["nom", "arrondissement"],inplace=True)
dfi


from ensae_teaching_cs.data import marathon
import pandas
df = pandas.read_csv(marathon(filename=True), 
                     sep="\t", names=["ville", "annee", "temps","secondes"])
df.head()


df[3:6]


df.loc[3:6,["annee","temps"]]


sub = df.loc[3:6,["annee","temps"]]
sub.columns = ["year","time"]
sub


import pandas, io
# ...


from ensae_teaching_cs.data import marathon
import pandas
df = pandas.read_csv(marathon(), sep="\t", names=["ville", "annee", "temps","secondes"])
print(df.columns)
print("villes",set(df.ville))
print("annee",list(set(df.annee))[:10],"...")

Index(['ville', 'annee', 'temps', 'secondes'], dtype='object')
villes {'FUKUOKA', 'STOCKOLM', 'PARIS', 'CHICAGO', 'AMSTERDAM', 'BOSTON', 'BERLIN', 'LONDON', 'NEW YORK'}
annee [1947, 1948, 1949, 1950, 1951, 1952, 1953, 1954, 1955, 1956] ...


subset = df [ df.annee == 1971 ]
subset.head()


subset = df [ (df.annee == 1971) & (df.ville == "BOSTON") ]
subset.head()


concat_ligne = pandas.concat((df,df))
df.shape,concat_ligne.shape

((360, 4), (720, 4))


concat_col = pandas.concat((df,df), axis=1)
df.shape,concat_col.shape

((360, 4), (360, 8))


tri = df.sort_values( ["annee", "ville"], ascending=[0,1])
tri.head()


gr = df.groupby("annee")
gr

<pandas.core.groupby.DataFrameGroupBy object at 0x04887DB0>


nb = gr.count()
nb.sort_index(ascending=False).head()


nb = gr.sum()
nb.sort_index(ascending=False).head(n=2)


nb = gr.mean()
nb.sort_index(ascending=False).head(n=3)


def max_entier(x):
    return int(max(x))
nb = df[["annee","secondes"]].groupby("annee").agg(max_entier).reset_index()
nb.tail(n=3)


nb = df[["annee","ville","secondes"]].groupby("annee").agg({ "ville":len, "secondes":max_entier})
nb.tail(n=3)


from IPython.display import Image
Image("patates.png")


values = [  {"V":'BOSTON', "C":"USA"}, 
            {"V":'NEW YORK', "C":"USA"}, 
            {"V":'BERLIN', "C":"Germany"}, 
            {"V":'LONDON', "C":"UK"}, 
            {"V":'PARIS', "C":"France"}]
pays = pandas.DataFrame(values)
pays


dfavecpays = df.merge(pays, left_on="ville", right_on="V")
pandas.concat([dfavecpays.head(n=2),dfavecpays.tail(n=2)])


piv = df.pivot("annee","ville","temps")
pandas.concat([piv[20:23],piv[40:43],piv.tail(n=3)])


from datetime import datetime, time
from ensae_teaching_cs.data import marathon
import pandas
df = pandas.read_csv(marathon(), sep="\t", names=["ville", "annee", "temps","secondes"])
df = df [["ville", "annee", "temps"]]  # on enlève la colonne secondes pour la recréer
df["secondes"] = df.apply( lambda r : (datetime.strptime(r.temps,"%H:%M:%S") - \
                                         datetime(1900,1,1)).total_seconds(), axis=1)
df.head()


import numpy
print("int","\n",numpy.matrix([[1, 2], [3, 4,]]))
print("float","\n",numpy.matrix([[1, 2], [3, 4.1]]))
print("str","\n",numpy.matrix([[1, 2], [3, '4']]))

int 
 [[1 2]
 [3 4]]
float 
 [[ 1.   2. ]
 [ 3.   4.1]]
str 
 [['1' '2']
 ['3' '4']]


m1 = numpy.matrix( [[0.0,1.0],[1.0,0.0]])
print("multiplication de matrices\n",m1 * m1)
m2 = numpy.array([[0.0,1.0],[1.0,0.0]])
print("multiplication de tableaux (terme à terme)\n",m2 * m2)

multiplication de matrices
 [[ 1.  0.]
 [ 0.  1.]]
multiplication de tableaux (terme à terme)
 [[ 0.  1.]
 [ 1.  0.]]


cube = numpy.array( [  [[0.0,1.0],[1.0,0.0]],
                       [[0.0,1.0],[1.0,0.0]] ] )
print(cube.shape)
cube

(2, 2, 2)

array([[[ 0.,  1.],
        [ 1.,  0.]],

       [[ 0.,  1.],
        [ 1.,  0.]]])


# la matrice nulle
numpy.zeros( (3,4) )

array([[ 0.,  0.,  0.,  0.],
       [ 0.,  0.,  0.,  0.],
       [ 0.,  0.,  0.,  0.]])


# la matrice de 1
numpy.ones( (3,4) )

array([[ 1.,  1.,  1.,  1.],
       [ 1.,  1.,  1.,  1.],
       [ 1.,  1.,  1.,  1.]])


# la matrice identité
numpy.identity( 3 )

array([[ 1.,  0.,  0.],
       [ 0.,  1.,  0.],
       [ 0.,  0.,  1.]])


# la matrice aléatoire
numpy.random.random( (3,4))

array([[ 0.56295296,  0.77545561,  0.56041393,  0.90371888],
       [ 0.09984123,  0.59781939,  0.09845057,  0.30856921],
       [ 0.37161512,  0.5630934 ,  0.6359542 ,  0.13298039]])


from pandas import read_csv
import numpy
from datetime import datetime, time
from ensae_teaching_cs.data import marathon
df = read_csv(marathon(filename=True), 
                     sep="\t", names=["ville", "annee", "temps","secondes"])
arr = df[["annee","secondes"]].values # retourne un array (et non un matrix)
mat = numpy.matrix(arr)
print(type(arr),type(mat))
arr[:2,:]

<class 'numpy.ndarray'> <class 'numpy.matrixlib.defmatrix.matrix'>

array([[2011, 7589],
       [2010, 7601]], dtype=int64)


import pandas
df2 = pandas.DataFrame(arr, columns=["annee", "secondes"])
df2.head(n=2)


from pandas import read_csv
from datetime import datetime, time
from ensae_teaching_cs.data import marathon
df = read_csv(marathon(filename=True), 
              sep="\t", names=["ville", "annee", "temps","secondes"])
df = df [ (df["ville"] == "BERLIN") | (df["ville"] == "PARIS") ] 
for v in ["PARIS","BERLIN"]:
    df["est" + v] = df.apply( lambda r : 1 if r["ville"] == v else 0, axis=1)
df.head(n = 3)


import pandas
writer = pandas.ExcelWriter('tou_example.xlsx')
df.to_excel(writer, 'Data 0')
df.to_excel(writer, 'Data 1')
writer.save()

	annee	secondes
count	359.000000	359.000000
mean	1989.754875	7933.660167
std	14.028545	385.289830
min	1947.000000	7382.000000
25%	1981.000000	7698.000000
50%	1991.000000	7820.000000
75%	2001.000000	8046.500000
max	2011.000000	10028.000000

	ville	annee	temps	secondes
3	PARIS	2008	02:06:40	7600
4	PARIS	2007	02:07:17	7637
5	PARIS	2006	02:08:03	7683

	annee	temps
3	2008	02:06:40
4	2007	02:07:17
5	2006	02:08:03
6	2005	02:08:02

	year	time
3	2008	02:06:40
4	2007	02:07:17
5	2006	02:08:03
6	2005	02:08:02

A	B	C
A1	B1	C1
A1	B2	C2
A2	B1	C3
A2	B2	C4
A2	B3	C5

1A.data - DataFrame et Matrice¶

Trouver chaussure à ses stats¶

DataFrame (pandas)¶

Lecture et écriture de DataFrame¶

DataFrame et Index¶

Notation avec le symbole `:`¶

Exercice 1 : créer un fichier Excel¶

Manipuler un DataFrame : filtrer, union, sort, group by, join, pivot¶

filter¶

union¶

sort¶

group by¶

join (merge ou fusion)¶

pivot (tableau croisé dynamique)¶

Exercice 2 : moyennes par groupes¶

Dates¶

Matrix, Array (numpy)¶

matrices nulle, identité, aléatoire¶

Quelques fonctions fréquemment utilisées¶

de DataFrame à numpy¶

Exercice 3 : régression linéaire¶

Annexes¶

Créer un fichier Excel avec plusieurs feuilles¶

	ville	annee	temps	secondes
0	PARIS	2011	02:06:29	7589
1	PARIS	2010	02:06:41	7601
2	PARIS	2009	02:05:47	7547
3	PARIS	2008	02:06:40	7600
4	PARIS	2007	02:07:17	7637

	ville	annee	temps	secondes
112	FUKUOKA	1971	02:12:51	7971
204	NEW YORK	1971	02:22:54	8574
285	BOSTON	1971	02:18:45	8325

	ville	annee	temps	secondes
35	BERLIN	2011	02:03:38	7418
326	BOSTON	2011	02:03:02	7382
203	LONDON	2011	02:04:40	7480
0	PARIS	2011	02:06:29	7589
277	STOCKOLM	2011	02:14:07	8047

ville	AMSTERDAM	BERLIN	BOSTON	CHICAGO	FUKUOKA	LONDON	NEW YORK	PARIS	STOCKOLM
annee
1967	NaN	NaN	02:15:45	NaN	02:09:37	NaN	NaN	NaN	NaN
1968	NaN	NaN	02:22:17	NaN	02:10:48	NaN	NaN	NaN	NaN
1969	NaN	NaN	02:13:49	NaN	02:11:13	NaN	NaN	NaN	NaN
1987	02:12:40	02:11:11	02:11:50	NaN	02:08:18	02:09:50	02:11:01	02:11:09	02:13:52
1988	02:12:38	02:11:45	02:08:43	02:08:57	02:11:04	02:10:20	02:08:20	02:13:53	02:14:26
1989	02:13:52	02:10:11	02:09:06	02:11:25	02:12:54	02:09:03	02:08:01	02:13:03	02:13:34
2009	02:06:18	02:06:08	02:08:42	02:05:41	02:05:18	02:05:10	02:09:15	02:05:47	02:15:34
2010	02:05:44	02:05:08	02:05:52	02:06:23	02:08:24	02:05:19	02:08:14	02:06:41	02:12:48
2011	NaN	02:03:38	02:03:02	NaN	NaN	02:04:40	NaN	02:06:29	02:14:07

		prénom
nom	arrondissement
dupré	18	xavier
dupré	15	clémence

1A.data - DataFrame et Matrice¶

Trouver chaussure à ses stats¶

DataFrame (pandas)¶

Lecture et écriture de DataFrame¶

DataFrame et Index¶

Notation avec le symbole :¶

Exercice 1 : créer un fichier Excel¶

Manipuler un DataFrame : filtrer, union, sort, group by, join, pivot¶

filter¶

union¶

sort¶

group by¶

join (merge ou fusion)¶

pivot (tableau croisé dynamique)¶

Exercice 2 : moyennes par groupes¶

Dates¶

Matrix, Array (numpy)¶

matrices nulle, identité, aléatoire¶

Quelques fonctions fréquemment utilisées¶

de DataFrame à numpy¶

Exercice 3 : régression linéaire¶

Annexes¶

Créer un fichier Excel avec plusieurs feuilles¶

Notation avec le symbole `:`¶