2A.data - Pandas et itérateurs#

Links: notebook, html, python, slides, GitHub

pandas a tendance a prendre beaucoup d’espace mémoire pour charger les données, environ trois fois plus que sa taille sur disque. Quand la mémoire n’est pas assez grande, que peut-on faire ?

from jyquickhelper import add_notebook_menu
add_notebook_menu()

from sklearn.datasets import load_iris
data = load_iris()

import pandas
df = pandas.DataFrame(data.data)
df.column = "X1 X2 X3 X4".split()
df["target"] = data.target
df.head()

	0	1	2	3
0	5.1	3.5	1.4	0.2
1	4.9	3.0	1.4	0.2
2	4.7	3.2	1.3	0.2
3	4.6	3.1	1.5	0.2
4	5.0	3.6	1.4	0.2

df.to_csv("iris.txt", sep="\t", index=False)

Exercice 1 : itérer sur un grand fichier #

A quoi sert le paramètre iterator de la fonction read_csv ? Comment s’en servir pour lire un grand fichier ?

Exercice 2 : split train test #

Utiliser les fonctions read_csv et train_test_split pour répartir un gros jeu de données en deux jeux train, test.

Exercice 3 : stratify ?#

Que dire à propos de la fonction précédente du paramètre stratify de la fonction train_test_split ?

Exercice 4 : quelques idées pour un group by ?#

Toujours sur un gros fichier…

Liens

Contenu

Information

Sujet précédent

Sujet suivant

2A.data - Pandas et itérateurs#

Exercice 1 : itérer sur un grand fichier #

Exercice 2 : split train test #

Exercice 3 : stratify ?#

Exercice 4 : quelques idées pour un group by ?#

	0	1	2	3
0	5.1	3.5	1.4	0.2
1	4.9	3.0	1.4	0.2
2	4.7	3.2	1.3	0.2
3	4.6	3.1	1.5	0.2
4	5.0	3.6	1.4	0.2

	0	1	2	3
0	5.1	3.5	1.4	0.2
1	4.9	3.0	1.4	0.2
2	4.7	3.2	1.3	0.2
3	4.6	3.1	1.5	0.2
4	5.0	3.6	1.4	0.2

Liens

Contenu

Information

Sujet précédent

Sujet suivant

2A.data - Pandas et itérateurs#

Exercice 1 : itérer sur un grand fichier#

Exercice 2 : split train test#

Exercice 3 : stratify ?#

Exercice 4 : quelques idées pour un group by ?#

Exercice 1 : itérer sur un grand fichier #

Exercice 2 : split train test #

	0	1	2	3
0	5.1	3.5	1.4	0.2
1	4.9	3.0	1.4	0.2
2	4.7	3.2	1.3	0.2
3	4.6	3.1	1.5	0.2
4	5.0	3.6	1.4	0.2