from jyquickhelper import add_notebook_menu
add_notebook_menu()
from sklearn.datasets import load_iris
data = load_iris()
import pandas
df = pandas.DataFrame(data.data)
df.column = "X1 X2 X3 X4".split()
df["target"] = data.target
df.head()
0 | 1 | 2 | 3 | target | |
---|---|---|---|---|---|
0 | 5.1 | 3.5 | 1.4 | 0.2 | 0 |
1 | 4.9 | 3.0 | 1.4 | 0.2 | 0 |
2 | 4.7 | 3.2 | 1.3 | 0.2 | 0 |
3 | 4.6 | 3.1 | 1.5 | 0.2 | 0 |
4 | 5.0 | 3.6 | 1.4 | 0.2 | 0 |
df.to_csv("iris.txt", sep="\t", index=False)
Utiliser les fonctions read_csv et train_test_split pour répartir un gros jeu de données en deux jeux train, test.
Que dire à propos de la fonction précédente du paramètre stratify de la fonction train_test_split ?
Toujours sur un gros fichier...