.. blogpost:: :title: DictVectorizer en un peu plus simple :keywords: machine learning, pipeline :date: 2016-01-19 :categories: scikit-learn La classe `DictVectorizer `_ n'accepte pas de `DataFrame `_. Le code suivant n'est pas correct : :: import pandas from sklearn.feature_extraction import DictVectorizer vec = DictVectorizer() df = pandas.DataFrame( [{"cat": "a"}, {"cat": "b"}] ) vec.fit_transform(df) # plante ici Et on veut juste transformer le text en catégorie sans avoir besoin de transformer le DataFrame : .. runpython:: :showcode: import pandas from mlinsights.mlmodel import CategoriesToIntegers df = pandas.DataFrame( [{"cat": "a"}, {"cat": "b"}] ) trans = CategoriesToIntegers() trans.fit(df) newdf = trans.transform(df) print(newdf) Voir `CategoriesToIntegers `.