Jeux de données

Cartographie

papierstat.datasets.get_geojson_countries ()

Retourne les contours des pays au format GeoJSON. Les données sont disponibles dans le répertoire data et viennent de countries.geo.json. Notebooks associés à ce jeu de données …

papierstat.datasets.load_carreau_from_zip (file_car = None, file_rect = None)

Retourne un exemple de données carroyées. Les données sont disponibles dans le répertoire data. Notebooks associés à ce jeu de données …

papierstat.datasets.load_enedis_dataset (dest = “.”, fLOG = None)

Retourne des données extraites du site Enedis : Production électrique annuelle par filière à la maille commune. Le jeu proposé est un extrait pour les années 2015-2016. Le téléchargement utilise le module pyensae. Notebooks associés à ce jeu de données …

Classification

papierstat.datasets.load_adult_dataset (download = True, small = False, url = “uci”)

Retourne le jeu de données Adult Data Set. Les variables sont principalement catégorielles. Notebooks associés à ce jeu de données …

papierstat.datasets.load_wines_dataset (download = False, shuffle = False)

Retourne le jeu de données wines quality. Notebooks associés à ce jeu de données …

Graphe

papierstat.datasets.create_tiny_graph ()

Graphe très petit. La fonction retourne une matrice dans laquelle chaque élément représente la probabilité de passer du noeud i au noeud j. Notebooks associés à ce jeu de données …

Outils

papierstat.datasets.carreau.DBFInMemory (self, filename, encoding = None, ignorecase = True, lowernames = False, parserclass = <class “dbfread.field_parser.FieldParser”>, recfactory = <class “collections.OrderedDict”>, load = False, raw = False, ignore_missing_memofile = False, char_decode_errors = “strict”)

Overwrites DBF to read data from memory and not from a file. The object DBF needs a file by default. This class avoids creating an intermediate file when the data is compressed in a zip file.

papierstat.datasets.data_helper.get_data_folder ()

Retourne le répertoire de données inclus dans ce module.

papierstat.datasets.carreau.load_dbf_from_zip (filename)

Loads a .dbf file compressed into a zip file. It only takes the first .dbf file from the zip.

papierstat.datasets.carreau.load_shapes_from_zip (filename)

Loads a .mif and a .mid file compressed into a zip file. It only takes the first .mid and .mif files from the zip.

Ranking

papierstat.datasets.load_search_engine_dataset (train_or_test = True)

Retourne un très petit échantillon tiré de Microsoft Learning to Rank Datasets. Vu le nombre de features, le petit nombre de requêtes, il est impossible d’apprendre un bon modèle, cela permet néanmoins de tester son code. La fonction retourne les features d’abord puis les labels. Notebooks associés à ce jeu de données …

Recommandations

papierstat.datasets.create_tiny_graph ()

Graphe très petit. La fonction retourne une matrice dans laquelle chaque élément représente la probabilité de passer du noeud i au noeud j. Notebooks associés à ce jeu de données …

papierstat.datasets.load_movielens_dataset (name = “small”, cache = None, fLOG = None)

Retourne un jeu de données extrait de la page movielens. Notebooks associés à ce jeu de données …

Régression

papierstat.datasets.line2d (n, x0 = 0, x1 = 10, a = 0.5, b = 1, sigma = 0.5)

Simule un jeu de données pour une régression linéaire. Notebooks associés à ce jeu de données …

papierstat.datasets.load_wines_dataset (download = False, shuffle = False)

Retourne le jeu de données wines quality. Notebooks associés à ce jeu de données …

Séries temporelles

papierstat.datasets.duration_selling (date_begin = None, date_end = None, mean_per_day = 10, sigma_per_day = 5, week_pattern = None, hour_begin = 9, hour_end = 19, gamma_k = 6.0, gamma_theta = 0.25)

Construit un jeu de données artificiel qui simule des paquets préparés par un magasin. Chaque paquet est préparé dès la réception d’une commande à une heure précise, il est ensuite stocké jusqu’à ce qu’un client viennent le chercher.

Web

papierstat.datasets.load_tweet_dataset (cache = “.”)

Retourne quelques tweets extrait en 2016. Les données sont disponibles dans le répertoire data. Notebooks associés à ce jeu de données …