Hot-keys on this page
r m x p toggle line displays
j k next/prev highlighted chunk
0 (zero) top of page
1 (one) first highlighted chunk
1# -*- coding: utf-8 -*-
2"""
3@file
4@brief Jeux de données reliés aux vins.
5"""
6import os
7from sklearn.datasets import load_svmlight_file
8from .data_helper import get_data_folder
11def load_search_engine_dataset(train_or_test=True):
12 """
13 Retourne un très petit échantillon tiré de
14 `Microsoft Learning to Rank Datasets
15 <https://www.microsoft.com/en-us/research/project/mslr/?from=http%3A%2F%2Fresearch.microsoft.com%2Fen-us%2Fprojects%2Fmslr%2F>`_.
16 Vu le nombre de features, le petit nombre de requêtes, il est impossible
17 d'apprendre un bon modèle, cela permet néanmoins de tester son code.
18 La fonction retourne les features d'abord puis les labels.
19 Notebooks associés à ce jeu de données :
21 .. runpython::
22 :rst:
24 from papierstat.datasets.documentation import list_notebooks_rst_links
25 links = list_notebooks_rst_links('lectures', 'search')
26 links = [' * %s' % s for s in links]
27 print('\\n'.join(links))
29 @param train_or_test True for train, False for test
30 @return :epkg:`numpy:csr_matrix`, :epkg:`numpy:array`
32 La fonction utilise `load_svmlight_file <http://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_svmlight_file.html>`_
33 pour lire le fichier. Cette option ne permet l'ouverture de gros fichiers,
34 en particulier façon streaming.
35 """
36 fold = get_data_folder()
37 if train_or_test:
38 data = os.path.join(fold, 'search_tiny_train.txt')
39 else:
40 data = os.path.join(fold, 'search_tiny_test.txt')
41 df = load_svmlight_file(data, query_id=True)
42 return df