Coverage for src/papierstat/datasets/search.py: 100%

Hot-keys on this page

r m x p toggle line displays

j k next/prev highlighted chunk

0 (zero) top of page

1 (one) first highlighted chunk

1# -*- coding: utf-8 -*-

2"""

3@file

4@brief Jeux de données reliés aux vins.

5"""

6import os

7from sklearn.datasets import load_svmlight_file

8from .data_helper import get_data_folder

11def load_search_engine_dataset(train_or_test=True):

12 """

13 Retourne un très petit échantillon tiré de

14 `Microsoft Learning to Rank Datasets

15 <https://www.microsoft.com/en-us/research/project/mslr/?from=http%3A%2F%2Fresearch.microsoft.com%2Fen-us%2Fprojects%2Fmslr%2F>`_.

16 Vu le nombre de features, le petit nombre de requêtes, il est impossible

17 d'apprendre un bon modèle, cela permet néanmoins de tester son code.

18 La fonction retourne les features d'abord puis les labels.

19 Notebooks associés à ce jeu de données :

21 .. runpython::

22 :rst:

24 from papierstat.datasets.documentation import list_notebooks_rst_links

25 links = list_notebooks_rst_links('lectures', 'search')

26 links = [' * %s' % s for s in links]

27 print('\\n'.join(links))

29 @param train_or_test True for train, False for test

30 @return :epkg:`numpy:csr_matrix`, :epkg:`numpy:array`

32 La fonction utilise `load_svmlight_file <http://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_svmlight_file.html>`_

33 pour lire le fichier. Cette option ne permet l'ouverture de gros fichiers,

34 en particulier façon streaming.

35 """

36 fold = get_data_folder()

37 if train_or_test:

38 data = os.path.join(fold, 'search_tiny_train.txt')

39 else:

40 data = os.path.join(fold, 'search_tiny_test.txt')

41 df = load_svmlight_file(data, query_id=True)

42 return df

Coverage for src/papierstat/datasets/search.py : 100%