Main Filters

~technical - ~ENSAE - ~recreative

XD blog

blog page

big data, data scientist, references


2013-03-11 Big Data, Data Scientist, quelques repères

En rejoignant Yahoo il y a déjà cinq ans, j'ai découvert le langage PIG. Ce n'était pour moi qu'un nouveau langage très proche de SQL dont le seul attrait était de pouvoir accéder aux logs de recherches puis de les aggréger de différentes manières avant de pouvoir enfin les poser sur une machine isolée où je pouvais travailler simplement et rapidement. Aujourd'hui, cette technique est étiqueté Big Data et s'est considérablement étoffée. En passant chez Microsoft, j'ai découvert son équivalent chez Microsoft avec Scope. Google a developpé un langage Sawzall dont la syntaxe est plus proche d'un langage fonctionnel. Aujourd'hui, au fur et à mesure de mes discussions sur le Big Data, je garde quelques références sur le sujet, des idées. Cela n'a rien d'exhaustif mais je suis étonné qu'autant de projets fleurissent étant donné l'investissement que chacun d'entre eux nécessite. Ce billet rassemble quelques idées, termes, liens.

Quelques remarques sur l'utilité de ces techniques

Hadoop/PIG et ses extensions open sources

Je reprends pour l'essentiel ici les informations présentes sur la page officiel du projet Hadoop Hadoop et le numéro 46 de Variance.

Pour démarrer sur toutes ces technologies, il est possible d'utiliser une machine virtuelle (VMWare) créée par Cloudera (on trouvera quelques photos d'écran ici).

Hadoop intégré par des solutions propriétaires

Solutions non Hadoop

J'en oublie comme cascalog, elephantdb ou encore Amazon DynamoDB, et d'autres apparaîtront sans doute. Il n'existe pas de meilleur choix aujourd'hui, cela dépend du système existant s'il existe, de la possibilité de migrer vers le nouveau, cela dépend aussi de ce qu'on veut faire avec (calcul batch, calcul temps réel, accès décalé aux données ou accès temps réel). Il est bien souvent nécessaire d'avoir plusieurs systèmes en place pour faire aux différents usages qu'on souhaite faire avec les mêmes données.

Demain, tout le monde laissera de plus en plus de traces numériques, les ordinateurs / téléphone / tablettes ne seront que des supports, les données seront stockées sur des environnement virtuels, les applications ne seront plus installées mais utilisées via le réseau. Changer d'ordinateur ne sera plus un problème, il suffira de se connecter à son espace virtuel (DropBox, SkyDrive, GoogleDrive, OODrive) offrent des répertoires virtuels et synchronisés avec un répertoire local de la machine, Microsoft propose la possibilité de sauver son bureau et de le retrouver tel quel sur n'importe quel ordinateur). Il sera de plus en plus difficile de cacher des informations, il sera possible de savoir les recherches que vous faites, les applications que vous utilisez, les documents que vous écrivez, la musique que vous écoutez, les films que vous regardez, ce que vous acheter. Ces informations seront détenues par plusieurs acteurs à la fois et ils auront de plus en plus de moyens de recouper ces informations. Et il est difficile de s'en passer car ils facilitent beaucoup l'usage qu'on a des ordinateurs. Les appareils électriques suivront le même chemin (même programmation des chaînes de télévisions, des radios lorsqu'on change d'appareils). Pour fiabiliser ces informations, les grandes sociétés poussent l'identification sécurisée des internautes et empêche la création de faux profils. On sait de moins en moins où sont stockées les données personnelles, sous quelle législation elles sont stockées. Sans doute verra-t-on l'apparition de clones virtuels, de monnaie virtuelle (bitcoin, adoptée par Wordpress). Il existe déjà un logiciel qui prédit les délits.

Quelques termes que je détaillerai plus tard peut-être, lucene, clojure, scala, ACID, Complex Event Processing, OLAP, SAAS, NoSQL ou encore GitHub qui permet de travailler à plusieurs sur un projets open source. Il en héberge la plupart. Pour repérer les techniques qui commencent à percer, il est possible d'utiliser Google Trends ou encore IT Jobs Watch qui recence les offres d'embauches sur le marché anglais contenant certains mots-clés.


<-- -->

Xavier Dupré