Introduction à PIG

Ces notebooks ont servi de supports à un cours données à l”ENSAE entre 2015 et 2016. Spark a pris le relais depuis. Les distributions Cloudera et :epkg:`HortonWork` (Azure) étaient disponibles à l’époque.

Premier pas avec Cloudera et Azure

Les quatre premiers notebooks montrent les différences entre les deux distributions pour les opérations les plus simples comme télécharger, uploader un fichier sur ou depuis cluster. C’était l’occasion également de tenter de tout faire depuis un notebook et non pas depuis plusieurs outils, ligne de commandes, ou scripts. Cette automatisation est implémenté par le module pyenbc qui n’est plus vraiment maintenu. Il reste cependant quelques fonctionnalités pratique pour se connecter à une machine distance.

Streaming et paramètres

Streaming au sens de PIG, c’est à dire la possibilité de programmer une sorte de mapper ou de reducer en Python plutôt qu’en PIG. Les paramètres sont une fonctionnalité pour exécuter le même job PIG avec certaines parties dépendant de variables qui changent à chaque exécution.

Algorithmes

Le hasard est doublement compliqué en environnement distribuée et sur des grandes données. Le réservoir sampling est un exemple de ce qu’on peut faire (voir aussi Reservoir Sampling distribué - énoncé).