2018-04-09 Sujets abordés en introduction à Spark#

Partie 1 : programmation fonctionnelle

  • notion de map, filter, reduce (group by), combine (ou join)

  • exemple détailler avec un mapper, suivi d’un reducer, suivi d’un mapper

  • pourquoi trier localement pour un reducer

  • coûts associés (calcul + mémoire) pour les quatre primitives pour une exécution locale dans deux cas : parcourir la liste complète, obtenir le premier élément

  • pourquoi la programmation fonctionnelle est adaptée à la distribution des calculs

  • stratégie de distribution

  • coûts associés (calcul + mémoire) pour les quatre primitives pour une exécution locale dans deux cas : parcourir la liste complète, obtenir le premier élément

  • notion de reducer récursif : cas de la somme et de la moyenne

  • introduction des termes : lazy evaluation, index

  • notebook Reducers récursifs

Partie 2 : exemples et Spark

  • Enlever les doublons dans une base de données (code postal, nom, téléphone), sont considérés comme doublons deux entités qui ont au moins deux champs en commun (sur trois)

  • lien vers installation en local : Installation de Spark en local

  • exécution de Premiers pas avec Spark

Enfin, quelques lignes sur :

Oublis :

  • le hasard en distribué