2018-04-09 Sujets abordés en introduction à Spark#

Partie 1 : programmation fonctionnelle

notion de map, filter, reduce (group by), combine (ou join)
exemple détailler avec un mapper, suivi d’un reducer, suivi d’un mapper
pourquoi trier localement pour un reducer
coûts associés (calcul + mémoire) pour les quatre primitives pour une exécution locale dans deux cas : parcourir la liste complète, obtenir le premier élément
pourquoi la programmation fonctionnelle est adaptée à la distribution des calculs
stratégie de distribution
coûts associés (calcul + mémoire) pour les quatre primitives pour une exécution locale dans deux cas : parcourir la liste complète, obtenir le premier élément
notion de reducer récursif : cas de la somme et de la moyenne
introduction des termes : lazy evaluation, index
notebook Reducers récursifs

Partie 2 : exemples et Spark

Enlever les doublons dans une base de données (code postal, nom, téléphone), sont considérés comme doublons deux entités qui ont au moins deux champs en commun (sur trois)
lien vers installation en local : Installation de Spark en local
exécution de Premiers pas avec Spark

Enfin, quelques lignes sur :

Oublis :