.. blogpost::
    :title: Sujets abordés en introduction à Spark
    :keywords: spark, programmation fonctionnelle
    :date: 2018-04-09
    :categories: références

    *Partie 1 : programmation fonctionnelle*

    * notion de
      :func:`map <sparkouille.fctmr.simplefctmr.mapper>`,
      :func:`filter <sparkouille.fctmr.simplefctmr.ffilter>`,
      :func:`reduce <sparkouille.fctmr.simplefctmr.mapper>` (group by),
      :func:`combine <sparkouille.fctmr.simplefctmr.combiner>` (ou join)
    * exemple détailler avec un mapper, suivi d'un reducer, suivi d'un mapper
    * pourquoi trier localement pour un reducer
    * coûts associés (calcul + mémoire) pour les quatre
      primitives pour une exécution locale dans deux cas :
      parcourir la liste complète, obtenir le premier élément
    * pourquoi la programmation fonctionnelle est adaptée
      à la distribution des calculs
    * stratégie de distribution
    * coûts associés (calcul + mémoire) pour les quatre
      primitives pour une exécution locale dans deux cas :
      parcourir la liste complète, obtenir le premier élément
    * notion de reducer récursif : cas de la somme et de la moyenne
    * introduction des termes : lazy evaluation, index
    * notebook :ref:`recursivereducersrst`

    *Partie 2 : exemples et Spark*

    * Enlever les doublons dans une base de données
      (code postal, nom, téléphone), sont considérés comme doublons
      deux entités qui ont au moins deux champs en commun (sur trois)
    * lien vers installation en local : :ref:`l-install-spark`
    * exécution de :ref:`sparkfirststepsrst`

    Enfin, quelques lignes sur :

    * travail de recherche et streams intermédiaires
    * `RGPD - Règlement Général sur la Protection des Données <https://fr.wikipedia.org/wiki/R%C3%A8glement_g%C3%A9n%C3%A9ral_sur_la_protection_des_donn%C3%A9es>`_

    Oublis :

    * le hasard en distribué