Statistique

Workflows - Data Pipelines

Au fur et à mesure qu’une société construire des modèles de machine learning pour automatiser certaines parties de traitement de données, il devient important de rafraîchir ces modèles avec des données plus récentes. On se retrouve vite avec une multitud de besoins comme automatiser, garder la trace des précédentes exécutions, paralléliser sur plusieurs machines ou infrastructures, garder une vue exhaustive et simple de toute cette complexité croissante. La dénomination communue est pipeline ou workflow et cet ensemble de traitements est souvent représenté sous formes de graphe où chaque arc symbolise une dépendances entre deux traitements de données. Chaque société a développé ses propres outils, certaines l’ont mis à disposition de façon open source. Cette partie vise à présenter l’une d’entre elles.

(à venir)

Lectures

Modules