Luigi

Luigi

Le but de Luigi est de traiter toute la plomberie généralement associée aux processus par lots de longue durée.Vous voulez enchaîner de nombreuses tâches, les automatiser et des échecs se produiront.Ces tâches peuvent être n'importe quoi, mais sont généralement des tâches de longue haleine comme les travaux Hadoop, le vidage de données vers / depuis des bases de données, l'exécution d'algorithmes d'apprentissage automatique ou autre.Il existe d'autres progiciels qui se concentrent sur les aspects de niveau inférieur du traitement des données, comme Hive, Pig ou Cascading.Luigi n'est pas un cadre pour les remplacer.Au lieu de cela, il vous aide à assembler de nombreuses tâches ensemble, où chaque tâche peut être une requête Hive, un travail Hadoop en Java, un travail Spark dans Scala ou Python un extrait Python, le vidage d'une table à partir d'une base de données ou toute autre chose.Il est facile de créer des pipelines de longue durée qui comprennent des milliers de tâches et prennent des jours ou des semaines.Luigi prend en charge une grande partie de la gestion du flux de travail afin que vous puissiez vous concentrer sur les tâches elles-mêmes et leurs dépendances .... Vous pouvez créer à peu près n'importe quelle tâche que vous voulez, mais Luigi est également livré avec une boîte à outils de plusieurs modèles de tâches courants que vousutilisation.Il inclut la prise en charge de l'exécution des travaux mapreduce Python dans Hadoop, ainsi que des travaux Hive et Pig.Il est également livré avec des abstractions de système de fichiers pour HDFS et des fichiers locaux qui garantissent que toutes les opérations du système de fichiers sont atomiques.Ceci est important car cela signifie que votre pipeline de données ne se bloquera pas dans un état contenant des données partielles.

Les catégories

Alternatives à Luigi pour Self-Hosted avec licence open source