Luigi

Luigi

Le but de Luigi est de traiter toute la plomberie généralement associée aux processus par lots de longue durée.Vous voulez enchaîner de nombreuses tâches, les automatiser et des échecs se produiront.Ces tâches peuvent être n'importe quoi, mais sont généralement des tâches de longue haleine comme les travaux Hadoop, le vidage de données vers / depuis des bases de données, l'exécution d'algorithmes d'apprentissage automatique ou autre.Il existe d'autres progiciels qui se concentrent sur les aspects de niveau inférieur du traitement des données, comme Hive, Pig ou Cascading.Luigi n'est pas un cadre pour les remplacer.Au lieu de cela, il vous aide à assembler de nombreuses tâches ensemble, où chaque tâche peut être une requête Hive, un travail Hadoop en Java, un travail Spark dans Scala ou Python un extrait Python, le vidage d'une table à partir d'une base de données ou toute autre chose.Il est facile de créer des pipelines de longue durée qui comprennent des milliers de tâches et prennent des jours ou des semaines.Luigi prend en charge une grande partie de la gestion du flux de travail afin que vous puissiez vous concentrer sur les tâches elles-mêmes et leurs dépendances .... Vous pouvez créer à peu près n'importe quelle tâche que vous voulez, mais Luigi est également livré avec une boîte à outils de plusieurs modèles de tâches courants que vousutilisation.Il inclut la prise en charge de l'exécution des travaux mapreduce Python dans Hadoop, ainsi que des travaux Hive et Pig.Il est également livré avec des abstractions de système de fichiers pour HDFS et des fichiers locaux qui garantissent que toutes les opérations du système de fichiers sont atomiques.Ceci est important car cela signifie que votre pipeline de données ne se bloquera pas dans un état contenant des données partielles.
luigi

Les catégories

Alternatives à Luigi pour toutes les plateformes avec n'importe quelle licence

Zenaton

Zenaton

Un Workflow Builder pour les développeurs.Créez des processus événementiels en quelques jours au lieu de plusieurs mois.
StackStorm

StackStorm

StackStorm est une puissante plate-forme d'automatisation open source qui relie tous vos applications, services et workflows.Il est extensible, flexible et construit avec amour pour DevOps et ChatOps.
ProActive Workflows & Scheduling

ProActive Workflows & Scheduling

ProActive Workflows & Scheduling vous permet d'exécuter facilement tous vos travaux et applications d'entreprise, de surveiller l'activité et d'accéder rapidement aux résultats des travaux.
Apache Airflow

Apache Airflow

Airflow est une plateforme pour créer, planifier et surveiller des pipelines de données par programmation.