Apache Airflow
Mit Hilfe der Apache Airflow-Plattform haben Sie die Möglichkeit, Workflows mithilfe von Computerprogrammierung zu erstellen, zu planen und zu überwachen. Diese Open-Source-Lösung ist äußerst vorteilhaft für die Gestaltung und Zusammenstellung anspruchsvoller Datenpipelines sowie für das Initiieren von Aufgaben.(https://datascientest.com/de/apache-airflow-was-ist-das-und-wie-kann-man-es-nutzen)
Komponenten
Webserver
Scheduler
Queue
Dag
Worker
Connectors
1. Webserver
Der Webserver bietet eine benutzerfreundliche Oberfläche, auf der Benutzer Aufgaben und Workflows ansehen und verwalten können. (Harenslak, B., & Ruiter, J., 2021, S.11)
2. Scheduler
Der Scheduler plant die Ausführung von Aufgaben und sorgt dafür, dass sie zum richtigen Zeitpunkt ausgeführt werden. (Harenslak, B., & Ruiter, J., 2021, S.11)
3. Queue
Die Queue dient als Puffer zwischen dem Scheduler und den Workern, um sicherzustellen, dass Aufgaben nicht verloren gehen. (https://airflow.apache.org/docs/apache-airflow/1.10.2/concepts.html)
4. Dag
Die Kernkomponente von Airflow sind die Directed Acyclic Graphs (DAGs), die die Logik und die Abhängigkeiten der Workflows definieren. Jeder DAG besteht aus einer Reihe von Aufgaben, die in einer bestimmten Reihenfolge ausgeführt werden müssen. Jede Aufgabe kann verschiedene Parameter haben, wie z.B. die Verbindung zu einer Datenquelle, die Größe der Ressourcen oder die Art der auszuführenden Aufgabe. DAGs können mit Python-Skripten erstellt werden und sind in einer lesbaren textbasierten Konfigurationsdatei definiert. (Harenslak, B., & Ruiter, J., 2021, S.5)
5. Worker
Die Worker führen die Aufgaben tatsächlich aus. (Harenslak, B., & Ruiter, J., 2021, S.11)
6. Connectors
Es bietet auch eine Vielzahl von Konnektoren für verschiedene Datenquellen, einschließlich Azure Databricks, AWS S3, Google Cloud Storage, Hadoop File System und viele mehr. (https://airflow.apache.org/docs/apache-airflow/stable/howto/connection.html)
Last updated