Apache Airflow

Mit Hilfe der Apache Airflow-Plattform haben Sie die Möglichkeit, Workflows mithilfe von Computerprogrammierung zu erstellen, zu planen und zu überwachen. Diese Open-Source-Lösung ist äußerst vorteilhaft für die Gestaltung und Zusammenstellung anspruchsvoller Datenpipelines sowie für das Initiieren von Aufgaben.(https://datascientest.com/de/apache-airflow-was-ist-das-und-wie-kann-man-es-nutzen)

Komponenten

  1. Webserver

  2. Scheduler

  3. Queue

  4. Dag

  5. Worker

  6. Connectors

1. Webserver

Der Webserver bietet eine benutzerfreundliche Oberfläche, auf der Benutzer Aufgaben und Workflows ansehen und verwalten können. (Harenslak, B., & Ruiter, J., 2021, S.11)

2. Scheduler

Der Scheduler plant die Ausführung von Aufgaben und sorgt dafür, dass sie zum richtigen Zeitpunkt ausgeführt werden. (Harenslak, B., & Ruiter, J., 2021, S.11)

3. Queue

Die Queue dient als Puffer zwischen dem Scheduler und den Workern, um sicherzustellen, dass Aufgaben nicht verloren gehen. (https://airflow.apache.org/docs/apache-airflow/1.10.2/concepts.html)

4. Dag

Die Kernkomponente von Airflow sind die Directed Acyclic Graphs (DAGs), die die Logik und die Abhängigkeiten der Workflows definieren. Jeder DAG besteht aus einer Reihe von Aufgaben, die in einer bestimmten Reihenfolge ausgeführt werden müssen. Jede Aufgabe kann verschiedene Parameter haben, wie z.B. die Verbindung zu einer Datenquelle, die Größe der Ressourcen oder die Art der auszuführenden Aufgabe. DAGs können mit Python-Skripten erstellt werden und sind in einer lesbaren textbasierten Konfigurationsdatei definiert. (Harenslak, B., & Ruiter, J., 2021, S.5)

5. Worker

Die Worker führen die Aufgaben tatsächlich aus. (Harenslak, B., & Ruiter, J., 2021, S.11)

6. Connectors

Es bietet auch eine Vielzahl von Konnektoren für verschiedene Datenquellen, einschließlich Azure Databricks, AWS S3, Google Cloud Storage, Hadoop File System und viele mehr. (https://airflow.apache.org/docs/apache-airflow/stable/howto/connection.html)

Last updated