Azure Data Factory

Azure Data Factory (ADF) ist ein Cloud-basiertes Datenintegrationsdienstprogramm von Microsoft Azure. Es bietet eine Plattform für den Aufbau, die Planung und die Ausführung von Datenpipelines für die Übertragung, Transformation und Verarbeitung von Daten aus verschiedenen Quellen.

ADF unterstützt eine breite Palette von Datenquellen, einschließlich lokaler Dateien, Datenbanken, Cloud-basierten Quellen wie Azure SQL Database, Azure Blob Storage, Azure Data Lake Storage und SaaS-Anwendungen wie Salesforce, Dynamics 365 und Office 365.

ADF verwendet eine visuelle "drag and drop" Benutzeroberfläche und ermöglicht es Benutzern, Datenpipelines ohne Code zu erstellen.

Außerdem bietet ADF Methoden für die Skalierung von Pipelines, die je nach Anforderungen automatisch oder manuell erfolgen können. Die Möglichkeit, Pipeline-Ausführungen zu überwachen und Fehler zu beheben, ist auch in ADF integriert. Durch die einfach integrierbaren Azure Services wie Azure Monitor, Azure Log Analytics und Azure Sentinel können Benutzer den Status von Datenpipelines in Echtzeit überwachen und Benachrichtigungen bei Fehlern oder kritischen Ereignissen erhalten. (https://learn.microsoft.com/de-de/azure/data-factory/introduction)

Somit ist Azure Data Factory eine gute alternative zu den etablierten Orchestrierungstools wie Apache Airflow. Zudem bietet Azure für den Service ein Pay as you go Model an, womit der Kunde pro Ausführung bezahlt und keine eigene Infrastruktur erstellen muss. Das lohnt sich vor allem für kleine Unternehmen die keine Zeit, Personal oder Expertise besitzen um Airflow zu verwenden. Wenn das Data Team noch so klein ist, dass sich der Data Analyst auch um die Pipelines kümmert, kann ADF verwendet werden. Ab den Zeitpunkt, wo man aufgrund von steigender Datenmenge einen Data Engineer einstellt, sollte in Betracht gezogen werden, Open Source Tools wie Airflow zur Orchestrierung zu werden.

Last updated