Databricks

Databricks ist eine vereinheitlichte Analytics-Plattform, die darauf ausgelegt ist, Data Science-, Engineering- und Business-Teams zusammenzubringen. Die Plattform bietet kollaborative Workspaces, die es Benutzern ermöglicht, Machine-Learning-Modelle zu erstellen, zu trainieren und bereitzustellen, komplexe Analytics-Abfragen durchzuführen und Daten-Pipelines zu erstellen. (https://docs.databricks.com/introduction/index.html)

Im Kern basiert Databricks auf Apache Spark, einem verteilten Computing-System, das als Open-Source-Software verfügbar ist. Spark ist bekannt für seine Geschwindigkeit, Vielseitigkeit und Benutzerfreundlichkeit und hat sich als beliebte Wahl für die Verarbeitung großer Datenmengen in Echtzeit etabliert. Databricks ist eine SaaS Lösung, die einen verwalteten Spark Cluster bereitstellt. Das bedeutet, dass Teams sich auf das Erstellen und Bereitstellen ihrer Datenanwendungen konzentrieren können, ohne sich um die zugrunde liegende Infrastruktur kümmern zu müssen. (Ilijason, R., 2020, S.15-18)

Databricks macht es einfach möglich, andere Services zu integrieren. So ist beispielsweise möglich, Bibliotheken durch Maven oder PyPi zu installieren. (Ilijason, R., 2020, S.194)

Ein Workspace ermöglicht es Teams, Notebooks, Dashboards und Datensätze miteinander zu teilen, um die Zusammenarbeit an Projekten zu erleichtern. Notebooks sind eine besonders wichtige Funktion der Workspaces, da sie es Benutzern ermöglichen, Code in einer webbasierten Benutzeroberfläche zu schreiben und auszuführen, ähnlich wie Jupyer Notebooks. (Ilijason, R., 2020, S.39-40) Zudem ist es möglich, in jeder Zeile eine unterschiedliche Programmiersprache auszuführen. Hierbei bietet Databricks Python, Scala, R, Java und SQl an.(https://docs.databricks.com/languages/index.htm)

Databricks bietet auch eine Reihe von anderen Funktionen, die dazu beitragen, die Arbeit mit Daten einfacher und effizienter zu gestalten. Eine dieser Funktionen ist das automatisierte Machine Learning. Mit automatisiertem Machine Learning können Teams schnell Machine-Learning-Modelle erstellen und trainieren. (Ilijason, R., 2020, S.227-228)

Zudem bietet Datbricks eine verwaltete Version der open source Plattform MFflow an. Diese ermöglicht es, den Machine Learning Prozess vom trainieren bis hin zum Deployment zu verwalten. (Ilijason, R., 2020, S.233)

Last updated