Apache Spark

Apache Spark ist ein Open-Source-Framework für die Verarbeitung von Big Data, welches in Java, Scala und Python entwickelt wurde. Es bietet eine schnelle, skalierbare und verteilte Verarbeitung großer Datenmengen auf einem Cluster von Computern. Mit Spark können Entwickler Datenanalysen, maschinelles Lernen, Echtzeit-Streaming, Grafikverarbeitung und viele andere Big-Data-Anwendungen erstellen. (Haines, S., 2022, S.31-32)

Spark wurde ursprünglich am AMPLab der UC Berkeley entwickelt und später an die Apache Software Foundation übergeben. (https://de.wikipedia.org/wiki/Apache_Spark)

Spark verwendet ein In-Memory-Datenmodell, das als Resilient Distributed Dataset (RDD) bezeichnet wird. Dieses Modell ermöglicht eine schnelle und fehlertolerante Verarbeitung von Daten, da es Daten im Speicher hält, anstatt sie von der Festplatte zu lesen und zu schreiben. Zudem wird eine Master-Slave-Architektur verwendet, bei der der Master-Knoten die Aufgaben auf die Slave-Knoten verteilt. (Haines, S., 2022, S.38-40)

Spark bietet eine breite Palette von APIs und Bibliotheken. Die Kern-API ist die Spark Core-API, die aus Python, Scala, R, SQL und Java besteht. (https://docs.databricks.com/languages/index.htm)

Last updated