Structured Streaming

Structured Streaming ist eine Stream-Processing-Engine, die Teil des Apache Spark-Frameworks ist. Es werden kontinuierlich Daten in kleinen Batchs in Spark geladen, und diese Daten werden dann als Datensätze oder Datenframes behandelt. Damit Spark in der Lage ist Streams zu pausieren, wird der aktuelle Offset des Streamzustands (Checkpoint) in einer Datei speichert. Structured Streaming macht es einfach vom Batch- auf das Stream Processing umzusteigen, da es wie vorher beschrieben, im Kern nur mehrere kleine Batches nacheinander sind. Somit kann der vorhandene Code zu Transformation der Daten wiederverwendet werden. Structured Streaming kann verschiedene Datenquellen integrieren, wie zum Beispiel Kafka, HDFS, Azure Event Hub und Amazon S3. (Haines, S.,2022, S. 203-211)

Last updated