🎉Orchestriere den Batch Prozess

Dieser Teil funktioniert nur mit Databricks Premium, also nicht mit der Community-Version

Gehe auf User Settings

Drücke auf Generate new token

Gebe einen Namen ein

Kopiere den Token

Erstelle eine Airflow Connection vom Typ Databricks. Geb den Host und den Token ein

Erstelle ein Airflow DAG, zum auslösen des Notebooks

'notebook_path' ist das vorherige Databricks-Notebook

from airflow import DAG
from airflow.providers.databricks.operators.databricks import DatabricksRunNowOperator,DatabricksSubmitRunOperator
from airflow.utils.dates import days_ago
from datetime import datetime, timedelta

default_args = {
    'owner' : 'chris',
    'retries': 1,
    'retry_delay' : timedelta (minutes=5)
}

new_cluster = {'spark_version': '12.2.x-scala2.12',
                        'node_type_id': 'Standard_DS3_v2',
                        'num_workers': 0,
                        }

with DAG(
    default_args=default_args,
    dag_id ='dag_Databricks',
    start_date = datetime(2023,1,23), 
    catchup = False, 
    schedule_interval='@daily'
) as dag:
    task1= DatabricksSubmitRunOperator(
        task_id='test',
        databricks_conn_id='AzureDatabricks',
        json={'new_cluster': new_cluster,
                        'notebook_task': {
                        'notebook_path': '/Users/christopher.nagl.test_gmail.com#ext#@christophernagltestgmail.onmicrosoft.com/CosmosDBCassandraToAzureSql'
                           
                        },
                         'libraries': [
                    {
                        'maven': {
                            'coordinates': 'com.datastax.spark:spark-cassandra-connector-assembly_2.12:3.2.0'
                        }
                    }
                    
                    ]
                    }

    )

    task1

PreviousSchreiben der Daten von CosmosDB nach Postgresql mit Databricks NextBaue die Pipeline mit Iot Hub, Databricks und Apache Airflow

Last updated 9 months ago