🎉Orchestriere den Batch Prozess

Dieser Teil funktioniert nur mit Databricks Premium, also nicht mit der Community-Version

  1. Gehe auf User Settings

  1. Drücke auf Generate new token

  1. Gebe einen Namen ein

  1. Kopiere den Token

  1. Erstelle eine Airflow Connection vom Typ Databricks. Geb den Host und den Token ein

  1. Erstelle ein Airflow DAG, zum auslösen des Notebooks

'notebook_path' ist das vorherige Databricks-Notebook
from airflow import DAG
from airflow.providers.databricks.operators.databricks import DatabricksRunNowOperator,DatabricksSubmitRunOperator
from airflow.utils.dates import days_ago
from datetime import datetime, timedelta

default_args = {
    'owner' : 'chris',
    'retries': 1,
    'retry_delay' : timedelta (minutes=5)
}

new_cluster = {'spark_version': '12.2.x-scala2.12',
                        'node_type_id': 'Standard_DS3_v2',
                        'num_workers': 0,
                        }

with DAG(
    default_args=default_args,
    dag_id ='dag_Databricks',
    start_date = datetime(2023,1,23), 
    catchup = False, 
    schedule_interval='@daily'
) as dag:
    task1= DatabricksSubmitRunOperator(
        task_id='test',
        databricks_conn_id='AzureDatabricks',
        json={'new_cluster': new_cluster,
                        'notebook_task': {
                        'notebook_path': '/Users/christopher.nagl.test_gmail.com#ext#@christophernagltestgmail.onmicrosoft.com/CosmosDBCassandraToAzureSql'
                           
                        },
                         'libraries': [
                    {
                        'maven': {
                            'coordinates': 'com.datastax.spark:spark-cassandra-connector-assembly_2.12:3.2.0'
                        }
                    }
                    
                    ]
                    }

    )

    task1

Last updated