Databricks 第10篇:Job

大家知道,用戶可以在Notebook UI中以交互方式運行Notebook中的SQL、Python等程式碼,交互方式便於數據的調查和分析。用戶還可以通過Job來自動維護數據,Job是立即運行或按計劃運行notebook(或JAR)的一種方法,通過Job可以定時執行數據的清理和整合,用戶只需要設置好計劃(schedule),就可以自動實現數據的維護。

用戶也可以通過Databricks UI來監控Job的運行結果,或者發送email alert,一旦Job運行失敗或成功,用戶會收到包含Job運行結果的郵件。

Databricks限制一個工作區:

  • 最多只能同時運行1000個Job,並發度是1000;
  • 在一個小時內,最多可以創建5000個Job(包括「立即運行」和「運行提交」)

一,使用UI來創建Job

點擊「Jobs」圖標,進入到Jobs頁面,點擊下面的「Create Job」按鈕來創建Job:

輸入Job的Title,並選擇Job執行的Task。

設置Job的屬性:

  • 設置Task,可以選擇 Notebook、 Set JAR、Configure spark-submit,通常選擇Notebook。
  • 設置Cluster:設置Job運行時使用的Cluster
  • 設置Schedule:設置計劃定時執行Job

二,立即運行Job

若要立即運行作業,請在「Active runs」列表中單擊「Run Now」:

三,查看Job運行結果

可以通過導出作業運行的結果來持久保存作業運行。 對於筆記型電腦作業運行,可以先導出呈現的筆記型電腦,稍後再將其導入到 Databricks 工作區中。

1,在作業詳細資訊頁中,單擊「運行」列中的作業運行名稱。

 2,單擊「導出到 HTML」。

 

四,控制對Job的訪問

Job的所有者和管理員可以通過”Job Access Control”控制許可權。使用作業訪問控制,作業所有者可以選擇允許哪些其他用戶或組查看作業的結果。 所有者還可以選擇允許誰管理其作業的運行(即,調用「立即運行」,然後單擊「取消」)。

Step1,跳轉到Job的詳細資訊頁面,點擊「Advanced」鏈接

 Step2,點擊Permissions後面的「Edit」鏈接

Step3,在彈出對話框中,通過用戶名旁邊的下拉菜單分配作業許可權。

 

 

 

參考文檔:

Databricks Jobs