Databricks 第10篇:Job
- 2021 年 1 月 27 日
- 筆記
- Databricks
大家知道,用戶可以在Notebook UI中以交互方式運行Notebook中的SQL、Python等程式碼,交互方式便於數據的調查和分析。用戶還可以通過Job來自動維護數據,Job是立即運行或按計劃運行notebook(或JAR)的一種方法,通過Job可以定時執行數據的清理和整合,用戶只需要設置好計劃(schedule),就可以自動實現數據的維護。
用戶也可以通過Databricks UI來監控Job的運行結果,或者發送email alert,一旦Job運行失敗或成功,用戶會收到包含Job運行結果的郵件。
Databricks限制一個工作區:
- 最多只能同時運行1000個Job,並發度是1000;
- 在一個小時內,最多可以創建5000個Job(包括「立即運行」和「運行提交」)
一,使用UI來創建Job
點擊「Jobs」圖標,進入到Jobs頁面,點擊下面的「Create Job」按鈕來創建Job:
輸入Job的Title,並選擇Job執行的Task。
設置Job的屬性:
- 設置Task,可以選擇 Notebook、 Set JAR、Configure spark-submit,通常選擇Notebook。
- 設置Cluster:設置Job運行時使用的Cluster
- 設置Schedule:設置計劃定時執行Job
二,立即運行Job
若要立即運行作業,請在「Active runs」列表中單擊「Run Now」:
三,查看Job運行結果
可以通過導出作業運行的結果來持久保存作業運行。 對於筆記型電腦作業運行,可以先導出呈現的筆記型電腦,稍後再將其導入到 Databricks 工作區中。
1,在作業詳細資訊頁中,單擊「運行」列中的作業運行名稱。
2,單擊「導出到 HTML」。
四,控制對Job的訪問
Job的所有者和管理員可以通過”Job Access Control”控制許可權。使用作業訪問控制,作業所有者可以選擇允許哪些其他用戶或組查看作業的結果。 所有者還可以選擇允許誰管理其作業的運行(即,調用「立即運行」,然後單擊「取消」)。
Step1,跳轉到Job的詳細資訊頁面,點擊「Advanced」鏈接
Step2,點擊Permissions後面的「Edit」鏈接
Step3,在彈出對話框中,通過用戶名旁邊的下拉菜單分配作業許可權。
參考文檔: