ADF 第二篇:使用UI創建數據工廠

用戶可以通過UI來創建ADF,在UI中創建ADF時,用戶不需要下載單獨的IDE,而僅僅通過 Microsoft Edge 或者 Google Chrome瀏覽器。用戶登錄Azure Portal,選擇 「Data factories」 服務,通過 Data factories 服務中創建ADF。

一,創建Data Factory實例

打開 Data factories之後,點擊「+ Add」,創建自己的數據工廠實例:

step1,填寫Basics資訊

在 「Create Data Factory」 面板中開始創建數據工廠實例,首先填寫「Basics」資訊:Subscription(訂閱)、資源組(Resource group)、區域(Region)、名稱(Name)和版本(Version),版本選擇V2。

step2:配置git

在V2版本中,用戶在創建數據工廠時,還可以配置「Git configuration」,用於版本控制,可以勾選「Configure Git later」,在創建數據工廠實例之後,擇機配置git。

step3:檢查和創建

檢查(Review+Create)無誤後,點擊「Create」 按鈕創建Data factory 實例。等實例創建完成,點擊Next Step 「Go to resource」 導航到數據工廠頁面。

二,作者和監視器

在Data factory的overview頁面上,點擊”Authoer & Monitor”按鈕,這會導航到 Azure Data Factory的用戶介面(UI)頁面中。

ADF的UI介面如下圖所示,介面中顯示了常用的幾個功能:Create Pipeline、Create Data Flow等。

 

由於我們是第一次創建Data Factory,在創建Pipeline之前,我們還需要創建連接(connection)和數據集(dataset)。

三,創建連接服務

點擊UI介面左側的「Manage」選項卡,首先創建連接,連接有兩種類型:Linked services 和 Integration runtimes,本文創建Liked Services,由於Linked Services 依賴於Integration runtimes,因此,我們首先創建Integration runtimes。

1,創建Integration runtimes(IR)

如何創建Integration runtimes,請閱讀:《ADF 第三篇:Integration runtime和 Linked Service

2,創建Linked Services

在Connections中選中「Linked Services」,點擊「+New」,創建一個新的Linked Services:

 

不同的數據源,有不同的Linked Service,要根據實際的數據源,選擇合適的數據源的類型,下圖創建的Linked Service的類型是SQL Server,輸入 Name、Connect via integration runtime、Server name、Database name、Authentication type 、 User name和 Password。

注意,Connect via integration runtime 就是上一節創建的Integration runtimes。

Azure Key Vault是一個存儲空間,用戶把密碼存儲到Azure Key Vault中,輸入Key Vault的名稱和密碼就能提取它存儲的資訊。

四,創建Dataset

dataset 代表數據存儲的結構(schema),它既可以代表數據源,從數據源中讀取數據;也可以代表數據目標,把數據存儲到該數據目標中。

創建一個dataset實例,只是存儲了數據存儲的結構等元數據資訊,而不會真正存儲實際的數據。數據真正存儲在dataset指向的底層存儲對象中,舉個例子,dataset執行SQL Server實例中的一個表,那麼數據實際存儲在這個表中,而dataset存儲的數據是表的結構和導航到表的Linked Service。同一個dataset,既可以作為獲取數據的數據源,也可以作為存儲數據的數據目標。

點擊「鉛筆」對應的「Author」選項卡,進入到Fact Resources介面,點擊「+」,選擇 Dataset,進入到創建Dataset的介面

設置Dataset的屬性,設置Dataset的Name,通過Linked service來獲取源數據的連接,通過Table name來指定表,建議把Import schema設置為From conneciton/store。

五,創建Pipeline

創建管道,管道相當於一個容器,可以把一個或多個Activity拖放到管道中。

如果向管道中放置Activity?用戶不需要編寫任何程式碼,只需要從「Activities」列表中選擇需要的Activity,拖放到Pipeline中,常用的Activity 通常位於「General」子目錄中。

本文演示Copy data Activity的用法,從「Move & transform」子目錄,選擇Copy data:

Copy Activity的作用是把數據從一個dataset轉移到另一個dataset中。

1,設置Copy Activity的Source屬性

Source 屬性表示數據源,Copy Activity 從Source dataset中獲取數據:

2,Copy Activity的Sink屬性

Sink屬性用於設置數據目標,Sink dataset用於存儲數據:

3,Copy Activity的其他屬性

Mapping屬性選項卡用於設置Source dataset和Sink dataset之間的列映射,並可以設置列類型的轉換。

4,調試Pipeline

點擊「Debug」對當前Pipeline進行調試

到此,一個簡單的ADF就創建完成。

 

參考文檔:

Quickstart: Create a data factory by using the Azure Data Factory UI