KNIME快速入門指南

介紹 

KNIME Analytics Platform是用於創建數據科學應用程式和服務的開源軟體。KNIME直觀,開放,不斷整合新的開發,使人們可以理解數據,設計數據科學工作流程和可重用組件。

藉助KNIME Analytics Platform,您可以使用直觀的拖放式圖形介面創建可視化工作流程,而無需編碼。

在本快速入門指南中,我們將引導您完成KNIME Workbench,並向您展示如何構建您的第一個工作流程。

、啟動KNIME Analytics Platform 

如果您尚未安裝KNIME Analytics Platform,則可以在此//www.knime.com/downloads 下載。

啟動KNIME Analytics Platform,當KNIME Analytics Platform Launcher窗口出現時,在此處定義KNIME工作區,如圖1所示。

 

圖1. KNIME Analytics Platform Launcher

KNIME工作區是本地電腦上的一個文件夾,用於存儲KNIME工作流,節點設置和工作流生成的數據。存儲在工作區中的工作流程和數據可通過KNIME Workbench左上角的KNIME Explorer獲得。

選擇文件夾作為項目的KNIME工作區後,單擊「 啟動」。在使用時,KNIME Analytics Platform用戶介面 – KNIME Workbench – 看起來就像圖2中所示的螢幕截圖。

圖2. KNIME Workbench

KNIME Workbench由以下組件組成:

l KNIME Explorer:活動KNIME工作區中可用工作流和工作流組的概述,即本地工作區和KNIME伺服器。

l Workflow Coach(工作流指導):根據廣泛的KNIME用戶社區構建的工作流程列出節點建議。如果您不允許KNIME收集您的使用情況統計資訊,則它處於非活動狀態。

l Node Repository(節點存儲庫):此處列出了核心KNIME Analytics Platform和您已安裝的擴展中可用的所有節點。節點按類別組織,但您也可以使用Node Repository頂部的搜索框來查找節點。

l Workflow Editor(工作流編輯):用於編輯當前活動的工作流。

l Description(描述):當前活動工作流或所選節點的描述(在Workflow Editor或Node Repository中)。

l Outline(大綱):當前活動工作流程的概述。

l Console(控制台):顯示執行消息,指示引擎蓋下發生了什麼。

、節點和工作流程 

在KNIME Analytics Platform中,各個任務由節點表示。每個節點都帶有輸入和輸出埠、以及狀態,如圖3所示。輸入是節點要處理的數據,輸出是處理後的數據結果集。每個節點都有特定的設置,我們可以在配置對話框中進行調整。每個節點都有四種狀態,未配置的、已配置的、已執行的、錯誤的。節點可以執行各種任務,包括讀/寫文件,轉換數據,訓練模型,創建可視化等等。

 

圖3.節點埠和節點狀態

互連節點的集合構成工作流,並且通常代表特定數據分析項目的一部分 或者可能全部。

、建立你的第一個工作流程 

現在讓我們開始構建一個示例工作流,我們分析一些銷售數據。當我們完成它時,它看起來就像圖4中所示的工作流程。

 

 

圖4.示例工作流程

圖4中的示例工作流從CSV文件中讀取數據,過濾列的子集,過濾掉一些行,並在兩個圖中可視化數據:堆積面積圖和餅圖,您可以在圖5中看到:一個顯示銷售額隨時間的變化,另一個顯示不同國家在總銷售額上的份額。

 

圖5.示例工作流的輸出視圖

首先,請先下載包含我們將在工作流程中使用的數據的CSV文件。下載地址://files.knime.com/sites/default/files/sales_data.csv。接下來,通過以下方式創建新的空工作流:

l 單擊新建在KNIME工作台的頂部工具欄面板

l 或者右鍵單擊KNIME Explorer中本地工作區的文件夾,如圖6所示

 

圖6.創建一個新的空工作流程

您需要的第一個節點是文件讀取器節點,您可以在節點存儲庫中找到該節點。您可以導航到IO→讀取→文件讀取器,或在節點存儲庫面板的搜索框中鍵入名稱的一部分。

要在工作流程中使用該節點,您可以:

l 將其從節點存儲庫拖放到工作流編輯器

l 或者雙擊節點存儲庫中的節點。它會自動顯示在工作流編輯器中。

現在讓我們定義這個節點的設置:

l 打開配置對話框或者通過雙擊文件讀取器節點,或通過右鍵單擊並選擇配置…,如圖7。

 

圖7.配置節點

l 在配置對話框中,單擊「 瀏覽」 按鈕定義文件路徑,然後檢查其他可用設置,並預覽數據,如圖8所示。

 

圖8. File Reader節點的Configuration對話框

您現在可能需要檢查輸出表以查看數據文件是否按預期讀取。要檢查輸出表:

l 右鍵單擊節點並選擇「 執行」,執行「文件讀取器」節點

l 通過右鍵單擊執行的節點並選擇菜單中的最後一個選項打開輸出表:文件表

如果正確讀取了數據,請將Column Filter節點添加到工作流編輯器並將其連接到File Reader節點:

l 單擊File Reader節點的輸出埠,按住滑鼠按鈕並在Column Filter節點的輸入埠釋放它

l 或者,通過在工作流中單擊一次選擇「文件讀取器」節點,然後雙擊節點存儲庫中的「列過濾器」節點。此方法自動將Column Filter節點連接到File Reader節點。

在繼續之前,必須配置「列過濾器」節點:

l 將「country」,「date」和「amount」列移動到綠框 Include欄位中,方法是雙擊它們,或者使用圖9所示配置對話框中ExcludeInclude欄位之間的按鈕。

 

圖9.配置Column Filter節點

l 單擊「 確定」完成配置

繼續構建工作流程:

l 將「行過濾器」節點添加到工作流編輯器並將其連接到「列過濾器」節點

l 打開「行過濾器」節點的配置對話框,並從輸入表中排除「country」列的值為「unknown」的行,如圖10所示。

 

圖10.配置Row Filter節點

現在已經過濾了數據,讓我們繼續進行數據可視化:

l 在節點存儲庫中搜索節點Stacked Area Chart(JavaScript)和Pie / Donut Chart(JavaScript),並將它們添加到工作流編輯器,兩者都連接到Row Filter節點

l 打開Stacked Area Chart(JavaScript)節點的配置對話框。選擇「date」列作為x軸列,如圖11所示。

 

圖11.配置Stacked Area Chart(JavaScript)節點

l 現在打開餅圖/圓環圖(JavaScript)節點的配置對話框,選擇「country」作為類別列,選擇「Sum」作為聚合方法,將「amount」作為餅圖的頻率列。這兩種配置選項如圖12所示。

 

圖12.配置餅圖/圓環圖(JavaScript)節點

工作流程已完成,下一步是執行它並查看輸出。您可以通過單擊圖13中所示工具欄中的「執行所有可執行節點」按鈕來執行此操作…

 

圖13.從工具欄中執行所有可執行節點

…,或者通過選擇工作流的不同分支的最後一個節點,右鍵單擊選擇,然後單擊菜單中的「 執行 」。

要檢查基於JavaScript的節點的互動式輸出視圖:

l 為未執行的節點選擇Execute和Open Views選項,如圖14所示

 

圖14.執行和打開互動式視圖

l 或者,一旦執行一個節點,右鍵單擊該節點並選擇交互視圖:…相反,如圖15

 

圖15.打開已執行節點的交互視圖

目前,餅圖使用數據中不同國家/地區的默認顏色。使用Color Manager節點,您可以為國家/地區指定其他顏色,而不是圖5中所示的默認顏色。在構建圖形之前必須分配顏色,因此您必須在顏色管理器中間添加顏色管理器節點。流程。

添加Color Manager節點:

l 通過從節點存儲庫中拖動節點並在連接變為紅色時在工作流中的行過濾器節點和餅圖圓點圖表節點之間將其釋放,如圖16所示。紅色連接表示它已準備好接受釋放滑鼠時的新節點。

 

圖16.在工作流中的兩個節點之間插入一個節點

五、示例工作流程 

使用KNIME Hub上的示例工作流程快速開始分析。您可以直接在hub.knime.com上瀏覽示例工作流,可以通過KNIME Explorer中的EXAMPLES掛載點瀏覽。您可以將工作流程複製到本地工作區,根據用例進行修改,或將其中的部分內容複製到工作流程中。KNIME Hub上的工作流程也是了解KNIME Analytics Platform中不同用例的有用資源。

要從KNIME Analytics Platform中訪問示例工作流程:

l 在KNIME Explorer中展開EXAMPLES掛載點

l 接下來,雙擊以查看按類別排序的示例工作流,如圖17所示。無需憑據。

 

圖17.登錄EXAMPLES掛載點

l 在這些類別中,一些工作流組以單個操作命名,例如過濾

l 其他工作流程組的名稱涉及更廣泛的主題,例如時間序列分析

l 「50_Applications」工作流程組包含的工作流程涵蓋整個用例,如流失預測或欺詐檢測

要下載示例工作流程:

l 拖放

l 或者,複製並粘貼

工作流進入LOCAL工作區。雙擊下載的示例工作流副本,以打開和編輯它,就像任何其他工作流程一樣。

、擴展和集成 

如果要向KNIME Analytics Platform添加功能,可以安裝擴展和集成。可用的擴展包括KNIME提供的免費開源擴展和集成,以及由社區和商業擴展提供的免費擴展。

由KNIME開發和維護的KNIME擴展和集成包含Keras提供的深度學習演算法,H2O提供的高性能機器學習,Apache Spark提供的大數據處理,以及Python和R提供的腳本,僅舉幾例。

安裝擴展程式:

l 單擊文件菜單欄上,然後安裝KNIME擴展…。將打開如圖18所示的對話框。

l 選擇要安裝的擴展程式

l 單擊「下一步」並按照說明操作

l 重新啟動KNIME Analytics Platform

 

圖18.安裝擴展和集成

默認情況下,KNIME擴展和受信任的社區擴展可通過其更新站點的URL獲得。可以通過首先添加其更新站點來安裝其他擴展。

要添加更新站點:

l 導航到「文件」→「首選項」→「安裝/更新」→「可用軟體站點」

l 點擊「添加…」

l 並通過「位置」欄位提供URL來添加新的更新站點

l 或者,通過提供包含本地更新站點的zip文件的文件路徑,通過「存檔…」

l 最後,給更新站點一些有意義的名稱並單擊「確定」

完成此操作後,可以如上所述安裝擴展。

通過以下方式更新到最新的KNI​​ME版本:

l 單擊文件,然後更新KNIME ……以確保您使用KNIME軟體的最新版本,並已安裝的擴展

l 在打開的窗口中,選擇更新,接受條款和條件,等待更新完成,然後重新啟動KNIME Analytics Platform

、提示與技巧 

  • 在KNIME論壇上獲得幫助和討論
    登錄KNIME社區論壇,加入KNIME分析平台,擴展和集成,特殊興趣小組和KNIME開發等不同類別的討論。論壇是一個充滿活力的社區,KNIME的工作人員以及其他經驗豐富的KNIME用戶可以回答您的問題。
  • 導入和導出工作流程
    要導入工作流程或工作流程組,在KNIME Explorer –>LOCAL的任意位置單擊右鍵,然後選擇Import(Export)KNIME Workflow…,如圖19

 

圖19.導入和導出工作流和工作流組

要導出工作流程或工作流程組,請首先選擇要導出的工作流程(或組)

接下來,寫入目標文件夾的路徑和文件名。如果導出工作流組,則可以從文件夾中選擇要導出的元素。如圖20所示

 

圖20.定義要導入或導出的文件的路徑

  • 通過拖放數據文件
    導入數據您可以從KNIME工作區或系統上的任何位置導入數據文件,方法是將其從KNIME Explorer,桌面或文件資源管理器拖放到工作流編輯器,如圖21所示。方法自動創建正確的節點以讀取文件類型,並通過使用相對於KNIME Explorer位置的文件路徑URL填充文件路徑設置來預先配置節點。

圖21.通過拖放讀取數據文件

  • 替換工作流中的節點
    您可以通過從存儲庫拖動節點並在其中出現白色箭頭和方框時將其放在現有節點之上來替換工作流中的節點,如圖22所示。

 

圖22.替換工作流中的節點

  • 展開您的節點搜索:模糊搜索和清晰搜索
    如果您不確定要搜索的節點的名稱,請通過單擊搜索欄位旁邊的圖標切換到節點存儲庫中的模糊搜索模式,如圖23所示您的搜索結果現在將包含與搜索詞相關的任何節點。在清晰搜索模式下,搜索文本必須與節點名稱本身完全匹配。通過更多練習構建工作流程,您將記住越來越多的節點名稱。一段時間後,您可能會切換回清晰的搜索模式,以便更快地找到您正在尋找的節點。

 

圖23. Crisp和模糊搜索模式

  • 監視節點的狀態
    如果要查看工作流中的中間輸出表,可以將節點監視器面板添加到KNIME Workbench:

n 單擊View→Other→KNIME Views→Node Monitor,如圖24所示

圖24.將節點監視器添加到KNIME Workbench

n 接下來,在Node Monitor右上角的View菜單中選擇Show Output Table,如圖25所示。此面板現在顯示您在工作流程中選擇的節點的輸出。

 

圖25.在節點監視器中顯示輸出表

l 除了輸出表之外,您還可以讓面板顯示節點的執行時間。您還可以固定一個節點的輸出。這意味著當前所選節點的輸出與工作流編輯器中的選擇無關。

掃碼關注獲取 KNIME 最新動態

公眾號:Spark技術學習

 

 

 

Tags: