大數據治理——搭建大數據探索平台
在數據治理中,數據探索服務的價值在初期往往是被忽視的,但是隨着業務的增加,分析人員的增加,數據探索服務的價值就會越來越大。
一個成功的數據管理平台,不僅僅要提供各種數據分析的工具,提供各種各樣的數據源,更要提供數據探索的能力。
為什麼數據探索服務很重要?
想像一下,作為一名數據科學家,他剛剛獲得新的任務是建立一個機器學習模型對業務問題進行分析。處理數據的人的第一個本能是尋找任何有意義的信息,能對其分析過程提供幫助。在這個過程中通常會出現以下問題:
- 我可以/應該使用哪種數據?
- 在哪裡可以找到數據?
- 我應該問誰申請數據訪問權限?
- 我可以信任我們擁有的數據嗎?
- 我們擁有的數據的實時性和質量如何?
- 還有誰在使用這些數據?
沒有數據探索服務的世界
數據科學家最多將三分之一的時間用於數據探索。
如果沒有數據探索服務,數據科學家需要和同事溝通,瀏覽他們可以訪問的對象進行搜索。然後做出一些假設,來驗證他們的選擇是否正確。
這個過程其實非常的耗時,因為沒有合適的工具幫忙。必須要不斷的去尋找可靠的數據。但是隨着數據量增大,數據平台使用者的增加,數據分析需求的增加,元數據的數量也在增加。這個過程就為尋找的過程帶來了非常大的挑戰。
數據科學家用來查找與他們的需求相關的數據的方式可能很快會適得其反,變得不可靠,從而導致很多挫敗感,不確定性和創造力下降。
解決這些問題的方案就是數據探索服務。
數據探索服務
數據探索服務意味着向用戶提供一種工具,使其可以了解平台中的數據及其質量。讓我們來了解下具體的實現。
Amundsen
Lyft是一家總部位於美國的打車應用,其開源了大量的技術框架,其中就包括Amundsen。這是一個以偉大的挪威探險家的名字命名的數據探索服務,Lyft的數據探索服務旨在解決通過在元數據中搜索有價值的信息。它提供的是用戶數據探索服務的搜索界面。
Amundsen的社區非常的繁榮,正在不斷的更新改進。
Apache Atlas
作為元數據管理的領軍,atlas無疑是最好的選擇之一。
元數據聽起來很容易解釋,用於描述數據信息的數據。最簡單的示例是數據存在表裡,而表的相關的信息,如表名等信息就是元數據。沒有元數據的支撐,數據探索服務不復存在。
Atlas作為大數據元數據管理平台,可以捕獲平台上的各種組件的元數據信息。稱為鉤子,比如可從Kafka,Hive,Hbase中收集元數據。有着安全性和豐富的Rest Api。
Atlas依賴於Hbase和Solr作為分佈式的數據存儲,從而實現了元數據的存儲和搜索功能。通過這種方式,可以建立一個全面的元數據目錄。
Apache Atlas架構
在實際的應用中,通過兩者的結合,可以完全的滿足我們的需求。
這樣數據科學家就可以在Amundsen中,尋找到目標數據了。
但搜索顯然只是第一步,在找到搜索結果後,可以進入表詳細信息頁面。
可以查看諸如描述、更新時間、常用用戶之類的信息。而且這些元數據信息都是實時更新的。
相信開源的力量,在Amundsen+Atlas的體系下,不斷探索適合自己的實現方案。