從0到1搭建自助分析平台

 

一、什麼是自助分析平台

自助分析平台是構建在大數據平台之上的,依託於大數據平台的數據研發能力,通過統一的數據服務,實現對數據查詢、分析的統一管理,為企業業務分析提供高效的數據決策支持,同時也避免數據工程師陷入繁雜的提數需求中。自助分析平台是有計算機基礎的業務人員能夠快速上手的前端產品,既要有大數據的處理性能,有需要有簡單好用的可視化分析能力,只有讓業務人員能夠快速掌握使用方法,和公司的業務結合起來,自助分析平台才有價值。其實,一直以來,各大公司的數據分析平台都只有一個目標—— 幹掉Excel。

二、自助分析平台該有哪些模塊

上面已經介紹了,自助分析平台是用來查詢數據,探索數據的,需要具備Excel已有的功能,還要比Excel做的更好。

  • 支持多數據源接入

自助分析平台要能夠支持多種數據源、不同數據類型文件的接入,能夠讓數據工程師和業務人員快速的把數據導入到自助分析平台中。需要支持傳統的關係型數據庫、Hive、文件導入(Excel、CSV、TXT等)。

  • 多維度分析

能夠對導入的數據進行快速查詢、過濾、聚合、排序、關聯等動態操作。比如業務人員已經有一些用戶基本信息,它能夠通過導入用戶名,通過用戶名關聯到對應的用戶分析數據。並能夠對不同類型的用戶進行分組聚合操作。以上所有的操作需要實現拖拽式,不需要讓業務人員寫一行代碼。

  • 豐富的可視化

需要支持常用的可視化圖形,如餅狀圖、環圖、同軸曲線圖、柱狀圖、散點圖等,用戶需要綁定自己導入或者通過平台清洗好的數據,既可以快速的生產對應的分析圖表,製作可視化報告。

  • 權限管控

自助分析平台是對公司所有的業務人員使用的,需要有對應的權限管控。比如A用戶製作的數據圖表,B用戶是不能夠查看的,只有A賦權給B後才能查看。自助分析平台中的數據也要進行權限管控,比如敏感數據不能開放所有用戶,下載數據需要有流程審批等等。

  • 高性能

數據分析查詢要快、自助分析要快、可視化要快。很多自助分析平台最終變成了數據下載平台,其中很大一部分原因就是不夠快,雖說大數據了比Excel快多了,但是實際業務探索中,很多時候數據量就是百萬以內的,要是還沒有Excel快的話,人家為什麼要用你的平台呢?所以,不管是數據量大,還是數據量小,都要快!在技術上是否要考慮大數據量和中小數據量使用不能的查詢計算引擎呢?

三、自助分析平台架構

  • 自助分析引擎

對於超大數據量的複雜查詢分析,我們可以使用Spark提交任務的方式來實現自助分析。對於中小數據量的數據我們使用MPP數據庫實現快速查詢。

  • 可視化

我們可以使用echarts支撐多種類型圖表展示,或者使用superset等開源自助分析項目進行展示。

  • 權限

為做到相互隔離和數據安全,後台管控系統通過條件限制控制數據的授權,對手機號、身份證號、郵箱等敏感信息管控端採用加密算法防止數據泄露。

四、總結

實際中業務人員和IT團隊對於自助分析平台的搭建都有自己的想法,也想通過數據來給公司去做一些事情,所以在建立自助分析平台時,可以和業務人員不斷的溝通,先定一些主題數據,做成果展示,和業務人員以及領導分享,讓其參與評價和建議,不斷優化和改善,當相關人員都有參與感時,自助分析平台才會持久發展。

最後,還是要提醒一下,自助分析平台的目的是「幹掉Excel」,讓所有的分析結果存儲在線上,千萬不要讓其淪為數據下載平台。

 

歷史好文推薦

  1. 從0到1搭建大數據平台之計算存儲系統

  2. 從0到1搭建大數據平台之調度系統

  3. 從0到1搭建大數據平台之數據採集系統

  4. 如何從0到1搭建大數據平台