辨析BI、數據倉庫、數據湖和數據中台內涵及差異點(建議收藏)
- 2019 年 10 月 6 日
- 筆記
前言
隨著大數據技術的不斷更新和迭代,數據管理工具得到了飛速的發展,相關概念如雨後春筍一般應運而生,如從最初決策支援系統(DSS)到商業智慧(BI)、數據倉庫、數據湖、數據中台等,這些概念特別容易混淆,本文對這些名詞術語及內涵進行系統的解析,便於讀者對數據平台相關的概念有全面的認識。
一
數據倉庫
數據倉庫平台逐步從BI報表為主到分析為主、到預測為主、再到操作智慧為目標。
圖1.數據倉庫發展階段劃分
商務智慧(BI,Business Intelligence)是一種以提供決策分析性的運營數據為目的而建立的資訊系統。是屬於在線分析處理:On Line Analytical Processing(OLAP),將預先計算完成的匯總數據,儲存於魔方資料庫(Cube) 之中,針對複雜的分析查詢,提供快速的響應。在前10年,BI報表項目比較多,是數據倉庫項目的前期預熱項目(主要分析為主的階段,是數據倉庫的初級階段),製作一些可視化報表展現給管理者。
- 它利用資訊科技,將分散於企業內、外部各種數據加以整合併轉換成知識,並依據某些特定的主題需求,進行決策分析和運算;
- 用戶則通過報表、圖表、多維度分析的方式,尋找解決業務問題所需要的方案;
- 這些結果將呈報給決策者,以支援策略性的決策和定義組織績效,或者融入智慧知識庫自動向客戶推送。
1.1
數據倉庫基本定義
數據倉庫(Data Warehouse)是一個面向主題的(Subject Oriented)、集成的(Integrated)、相對穩定的(Non-Volatile)、反映歷史變化的(Time Variant)數據集合,用於支援管理決策和資訊的全局共享。其主要功能是將組織透過資訊系統之聯機事務處理(OLTP)經年累月所累積的大量資料,透過數據倉庫理論所特有的資料儲存架構,作一有系統的分析整理,以利各種分析方法如聯機分析處理(OLAP)、數據挖掘(Data Mining)之進行,並進而支援如決策支援系統(DSS)、主管資訊系統(EIS)之創建,幫助決策者能快速有效的自大量資料中,分析出有價值的資訊,以利決策擬定及快速回應外在環境變動,幫助建構商業智慧(BI)。[1]:引自全球數據倉庫之父 W.H.Inmon。
- 所謂主題:是指用戶使用數據倉庫進行決策時所關心的重點方面,如:收入、客戶、銷售渠道等;所謂面向主題,是指數據倉庫內的資訊是按主題進行組織的,而不是像業務支撐系統那樣是按照業務功能進行組織的。
- 所謂集成:是指數據倉庫中的資訊不是從各個業務系統中簡單抽取出來的,而是經過一系列加工、整理和匯總的過程,因此數據倉庫中的資訊是關於整個企業的一致的全局資訊。
- 所謂隨時間變化:是指數據倉庫內的資訊並不只是反映企業當前的狀態,而是記錄了從過去某一時點到當前各個階段的資訊。通過這些資訊,可以對企業的發展歷程和未來趨勢做出定量分析和預測。
圖2.數據倉庫邏輯架構
1.2
數據倉庫系統作用和定位
數據倉庫系統的作用能實現跨業務條線、跨系統的數據整合,為管理分析和業務決策提供統一的數據支援。數據倉庫能夠從根本上幫助你把公司的運營數據轉化成為高價值的可以獲取的資訊(或知識),並且在恰當的時候通過恰當的方式把恰當的資訊傳遞給恰當的人。
圖3.數據倉庫的作用
- 是面向企業中、高級管理進行業務分析和績效考核的數據整合、分析和展現的工具;
- 是主要用於歷史性、綜合性和深層次數據分析;
- 數據來源是ERP(例:SAP)系統或其他業務系統;
- 能夠提供靈活、直觀、簡潔和易於操作的多維查詢分析;
- 不是日常交易作業系統,不能直接產生交易數據;
數據倉庫針對實時數據處理,非結構化數據處理能力較弱,以及在業務在預警預測方面應用相對有限。
1.3
數據倉庫能提供什麼
圖4.數據倉庫提供價值
1.4
數據倉庫系統構成
數據倉庫系統除了包含分析產品本身之外,還包含數據集成、數據存儲、數據計算、門戶展現、平台管理等其它一系列的產品。
圖5.數據倉庫產品構成
圖6.數據倉庫產品構成
二
數據湖
數據湖(Data Lake)是Pentaho的CTO James Dixon提出來的(Pentaho作為一家BI公司在理念上是挺先進的),是一種數據存儲理念——即在系統或存儲庫中以自然格式存儲數據的方法。
2.1
維基百科對數據湖的定義
數據湖(Data Lake)是一個存儲企業的各種各樣原始數據的大型倉庫,其中的數據可供存取、處理、分析及傳輸。數據湖是以其自然格式存儲的數據的系統或存儲庫,通常是對象blob或文件。數據湖通常是企業所有數據的單一存儲,包括源系統數據的原始副本,以及用於報告、可視化、分析和機器學習等任務的轉換數據。數據湖可以包括來自關係資料庫(行和列)的結構化數據,半結構化數據(CSV,日誌,XML,JSON),非結構化數據(電子郵件,文檔,PDF)和二進位數據(影像,音頻,影片)。來源:維基百科。
目前,Hadoop是最常用的部署數據湖的技術,所以很多人會覺得數據湖就是Hadoop集群。數據湖是一個概念,而Hadoop是用於實現這個概念的技術。
圖7.數據湖的處理架構
圖8.數據湖示意圖
2.2
數據湖能給企業帶來多種能力
數據湖能給企業帶來多種能力,例如,能實現數據的集中式管理,在此之上,企業能挖掘出很多之前所不具備的能力。另外,數據湖結合先進的數據科學與機器學習技術,能幫助企業構建更多優化後的運營模型,也能為企業提供其他能力,如預測分析、推薦模型等,這些模型能刺激企業能力的後續增長。數據湖能從以下方面幫助到企業:
- 實現數據治理(data governance)。
- 通過應用機器學習與人工智慧技術實現商業智慧。
- 預測分析,如領域特定的推薦引擎。
- 資訊追蹤與一致性保障。
- 根據對歷史的分析生成新的數據維度。
- 有一個集中式的能存儲所有企業數據的數據中心,有利於實現一個針對數據傳輸優化的數據服務。
- 幫助組織或企業做出更多靈活的關於企業增長的決策。
2.3
數據倉庫與數據湖差異
- 在儲存方面上,數據湖中數據為非結構化的,所有數據都保持原始形式。存儲所有數據,並且僅在分析時再進行轉換。數據倉庫就是數據通常從事務系統中提取。
- 在將數據載入到數據倉庫之前,會對數據進行清理與轉換。在數據抓取中數據湖就是捕獲半結構化和非結構化數據。而數據倉庫則是捕獲結構化數據並將其按模式組織。
- 數據湖的目的就是數據湖非常適合深入分析的非結構化數據。數據科學家可能會用具有預測建模和統計分析等功能的高級分析工具。而數據倉庫就是數據倉庫非常適用於月度報告等操作用途,因為它具有高度結構化。
- 在架構中數據湖通常,在存儲數據之後定義架構。使用較少的初始工作並提供更大的靈活性。在數據倉庫中存儲數據之前定義架構。
表1.數據倉庫、數據湖和數據湖的區別如下:
數據倉庫 |
數據湖 |
---|---|
主要處理歷史的、結構化的數據,而且這些數據必須與數據倉庫事先定義的模型吻合。 |
能處理所有類型的數據,如結構化數據,非結構化數據,半結構化數據等,數據的類型依賴於數據源系統的原始數據格式。 |
處理結構化數據,將它們或者轉化為多維數據,或者轉換為報表,以滿足後續的高級報表及數據分析需求。 |
擁有足夠強的計算能力用於處理和分析所有類型的數據,分析後的數據會被存儲起來供用戶使用。 |
數據倉庫通常用於存儲和維護長期數據,因此數據可以按需訪問。 |
數據湖通常包含更多的相關的資訊,這些資訊有很高概率會被訪問,並且能夠為企業挖掘新的運營需求。 |
三
數據中台
3.1
產生的背景
企業在過去資訊化的歷程中形成了大量生產經營及專業業務應用成果,同時也累積了大量的企業數據資產。限於傳統的數據倉庫技術手段,數據管理和分析能力成為資訊化工作中的短板。企業資訊系統眾多,系統管理獨立,數據存儲分散,橫向的數據共享和分析應用僅由具體業務驅動,難以對全局數據開展價值挖掘,從規模上和效果上都無法真正體現集團龐大數據資產的價值。市場競爭和產業鏈日益全球化,企業不只滿足於內部數據的分析,更要通過互聯網、微信、APP等新技術手段結合外部市場數據進行整體分析。
(1)傳統的數據倉庫不能滿足數據分析需求。
企業在數據分析應用方面呈現「五大轉變」(從統計分析向預測分析轉變、從單領域分析向跨領域轉變、從被動分析向主動分析轉變、從非實時向實時分析轉變、從結構化數據向多元化轉變),並且對統一的數據中台平台訴求強烈,對數據中台的運算能力、核心演算法、及數據全面性提出了更高的要求。
(2)數據中台的處理架構發生了變化。
一是以Hadoop、Spark等分散式技術和組件為核心的「計算&存儲混搭」的數據處理架構,能夠支援批量和實時的數據載入以及靈活的業務需求。二是數據的預處理流程正在從傳統的ETL結構向ELT轉變。傳統的數據倉庫集成處理架構是ETL結構,這是構建數據倉庫的重要一環,即用戶從數據源抽取出所需的數據,經過數據清洗,將數據載入到數據倉庫中去。而大數據背景下的架構體系是ELT結構,其根據上層的應用需求,隨時從數據中台中抽取想要的原始數據進行建模分析。
3.2
數據中台建設是數字化轉型的關鍵支撐
數據中台成為熱點,「中台」這個概念,是相對於前台和後台而生,是前台和後台的鏈接點,將業務共同的工具和技術予以沉澱。數據中台是指數據採集交換、共享融合、組織處理、建模分析、管理治理和服務應用於一體的綜合性數據能力平台,在大數據生態中處於承上啟下的功能,提供面向數據應用支撐的底座能力。
廣義上來給數據中台一個企業級的定義:「聚合和治理跨域數據,將數據抽象封裝成服務,提供給前台以業務價值的邏輯概念」。
圖9.數據中台建設是數字化轉型的關鍵支撐
中台戰略核心是數據服務的共享。中台戰略並不是搭建一個數據平台,但是中台的大部分服務都是圍繞數據而生,數據中台是圍繞向上層應用提供數據服務構建的,中台戰略讓數據在數據平台和業務系統之間形成了一個良性的閉環,也就是實現應用與數據之間解藕,並實現緊密交互。
- 敏捷前台:一線作戰單元,強調敏捷交互及穩定交付的組織能力建設。
- 業務中台:能力固化與賦能,固化通用能力,賦能前線部隊,提升配置效率,加快前線響應,產品化業務化,開闢全新生態。
- 數據中台:資產整合與共享,整合多維數據,統一資產管理,連通數據孤島,共享數據資源,深入挖掘數據,盤活資產價值。
- 穩定後台:以共享中心建設為核心,為前中台提供專業的內部服務支撐。
3.3
數據中台定義及處理架構
數據中台是指通過企業內外部多源異構的數據採集、治理、建模、分析,應用,使數據對內優化管理提高業務,對外可以數據合作價值釋放,成為企業數據資產管理中樞。數據中台建立後,會形成數據API,為企業和客戶提供高效各種數據服務。
圖10.數據中台架構圖
數據中台整體技術架構上採用雲計算架構模式,將數據資源、計算資源、存儲資源充分雲化,並通過多租戶技術進行資源打包整合,並進行開放,為用戶提供「一站式」數據服務。
利用大數據技術,對海量數據進行統一採集、計算、存儲,並使用統一的數據規範進行管理,將企業內部所有數據統一處理形成標準化數據,挖掘出對企業最有價值的數據,構建企業數據資產庫,提供一致的、高可用大 數據服務。
數據中台不是一套軟體,也不是一個資訊系統,而是一系列數據組件的集合,企業基於自身的資訊化建設基礎、數據基礎以及業務特點對數據中台的能力進行定義,基於能力定義利用數據組件搭建自己的數據中台。
3.4
數據中台帶來價值
數據中台對一個企業的數字化轉型和可持續發展起著至關重要的作用。數據中台為解耦而生,企業建設數據中台的最大意義就是應用與數據解藕。這樣企業就可以不受限制地按需構建滿足業務需求的數據應用。
- 構建了開放、靈活、可擴展的企業級統一數據管理和分析平台, 將企業內、外部數據隨需關聯,打破了數據的系統界限。
- 利用大數據智慧分析、數據可視化等技術,實現了數據共享、日常報表自動生成、快速和智慧分析,滿足集團總部和各分子公司各級數據分析應用需求。
- 深度挖掘數據價值,助力企業數字化轉型落地。實現了數據的目錄、模型、標準、認責、安全、可視化、共享等管理,實現數據集中存儲、處理、分類與管理,建立大數據分析工具庫、演算法服務庫,實現報表生成自動化、數據分析敏捷化、數據挖掘可視化,實現數據品質評估、落地管理流程。
四
傳統數據倉庫與數據中台的差異點
圖11.數據中台與傳統數據倉庫比較
表2.技術路線對比表
作為工業企業,一般採用混搭架構
表3.技術路線選型比較表
結論
本文對數據倉庫、數據湖、數據中台等內涵作了詳細說明,便於讀者更好的理解和掌握數據領域相關概念。
最後總結一點:數據中台更好的支撐數據預測分析、跨領域分析、主動分析、實時分析、多元化結構化數據分析,數據中台建設是我們企業數據服務和共享奠定重要的基礎,可以加速從數據到價值的過程,打造相應業務能力。(鳴謝:蔡春久先生給予專業指導)
參考文獻
[1].國家標準GB/T 36073-2018《數據管理能力成熟度評估模型》
[2].中國資訊通訊研究院雲計算與大數據研究所CCSA TC601大數據技術標準推進委員會《數據資產管理實踐白皮書(4.0)》
[3].《The DAMA Guide to the Data Management Body of Knowledge》
[4]. Boris Otto《Data Governance》
[5]. Weber K, Otto B, Oterle H (2009).《One Size Does Not Fit All—A Contingency Approach to Data Governance》
[6]. Khatri V, Brown CV (2010).《Designing data governance》
[7].《論金融機構金融風險管理中的數據治理》
[8].《Building the data warehouse》 W. H. Inmon
[9].《The DGI Data Governance Framework》
[10].《數據資產管理》高偉 機械工業出版社
[11]. 《Building the data warehouse》 W. H. Inmon
[12].wikipedia 維基百科