解密華為雲FusionInsight MRS新特性:一架構三湖

摘要:華為雲安全網關產品總監郭冕在「華為雲TechWave雲原生2.0專題日」上發表《華為雲FusionInsight MRS,一個架構實現三種數據湖》的主題演講,分享了智慧數據時代的數據湖發展趨勢、MRS雲原生數據湖技術創新實現一個架構構建離線、實時、邏輯三種數據湖,以及業務實踐中的成功案例等。

本文分享自華為雲社區《華為雲FusionInsight MRS雲原生數據湖,一架構三湖,解密華為雲FusionInsight MRS組件新特性》,原文作者: IT老磨。

5月20日,華為雲安全網關產品總監郭冕在「華為雲TechWave雲原生2.0專題日」上發表《華為雲FusionInsight MRS,一個架構實現三種數據湖》的主題演講,分享了智慧數據時代的數據湖發展趨勢、MRS雲原生數據湖技術創新實現一個架構構建離線、實時、邏輯三種數據湖,以及業務實踐中的成功案例等。

進入智慧數據時代,業界建設數據湖的十大共識

十大共識1.PNG

經過數十年的快速發展,大數據處理技術已日漸成熟,圍繞數據倉庫、數據湖衍生技術多如繁星,業界在多年的探索之中,也對未來數據湖形態有了十個重要共識,湖倉一體成為智慧數據湖的首選架構。為應對智慧數據時代對大數據技術提出的新挑戰,華為雲FusionInsight MRS雲原生數據湖進行全面升級,引入了Hudi、ClickHouse熱門組件,加強了自研的HetuEngine虛擬化引擎,同時新增IoTDB時序處理的能力,拓展數據使能應用的邊界。

華為雲FusionInsight MRS雲原生數據湖

一架構三湖圖片.PNG

華為雲FusionInsight MRS雲原生數據湖為政企客戶提供湖倉一體、雲原生的數據湖解決方案,構建一個架構可持續演進的離線、實時、邏輯三種數據湖,支撐政企客戶全量數據的實時分析、離線分析、交互查詢、實時檢索、多模分析、數據倉庫、數據接入和治理等大數據應用場景,使政企客戶高效用數、簡化用數,助力政企客戶實現一企一湖、一城一湖,業務洞見更准,價值兌現更快。

  • 離線數據湖:提供互動式、BI、AI等多個計算引擎,採用OBS實現存算分離,使得雲原生數據湖的架構更靈活。支援單集群2萬+節點的超大規模,通過集群聯邦,可支援10萬+規模。支援滾動升級,保障關鍵業務升級不中斷。
  • 實時數據湖:通過Hudi支援ACID數據實時增量入湖、ClickHouse毫秒級OLAP分析等構建實時更新處理能力,使得供數時效從T+1到T+0。
  • 邏輯數據湖:HetuEngine提供跨湖、跨倉、跨雲的協同分析,實現湖倉一體,減少80%數據搬遷,協同分析提效50倍。

一架構三湖新特性,覆蓋數據分析全流程

  • Hudi:增量實時入湖,實現數據入湖時效快、開發易、性能高、資源利用率更高

傳統數據湖不支援數據更新,導致數據採用T+1離線處理模式,完全無法滿足靈活多變的業務訴求,針對數據時效性問題,華為雲FusionInsight MRS雲原生數據湖引入Hudi。

Hudi可以支援數據更新、數據刪除,還有ACID保證,保證數據實時入湖更新操作。它提供多種視圖,包括讀優化視圖、增量視圖、實時視圖,可以對不同的分析應用提供不同的視圖,基於這些技術可輕鬆實現增量表、拉鏈表,鏡像表這些數據存儲模型。引入Hudi後,帶來四大顯著效果:

  1. 數據時效更快:在業務系統,通過CDC的系統實現分鐘級數據入湖,數據時效性從T+1到T+0。
  2. 處理性能更高:面對數據有刪除、更新的場景下,傳統採用Hive更新方式,僅處理一行數據也可能需要對整個表,至少要對整個分區進行處理,引入Hudi後處理效率提升10倍+。
  3. 開發更簡單:對於開發人員來說,傳統數據入湖不支援更新或者刪除,開發人員需新建臨時表,將數據處理後再進行覆蓋,對同一個任務可能需要寫很多程式碼去完成,有了Hudi的加持之後,做一個數據更新的操作就跟使用資料庫一樣簡單,單條語句即可完成。
  4. 資源利用率更高:傳統T+1的模式並不是24小時跑任務,而是在晚上進行批量加工,早上出報表,整個處理過程中,計算高峰期僅晚上跑批的時間,而資源卻是按照高峰期的計算需求來配比,導致白天的資源利用不足,引入Hudi後,數據實時採集入湖,把入湖處理的工作分散到全天的過程,實際上把整個資源消耗的高峰和低峰抹平掉。

某金融客戶基於Hudi構建數據湖,數據入湖時延降至分鐘級,且白天資源利用率提升2倍+,數據處理效率提升50%,開發人員通過單條語句即可完成開發,簡化開發難度。

  • ClickHouse:實時OLAP引擎,實現報表全自助高性價比的實時分析

傳統的OLAP引擎因其處理能力有限,數據一般按照專題或者主題進行組織後再與BI工具對接,導致BI用戶和提供數據的數據工程師脫節。比如BI用戶有一個新的需求,所需的數據沒有在專題集市中,需要將需求給到數據工程師,以便開發相應的ETL任務,這個過程往往需要部門間協調,時間周期長,協作效益低。

現在,華為雲FusionInsight MRS雲原生數據湖可以將所有明細數據以大寬表的形式載入ClickHouse,BI用戶可以基於ClickHouse大寬表進行自助分析,對數據工程師供數要求少,甚至在面對大部分新需求時,無需重新供數,開發效率和BI報表上線率都會得到極大提升。同時,ClickHouse在一張表裡的數據分析可達毫秒級。

基於ClickHouse實現自助BI在華為內部實踐也獲得了很好的效果。華為集團HIS數據湖原來基於傳統OLAP引擎建模,受限於開發效率,幾年才上線了幾十個報表。在引入Clickhouse後,三個月時間開發上線了400+報表,業務上線效率提升50倍。目前,華為內部ClickHouse的整體使用規模已經達到2000+節點,數據量規模達10+PB,日增數據量100TB。

  • HetuEngine:數據虛擬化引擎,突破地理限制,打破數據「牆」

伴隨企業發展與數字化轉型的需求,企業業務越來越複雜,創新需求越來越高。單系**立工作難以滿足業務的變化需求,企業內可能同時存在多個湖、多個倉、多個系統,但傳統方案煙囪式建設,湖倉之間、多引擎之間無直接的互聯互通能力,需要通過ETL數據來回搬遷,造成數據流轉鏈路長,數據多份冗餘,產生數據孤島。系統多份數據冗餘也難以保證數據的一致性和可靠性。

為了讓數據使用更簡單,跨湖協同更容易,解決湖倉數據割裂的問題,華為推出了數據虛擬化引擎HetuEngine,實現跨湖、跨倉和雲上、雲下、多雲協同分析的能力,突破地理限制,打破數據「牆」,跨湖協同分析效率提升50倍,跨倉協同分析減少80%的系統間數據搬遷同步,分析性能從分鐘級提升至秒級。

金融某行通過引入HetuEngine數據虛擬化引擎,在數據湖查詢分析方面該行提升了並發能力,僅1/5的資源即可支援45並發,峰值並發最大達200QPS,平均時延優化到8秒;在湖倉協同分析方面,通過HetuEngine打通數據湖與數倉間的數據壁壘,湖倉協同分析性能從分鐘級提升至秒級,同時減少80%的系統間數據搬遷同步,大大提升數據治理效率。

  • IoTDB:時序資料庫,雲邊端協同輕鬆構建時序數據集市

時序數據具備兩大特點:在端、邊、雲都有處理,時序數據採集後不需要更新。傳統時序處理方案中,在端、邊、雲採用不同的技術棧,異構的技術棧必將帶來數據處理的複雜性。清華大學開發的時序資料庫IoTDB(又稱時序引擎),通過統一的時序數據文件格式TsFile,實現一份數據兼容全場景,一套引擎打通雲邊端、一套框架集成雲邊端。華為跟清華大學保持緊密的合作,最新發布的IoTDB集群版本,就是華為與清華主導開發的一個版本。

在上海、成都、重慶等城市均已採用IoTDB管理地鐵監控數據,原本144輛列車需要9台伺服器,現在僅需一個IoTDB實例即可滿足要求,測點的取樣時延也從原來的500ms降至200ms,日增4140億數據點管理,大大提升資源利用率。

結語

目前,華為雲FusionInsight MRS雲原生數據湖攜手800+生態夥伴,已服務於3000+政企客戶,廣泛應用於公用事業、金融、運營商、能源、醫療、製造、交通等行業。

 

點擊關注,第一時間了解華為雲新鮮技術~