星環科技 TDS 聯邦計算能力,讓企業異構數據源數據合作暢通無阻

在數據成為生產要素的今天,企業愈發需要更高效、簡潔利用數據的方法來快速響應不斷變化的商業和情報分析。傳統方式是數據集成(ETL)後再做分析,但目前需求在變化,數據源也在變化,數據集成系統越來越龐大,導致響應變化的速度越來越慢,逐漸出現靈活度低、過程複雜、難以管理等問題。針對這樣的困境,企業需要一種能更靈活、快捷地進行數據集成的方法,而這種方法就是數據聯邦與聯邦計算。

5189f0717a755ee8f57fd52111841af.png

數據聯邦與聯邦計算融合,一平台即可對同構或異構數據進行訪問和分析

「數據聯邦」以及「聯邦計算」概念的出現,使數據集成的方法發生了極大的改善。**「數據聯邦」解決了靈活統一數據視圖的問題;「聯邦計算」解決了靈活統一數據查詢的問題。**而這兩種技術結合可以提供虛擬的數據集成視圖,以及封裝後的數據加工接口,使數據消費者(企業應用)無需考慮數據物理位置、數據結構、操作接口和儲存能力等問題,即可在同一平台上對同構或異構數據進行訪問和分析。

a21cd334bec066b4a46188a684c84b1.png

數據聯邦可以為企業的數據管理帶來以下能力:

  1. 數據源松耦合:使系統間處於松耦合關係,數據源的添加與刪除簡單易行;

  2. 虛擬化的數據集成:與傳統ETL相比,數據聯邦僅進行了虛擬的集成,能更快、更低成本地集成大量數據,提升數據集成速度;

  3. 數據信息透明:用戶不需感知數據源的位置和結構,數據源系統不需要做改動,可保持原有獨立運作,數據處理靈活度得到提升;

  4. 減少數據冗餘:因為通過虛擬視圖而不是複製的方式集成,極大降低了數據泄露的風險,增強了數據的可維護性;

  5. 保證數據一致性:數據聯邦統一管理數據,能更好保證跨庫數據一致性。

數據聯邦與聯邦計算,打破企業數據孤島

數據聯邦和聯邦計算解決了「數據孤島」問題,並且避免了傳統ETL流程長,開發和運維成本較高的缺陷,可以滿足應用對數據採集有靈活性、實時性要求,或者存在異構數據源處理的場景:

快速靈活的採集數據

虛擬的操作型數據庫(ODS):通過虛擬操作型數據存儲(ODS),構建可操作的數據集成視圖,數據變化會很快反映到ODS,且聯邦的數據源可隨具體的分析需求靈活增減變化,因此能滿足一些輕量、短期的數據分析,或者實時靈活的儀錶盤應用。

建造數據中轉區:利用數據聯邦構建數據中轉區,可以對大量從生產系統進入數倉的數據進行快速合併,極大減少數據複製對生產系統的干擾。數據中轉區對數據變化的實時存儲,能記錄完整的數據變更信息。

數據倉庫的擴展:企業部署數據倉庫後存在問題,一方面,整個企業不太可能只使用單一數倉;另一方面,企業仍然有大量的數據未存入任何數倉,需要構建統一視角。而數據聯邦和聯邦計算能在無需轉換格式和移動數據的情況下,提供所有企業數倉和零散數據的統一視角,降低了數據移動轉換的成本。

異構數據源的處理

企業數據治理:聯邦後的數據構成數據治理的底座,對異構數據庫或數據平台提供統一管理,形成統一的數據治理流程和規則。經過治理後,企業可以構建出完整的數據信息資產列表,如企業數據資源,或者完整的客戶信息視圖等,可對這些資產進行共享交換。

異構平台遷移:在異構平台遷移過程中使用聯邦計算,能使遷移過程更平滑,無需考慮數據的遷移和異構平台語法不兼容等問題,保證應用對數據的使用不受影響,且能在遷移完成後在不影響新應用的前提下更改數據源配置。

異構數據分析:企業可以利用數據聯邦的能力,實現跨結構化數據、非結構化或者半結構化數據的分析。

星環科技自研的聯邦計算平台,聯邦多個同構或異構的自治數據源

聯邦計算的關鍵點**即實現基於統一的SQL查詢引擎。**星環自研的聯邦計算平台可以聯邦多個同構或異構的自治數據源,用戶可以隨意查詢在聯邦系統中任意位置的數據,而不必關心數據的存放位置、實際數據源系統的SQL語言種類或存儲能力。其架構如下圖所示,主要實現了對以下兩方面的統一:

1.統一的元數據管理

構建各個同構、異構數據源的抽象整體視圖,提供統一數據源連接管理、統一的元信息管理。

數據源連接層:通過聯邦計算平台,開發者可以構建跨數據庫實例的虛擬連接,從而在當前數據庫中實現跨庫訪問。該層負責管理接入數據源,既支持傳統數據源的連接,也支持大數據平台的連接;既支持結構性數據,也支持非結構數據接入。

元信息管理層:從各數據源獲取元信息並集中管理,通過對數據源的查詢來獲取和維護最新的元信息,從而保證元數據在各個平台之間的一致性,在構建、運行、維護的整個聯邦計算的生命周期中起到關鍵支撐作用。

2.統一的查詢加工接口

為聯邦的數據提供數據加工、數據查詢的統一接口,用統一的標準SQL語句實現跨平台的數據加工。

聯邦查詢SQL引擎層:作為統一的語法解析層,解析SQL指令。其核心是SQL編譯器、優化器和事務管理單元,它是保證可以給開發者提供比較好的數據庫體驗,無需基於底層不同平台且有差異化API來做業務開發,同時會經過優化器來生成最佳的執行計劃,最終將執行計劃推送給計算引擎層。

聯邦查詢計算引擎層:作為支持多平台的統一計算引擎。星環選擇了基於DAG的計算模式,而且在它的基礎上深度優化執行性能,既能支持更多樣化的數據計算需求,也能夠獲得極致的性能。同時通過量化執行引擎技術來加速數據處理,對於列式數據有明顯的加速效果。

Cache層:用於加速的緩存層。

聯邦平台訪問層:支持標準的JDBC/ODBC/REST接口。

除了有基礎架構作為支撐,聯邦計算的落地還需要有上層的數據開發工具的支持,與數據聯邦配合實現從數據獲取、加工、到價值變現的完整過程,同時跨數據源的數據安全也應該得到保證。

開發管理運維工具:統一的數據開發、管理、運維工具平台,使企業可以更有效率的利用聯邦計算構建企業內部的數據服務層,以及數據業務價值層。

安全層:負責認證、審計、授權,提供數據加密、脫敏,以及密級分類等功能,保證數據在存儲、傳輸、加工過程的安全。

57dcfee331fcb4e27bceaa4fdf61ea5.png

數據聯邦和聯邦計算的實現

數據聯邦和聯邦計算的價值在於為數據集成和集成後的加工提供了便利的實現方式,對於企業而言,相關的完整解決方案以及可視化的操作,是保障內部推廣落地的關鍵。星環科技研發的數據治理平台Transwarp Data Studio(TDS),作為企業級的數據加工平台,聯邦計算/數據聯邦是TDS的核心能力之一,除此之外還提供數據集成、存儲、治理、建模、分析、挖掘和服務等數據處理全生命周期的企業級管理能力。

6350676defdc4bc9f223690530177c7.png

從應用層面的角度,數據聯邦要打通異構數據源,實現系統性的數據共享、發佈,從而支撐應用,為此開發平台應該提供元數據管理、數據資產列表、以及服務發佈等保證數據視圖統一的功能,在TDS中通過以下模塊實現:

統一數據資產目錄(Transwarp Data Catalog):一方面,Catalog同時支持接入主流關係型數據庫、分佈式數據庫、NoSQL數據庫和BI等數據源,滿足異構多數據源連接的需求。另一方面,Catalog通過數據庫直連方式獲取所有異構數據庫或平台的技術元數據,結合外部API方式補充異構數據庫的數據血緣數據,實現平台的數據管控和追蹤,滿足數據聯邦的元數據收集管理需求。

統一數據門戶商城(Transwarp Foresight):能夠整合各個平台上的數據產品並作為技術與業務的核心交換門戶,用較低開發和運維成本提供高性能的全數據平台的數據產品的共享交換服務。

統一數據服務(Transwarp Midgard):可通過數據庫直連方式,將各類數據庫的數據發佈為數據服務,同時提供統一的安全管控和流量統計、控制。

統一數據標籤(Transwarp Starviewer):支持對所有業務系統數據庫和數據平台的數據進行高性能的標籤計算,對業務用戶提供統一的標籤開發和應用入口,同時避免業務數據庫的種類多樣和分佈繁雜給業務用戶帶來的使用困擾。

從開發層面的角度,TDS的開發模塊對接星環自研引擎的聯邦計算能力,實現對異構數據源的統一訪問和加工,通過聯邦計算解決數據開發、數據管理等涉及跨庫數據源加工過程的問題:

  1. SQL開發(Transwarp SQLBook):在線SQL開發工具SQLBook可結合聯邦計算能力將SQL下發到異構數據平台,使用統一的語法訪問異構數據源,簡化數據加工。同時提供大數據集成,將Hadoop和NoSQL系統中的數據通過SQL的形式訪問,實現一個統一的SQL開發入口。

  2. 數據管控工具(Transwarp Governor):能通過數據標準、數據質量、數據保護和數據權限等多維度能力支撐數據治理。將統一的數據質量規則直接下發到各個數據源平台,降低數據質量規則的開發成本,且保證異構平台統一的數據質量。

  3. 革命性的ETL模式:考慮到數據聯邦虛擬化的集成不能滿足所有數據加工情況,TDS提供了創新的ETL工具,在不增加過多人力的情況下,能極大降低數據的複製和遷移需求,提升數據應用的搭建效率,降低存儲成本和數據泄漏的風險。

對於應用和開發層面的「聯邦」支持,以及全流程可視化數據開發、監控、運維與告警,使TDS可以通過實現多數據源、數據多樣場景下的數據接入、數據整合、數據服務過程,有效實現企業級數據湖、數據倉庫、數據集市建設以及相應擴展,促進企業內部數據統一化、資產化。

1e92797076bbe8788f1faec93a7d3cf.png

Tags: