星環科技多模型大數據基礎平台TDH9.0:十種數據模型組合拳 打通大數據業務全場景
星環科技大數據基礎平台Transwarp Data Hub(TDH)從2013年開始發布2.0版本至今,每年都會發布一個大版本,經過多次迭代和技術升級,到2021年TDH8.0發布,TDH已成為一個企業級大數據基礎平台,基於其領先的多模型技術架構,8種異構存儲引擎支援10種數據模型,被廣泛應用在離線數據批處理、高並發的在線數據服務、數據集市、數據倉庫、數據湖、實時數據處理等各類大數據業務場景。
此外,通過星環科技的不斷自主研發,TDH成為一款國產化自主可控的大數據基礎平台,可以替代Oracle、IBM DB2、Teradata等傳統主流資料庫在分析型場景中的應用及替代Elastic Search在分散式搜索場景中的應用,並在政府、金融、能源、製造業等十多個行業內落地。同時TDH完成了與主流信創生態廠商的適配互認工作,滿足信創驗收要求,幫助企業打造更全面、更便捷、更智慧、更安全地國產化數字底座,加速企業數字化轉型。
近日,星環科技正式推出TDH9.0,基於多模型統一架構對多模型處理能力進一步加強,新增文檔存儲引擎的同時實現了各模型引擎性能的數倍提升,統一大數據存儲底座提升5倍數據碎片承載能力,強化了存儲規模與可靠性,同時新增平台智慧運維模組,完善的智慧運維體系幫助用戶更輕鬆地運維大數據平台。此外,基於容器安全網路提升了數據訪問的安全性,結合自身基礎安全組件以及大數據開發工具,為用戶數據全生命周期提供安全防護。TDH9.0從整體上進一步提升了平台綜合性能、可靠性、易用性以及安全性,為企業數字化轉型構建了統一、高性能、高可靠的新型數字底座。
多模型統一架構 易開發、易運維、高性能
TDH9.0核心依然是統一架構的多模型處理能力,基於多模型統一技術架構提供統一的介面層,統一的計算引擎層,統一的分散式存儲管理層和統一的資源調度層。
統一介面層:基於統一的SQL編譯器Transwarp Quark可以實現統一介面處理不同的業務和不同數據模型,只需要簡單的SQL語句即可完成各種複合跨模型數據查詢,無需訪問不同介面即可操作不同的數據模型。對於場景切換、資料庫切換而造成介面、開發語言切換的問題就不存在了,開發和遷移成本大大降低。
統一計算引擎層:基於分散式計算引擎Transwarp Nucleon可以根據不同的存儲引擎自動匹配高性能演算法,不僅可以支援批處理、流處理等不同類型計算任務,還支援不同模型數據的流轉與關聯,方便用戶在一個SQL中使用不同模型的數據,降低開發難度,提升開發效率。
統一的分散式存儲管理系統:為不同存儲引擎提供公共的存儲管理服務,保障數據一致性,實現數據統一管理運維和高可用。當前TDH分散式數據管理系統接入了9款存儲引擎,支援10種數據模型的存儲。用戶不需要為不同模型建立單獨的存儲系統,而是通過統一的存儲管理,降低了運維管理成本,也避免了數據孤島。同時分散式數據管理系統的插件特性,也方便後續業務的靈活擴展,可以根據需要接入其他存儲引擎,例如TDH9.0根據文檔處理的新需求,新接入了文檔存儲引擎DocStore。
統一的資源調度層:TCOS是星環科技自主研發的雲原生作業系統,提供統一的資源調度框架,通過容器化編排,能夠統一調度計算、存儲、網路等各基礎資源。TCOS還支援靈活、按需的異構硬體(X86,ARM混合部署)、異構作業系統的水平擴展,支援單獨擴展計算或存儲資源的水平擴展,避免因業務數據增長帶來的資源緊張而需進行繁瑣的擴容、遷移等工作。同時,也提供了相比虛擬機損耗更低的資源隔離能力,使不同租戶、不同應用,資源隔離互不影響。
在開源大數據方案中,為了實現不同業務需求,通常需要部署多個不同的產品,比如為了做數倉需要Hive,為了做精確查詢需要Hbase,為了做搜索業務需要ES等等。這些不同的產品首先在介面標準就不一致,Hive使用HiveQL,ES使用Restful API,Spark雖然API和SQL都支援但是標準也和Hive、ES不一樣。用戶需要學習適配多個產品的不同介面,開發成本高。同樣的,這些產品也使用了各自獨立的計算引擎和存儲,數據存儲在各自的生態中難以互通,若需要把數據從一個產品導入到另一個產品中,需要通過文本離線導入導出,ETL流轉效率低,同時也難以保證數據的準確性、一致性和實效性。數據往往在離線流轉過程中,可能因為編碼或浮點數精度問題,導致數據不一致,最終影響業務準確性。各自獨立的計算引擎若部署在同一節點上,也可能會引起計算資源競爭問題。
相比之下,TDH多模型統一架構,把多種數據模型的介面層、計算引擎層和分散式存儲管理統統抽象了出來,避免了多個介面標準不統一,避免了計算資源的搶佔,避免了存儲不統一。一個SQL就可以實現不同數據模型的操作和查詢,模型轉化流轉以及跨模型關聯分析,解決了不同模型數據之間的組合使用問題。與開源傳統方案架構相比,TDH統一架構的多模型架構具有複雜度低、開發成本低、運維成本低、數據處理效率高等優點。
以一個具體的跨模型聯合分析應用場景來介紹下多模型統一架構的優勢。例如,當需要研究30歲人群消費習慣和喜好時,可以將該人群消費的商品評價作為一個參考。那為了獲得該人群對某商品的評價數據,我們需要進行三次檢索,並需要使用到圖資料庫中的人群關係型數據,關係型資料庫中的人群消費記錄數據,以及搜索引擎中消費商品評價數據。
第一步,定位30歲的人群。首先連接到圖資料庫中,使用圖資料庫查詢語言Cyper,找出30歲人群一度關係的人群ID集合。
第二步,獲取該人群的消費記錄。拿到了30歲人群ID後,需要再連接到關係型資料庫中,使用SQL查詢語言,用第一步獲取的人群ID作為過濾條件,獲取該人群消費商品ID,找出這些人群消費了哪些商品。
第三步,獲取包含特定關鍵詞的商品評價。用戶需要連到搜索引擎,編寫RESTful API請求,使用前兩步獲取的人群ID和消費商品ID,檢索商品評價。
為了完成這個業務,用戶需要搭建3個獨立的資料庫,並在應用適配3種資料庫的連接方式和查詢語言,同時還要求開發人員同時了解這3種資料庫的開發技術,整個流程非常複雜,技術要求非常高。
此外,由於是3個獨立的系統,數據和可能存在不一致,比如說消費記錄更新到了關係型資料庫,但是相應的評價沒有更新到搜索引擎中,導致分析語句的結果不準確。
而基於星環的多模型統一技術架構,用戶只需用一句SQL就能同時訪問這3種存儲模型進行聯合分析,替代了之前3段程式碼。一句SQL里,同時對圖數據人群關係表,關係型數據消費記錄表,全文數據商品評價表,3個表進行了跨模型關聯,一次操作完成了之前三次操作才能完成的業務,大大簡化了開發複雜度,簡化用戶操作。同時數據也仍保留在原存儲引擎中,也不用對數據進行導入導出或者轉換,不會存在數據不一致或數據冗餘存儲的問題。
多模型能力升級 更多、更快、更強
TDH9.0在原多模型能力基礎上新增文檔資料庫,實現9種存儲引擎支援10種數據模型,同時對存儲引擎進行升級,提供更高的性能和更強的功能,幫助企業用戶滿足更多以及要求更高的業務場景。
-
關係型分析引擎Inceptor
關係型分析引擎Inceptor進一步提升了SQL兼容性,增強了SQL-2016標準支援度,改進了Hive語法兼容,幫助用戶更方便地做應用遷移和對接;同時SQL編譯器也進行了表達式,遍歷演算法,優化,在複雜SQL場景,最高可提升10倍編譯性能。
此外,TDH 9.0兼容了分散式分析型資料庫ArgoDB,來更好地支撐關係型分析場景。在這次發布的ArgoDB5.0版本中,對計算引擎、存儲引擎、可靠性都做了重要升級,性能上相比於Inceptor提升了10倍數據掃描性能,10倍在線分析性能,實時數據入庫,更是支援每秒每節點,百萬的吞吐,大大增強了在關係型分析場景的性能。相比TDH Inceptor,ArgoDB不僅在數據倉庫、湖倉集一體、聯邦計算等老場景上具有更強的性能,同時還支援了實時數倉、高性能數據集市、AETP混合複雜、隱私計算等多個拓展場景。
-
圖資料庫StellarDB
圖資料庫StellarDB,圖資料庫可以用於知識圖譜、知識推理、社區劃分、子圖分析等應用場景。StellarDB在TDH9.0迎來了4.0版本,除了易用性、安全性、開放性等全面升級以外,性能也獲得了大幅提升。批量導入性能是開源產品的2倍,查詢場景中六跳查詢是開源的50倍,演算法實現上,常用的pagerank演算法和強連通子圖演算法性能都是開源的6倍。StellarDB通過功能的加強和性能的不斷提升,幫助幫助企業用戶更快、更高效地挖掘海量數據互聯價值。
-
搜索引擎Scope
Scope是一款兼容開源生態的搜索產品,支援TDH統一SQL查詢的同時,兼容ES生態,保障ES平滑遷移。相比開源產品,Scope基於Raft協議保障數據一致性,支援跨數據中心多活部署,可以構建兩地三中心災備方案,可靠性與容災能力更強。日誌存儲解決方案中,因為數據量龐大,企業用戶一般對搜索產品的存儲容量較為看重。Scope單實例存儲容量達到了100TB,是開源的5倍,同等規模下 Scope存儲密度更高,可以幫助企業用戶節約硬體成本,同時性能上,Scope相比開源也提升了30%分析性能和2倍檢索性能,能更高效的分析檢索海量日誌數據。
-
時空資料庫Spacture
時空數據模型主要是以地理經緯坐標與時間資訊等數據為主,Spacture支援原生的時空數據類型和矢量數據,可以有效反映移動對象的運動過程。相比於開源時空資料庫,Spacture的天然分散式架構,可以支撐橫向線性擴展,比開源具備更強的時空分析能力。同時Spacture也兼容國家行業標準,和開源商業主流GIS軟體,方便用戶遷移對接。
-
時序資料庫Timelyre
時序資料庫Timelyre在TDH9.0升級到了2.2版本。時序數據在製造業IoT設備等場景中經常出現,用於監控設備或環境的一些指標,如溫度、電量、工作狀態等。由於設備量龐大,指標數據生成頻繁,因此時序數據實時吞吐量龐大,歷史存儲需求容量較高。為了應對這類場景,Timelyre針對時序數據特徵,改進壓縮演算法,進一步降低了20%~50%存儲空間佔用,提升2倍寫入性能。同時相比於開源時序產品,Timelyre基於TDH多模型架構下的分散式擴展能力,讓Timelyre具備了更多設備標籤存儲能力,以及基於TDH統一SQL分析能力,讓Timelyre具備了複雜關聯查詢能力。
-
鍵值資料庫KeyByte
Keybyte鍵值資料庫支援高性能分散式快取和高性能分散式鎖兩種場景。
高性能快取是記憶體鍵值引擎較為常用的場景之一。開源鍵值存儲引擎基於集群主備的分散式方案,一致性和穩定性都無法保障,容易影響線上業務的性能。
Keybyte鍵值資料庫基於單機KV記憶體存儲引擎實現了分散式強一致性的KV存儲能力,同時還支援記憶體用量限制和豐富的過期淘汰演算法,保障了服務的可靠性和穩定性。同時還兼容了TDH統一SQL引擎的複雜分析能力,應用場景更豐富。
-
文檔資料庫DocStore
文檔資料庫DocStore是TDH9.0全新推出的存儲引擎,支援半結構化數據XML/JSON、非結構化數據圖片/PDF/小文件的同時也支援結構化數據存儲。
相比於其他存儲引擎,文檔資料庫DocStore更關注於文檔數據的高性能檢索。支援海量文檔數據的存儲的同時,檢索上通過支援多種索引技術來加速文檔數據的檢索性能,目前可以支撐百萬級高並發、毫秒級延遲的數據檢索能力。
統一大數據存儲底座升級大容量、高性能、穩定可靠
TDH9.0對大數據存儲底座進行了重大升級,統一分散式數據管理系統TDDMS和分散式文件系統TDFS提供更穩定的小文件管理能力和訪問性能,提升了存儲可靠性,保障數據安全不丟失。基於星環分散式交易型資料庫KunDB提供元數據服務,提供更高性能、更加可靠的元數據處理服務。星環科技分散式數據管理系統TDDMS在TDH9.0升級到了2.0版本,在存儲上優化了對數據碎片文件的處理能力,提升了5倍數據碎片的承載能力,在同等硬體和數據分布條件下,可以存儲管理5倍的表對象。同時TDDMS2.0改進了數據修復能力,可以更及時得自動完成數據故障遷移與副本修復,提升了數據安全性與服務可用性。
另一個較大的更新是TDDMS2.0支援了多模型數據自動同步的能力,不同存儲模型的數據可以基於統一的日誌系統binlog,實現數據在不同存儲模型間的自動轉換。例如,實時數據寫入到關係型分析引擎時,可以通過TDDMS同時自動同步一份副本到圖資料庫和時序資料庫中,方便用戶直接進行圖分析和時序分析,大大增強了業務實效性,降低了開發複雜度。星環科技分散式文件系統TDFS主要負責兼容開源Hadoop生態體系的文件存儲能力。開源體系中,主要使用HDFS作為分散式文件存儲系統,但是開源HDFS在架構上存在一定瓶頸。開源HDFS的需要將文件元數據存儲在NameNode節點記憶體中,由於單節點記憶體有上限,因此無法管理大集群海量文件,也無法處理大量小文件的存儲。
星環科技分散式文件系統TDFS基於開源HDFS架構,在保留了存儲節點DataNode的架構下,改寫了元數據存儲模組,使用了星環自研的Name Manager和Block Manager作為替代。相較於HDFS,TDFS元數據基於Raft協議進行分散式一致性管理,兼容Hadoop生態的同時,容錯性更強,不存在單點瓶頸。由於解決了海量小文件管理問題,TDFS除了支援分散式文件系統以外,還支援對象存儲,支援文件存儲和對象存儲兩種模式並行運行。
在4節點測試環境中,TDFS支援10億以上文件數穩定運行,遠超開源HDFS 5倍文件數管理能力,元數據QPS比開源快1.7倍,能支撐更高吞吐的業務場景。同時TDFS比開源HDFS重啟速度快16倍,在一些運維場景下能更快的恢復服務。在TDH9.0中,元數據服務基於星環科技分散式交易型資料庫KunDB作為底層存儲,在元數據並發訪問場景下,相比於TxSQL,KunDB TPS最高提升3.6倍,QPS最高提升4.4倍。元數據服務的升級可以綜合提升TDH大數據平台底座基礎,保障更強的一致性、更高的性能、更可靠的元數據存儲能力。
智慧運維,安全無憂
運維方面,TDH一直致力於提升產品運維易用性,降低運維難度和成本。TDH9.0推出了智慧運維模組,結合了大數據技術特徵與業務最佳實踐,通過對TDH平台上大數據服務特徵指標的收集,基於智慧運維規則庫匹配判斷,提供集群改善運維建議,保障集群長期高效穩定運行。
例如,在數倉數集場景下,一般需要對關係型數據進行分桶存儲,不合理的分桶會影響集群的穩定性和處理性能,智慧運維模組可以通過收集集群中表的分桶大小來幫助用戶判斷當前的分桶是否合理,提前給出分桶改進建議,避免後續因分桶問題的進一步惡化導致集群不穩定。類似的,智慧運維模組還會根據集群歷史存儲用量分析,提供預警式擴容計劃建議,通過分析集群計算資源使用率,提供資源配置優化改進建議。
智慧運維模組包含100多個智慧運維規則,開箱即可用,幫助用戶更輕鬆地運維大數據平台。數據安全是近期比較火熱的話題,也是用戶比較關注的問題。TDH9.0升級了網路安全策略,使用了Overlay容器安全網路。通過網路虛擬化的方式,隔離物理網路,用訪問許可權控制的方式管理集群網路和外部網路的直接訪問,避免了未授權的外部訪問以及內部數據的泄漏,降低了用戶管理難度,提高了集群網路可用性、安全性和可靠性。除了容器網路隔離以外,TDH結合自身基礎安全組件以及大數據開發工具TDS,保障用戶在數據開發過程中,獲得全生命周期的數據安全防護,從數據採集、傳輸、存儲,到處理、流通、銷毀,每一步都提供了全面的數據安全技術保障,如加密、脫敏、許可權、審計等功能一應俱全,在完善的大數據平台安全體系下,可以方便用戶建立起數據安全環境與操作流程,保障數據安全。
TDH社區版讓大數據分析觸手可及
星環科技一直致力於大數據技術的創新以及大數據技術人員的培養。TDH經過9年的迭代,已經取得了一定技術的積累和行業經驗,此次星環科技新推出TDH社區版,為企業用戶、高校師生、科研機構以及其他專業開發人員提供更輕量、更簡單、更易用的數據分析開發環境。社區版提供星環最具競爭力和最成熟的Inceptor組件、Waterdrop等自研開發工具以及Hadoop 3.0和星環科技的精選組件服務等,為用戶構建批處理數據倉庫、數據湖等提供平台支援。TDH社區版同時具有輕量資源即可高效部署,簡單易用,便捷運維,以及性能優異等優點。
為滿足多人群需求,TDH社區版分為訂閱版和免費版。其中訂閱版面向企業級用戶,無節點容量限制,可以提供更高級別的技術支援、業務規模支援和業務場景支援;免費版面向科研機構、高校教師、開發者、個人愛好者,免費提供4節點、10TB容量支援,可進行百億級別的數據處理,應用於學習、教學、科研等場景。自誕生以來,TDH助力數千家企業打造了統一的、高性能大數據平台,為企業建設數據湖、數據倉庫、數據中台等提供平台支撐,為企業數字化轉型助力。星環科技將持續自主研發與技術創新,強化大數據平台統一多模型處理能力、高性能、易用性、可靠性、和安全性,為核心基礎軟體國產化,為企業構建數字底座,為大數據社區與人才培養提供領先的技術力量,發揮大數據技術更大的價值。