數據治理平台工具前世今生
- 2019 年 10 月 10 日
- 筆記
伴隨著企事業單位資訊化不斷的深入、各種技術持續的發展以及人們對數據治理的認知不斷加深,數據治理工具在過去的20年也不斷的發展,筆者以某世界500集團企業案例為原型,介紹數據治理工具發展及變遷及未來發展趨勢和方向,供廣大讀參考。
一數據治理背景介紹
狹義上講,數據治理是指對數據品質的管理、專註在數據本身。廣義上講,數據治理是對數據的全生命周期進行管理,包含數據採集、清洗、轉換等傳統數據集成和存儲環節的工作、同時還包含數據資產目錄、數據標準、品質、安全、數據開發、數據價值、數據服務與應用等,整個數據生命期而開展開的業務、技術和管理活動都屬於數據治理範疇。有的專家乾脆把廣義的數據治理稱為數據資產管理。
數據治理專註於將數據作為企事業單位數據資產進行應用和管理的一套管理機制,能夠消除數據的不一致性,建立規範的數據應用標準,提高數據品質,實現數據內外部共享,並能夠將數據作為組織的寶貴資產應用於業務、管理、戰略決策中,發揮數據資產價值。
二數據治理管理工具演變歷程及各自階段典型特點
筆者根據20年的從業資訊化行業經驗,總結了數據治理工具演變歷程和在不同階段典型特徵。
圖1. 數據治理管理工具演變歷程
1)第一代數據治理工具-編碼時代(起步期,1994-2004年)
在這個時代里,企事業單位各種MIS系統得到較好的發展和應用,最典型莫過於是物資管理系統、進銷存系統、PDM系統等資訊系統。為了確保這些MIS系統各種編碼好用,好查,避免一物多碼情況的發生,一些大型集團企業在早期開發一些名叫「編碼系統」「編碼網站」等系統,這些系統主要發布主數據程式碼為主,配合某一單一的MIS系統應用為主,有的甚至在這些單一系統開發一個模組,如編碼模組。這是數據治理工具最早期的工具,確保MIS中各種編碼唯一性。
以下為編碼管理系統功能架構。
圖2. 編碼管理工具功能結構圖
以下以物資編碼管理系統為例,列舉了物料編碼系統功能點。
圖3. 物料編碼管理系統功能範例
在這個時代,編碼系統採用B/S架構、C/S架構都有,採用.net和JAVA技術居多,通過分發和訂閱形式發布數據。以下為物資編碼系統系統頁面。
圖4. 物料編碼管理系統功能頁面範例
2)第二代數據治理工具-主數據管理時代(發展期,2005年-2011年)
這個時代最典型是中國很多大型集團企業流行實施ERP系統,國外主流產品例如SAP ERP和Oracle EBS等產品,中國主流產品例如用友的U8、NC、金蝶的K3等。
最早的是些外國ERP廠商推出MDM產品,例如Informatica、Oracle、IBM、SAP 、微軟都採取了自有產品並提供主數據管理解決方案,集中管理單一版本的、完整的和可信任的主數據資訊。這些產品具有企業級主數據存儲、數據整合、數據共享、數據品質、數據治理5大功能。基於SOA架構的企業級應用。支援兩種實施模式:即「推動模式(交易模式)」和「拉動模式(共享模式)」。
主數據分發和交換主要採用企業服務匯流排(ESB)產品,較多使用國外主流IT廠商產品,例如:微軟的BizTalk、IBM WAS 、 Oracle OSB 、SAP XI(後來叫PI/PO)等。採用SOA, B/S架構,主要為ERP等經營管理系統服務。
圖5. 某國際廠商 MDM系統的功能結構
某國際廠商主數據管理解決方案涵蓋主數據建模、數據導入、數據分發、數據查重、數據校驗、數據完善、數據創建流程等企業主數據管理的各個方面。提供基於行業標準的模型建模語言,供客戶快速定義主數據創建或審批流程,支援並行和串列流程,並提供強大的流程分析報表,幫助企業提高流程效率。同時提供Java/.Net/Web Service等多種API,滿足和企業內其他系統集成的需求。該主數據管理解決方案可通過數據校驗、數據查重和數據合併等手段,有效的提高企業主數據的品質。同時提供可選的組件Data Quality,提供深度的數據品質校驗功能,如根據中國郵政名址庫進行客戶地址校驗更正,提高地址的品質。
系統集成平台採用匯流排的方式進行設計和搭建,匯流排的方式最適合大規模、多系統的場景下系統集成的需求。
圖6. 數據服務匯流排示意圖
通過實施主數據管理系統,推動主數據(如:客戶、供應商、產品、員工等)管理規範化、標準化,從而實現整個企業範圍內主數據的統一管理、集中維護,並且實現這些主數據與各個關聯業務系統的協同和分發,保證企業在異構環境中各個資訊系統具有統一、準確、高品質的主數據,從而推進業務流程的改進,提高生產力。
3)第三代數據治理工具-數據標準化時代(成熟期2012-2018年)
隨著大數據技術應用以及智慧工廠(車間)建設,企業的資訊資訊系統越來越多,尤其生產製造領域系統越來越普及深入,主數據服務不僅僅只是限於以ERP為核心的經營管理層面的系統。在這個時代,最典型的以MES為核心的智慧製造系統也提出更高需求。「集中集成,創新提升,共享服務,協同智慧」成為主旋律。
數據的集成和共享是其重要的特點,更是強調數據的標準和統一。數據標準化、規範化是實現資訊集成和共享的前提,根本上消除各業務系統的「資訊孤島」。
「獨立、自主、安全、可控」在某些領域和行業提出國產化的需求,去IOE的浪潮一浪蓋過一浪。很多大型集團企業開始採用開源技術獨立開發數據治理工具, 採用微服務架構,滿足MES、PLM等多個層面數據共享需求, 內容擴展增加了動態建模、移動應用,生產層面的主數據、數據指標、多語言等功能。數據交換平台逐步採用中國自主ESB相關產品。
圖7. 資訊標準化管理平台功能架構
4)第四代數據治理工具-數據治理時代(展望期,2018年-至今)
近年來,隨著大數據平台和工業互聯網興起,數據治理平台主要採用數據中台技術和微服務架構初步替代傳統架構、面向大數據架構下,為數據資源中心與外部數據系統提供數據服務。對內和對外系統提供雲服務。
數據治理的目標是提高數據的品質(準確性和完整性),保證數據的安全性(保密性、完整性及可用性),實現數據資源在各組織機構部門的共享;推進資訊資源的整合、對接和共享,從而提升政務單位資訊化水平,充分發揮資訊化作用。
圖8. 數據治理平台技術架構
實現數據打通,業務融合協同,共享、共用的中台工具開發數據治理產品。
三數據治理管理工具功能架構
數據治理管理工具用於落實數據管理體系,實現數據管理自動化,提高數據管理效率,確保數據品質、實現安全數據共享。主要包括數據門戶地圖、主數據管理、數據指標、元數據管理、數據模型工具、、數據交換與服務工具、數據資產管理、數據開發、數據品質管理、數據安全。
圖9. 一體化數據服務&治理平台功能架構
3.1
數據門戶地圖
數據門戶管理,實現數據分布與地圖管理,建立可信源及擁有者管理、數據目錄樹、數據實體、數據項、數據標籤為基礎的數據資產目錄,打破資訊孤島和部門邊界,實現組織範圍內的數據關聯與分析管理,實現數據的便捷查詢、瀏覽,增強用戶體驗,提升業務價值,實現數據分級分類,為數據戰略、數據管理策略的落地打下基礎。
1)數據資產目錄管理:可信源及擁有者管理(單位/業務域/資訊系統/資料庫等);數據目錄樹構建(自動、手動);數據實體管理(標識、名稱、時效性、描述、組成、子實體定義等);標籤管理(打標、分類等);敏感數據管理(安全標識、訪問許可權)。
2)數據關聯與分析管理。實體關聯管理(表、欄位映射等);全文檢索(實體、標籤、分類等);數據實體展示(實體、邏輯關係、數據集);數據圖譜展示(實體、關聯、來源等);血緣關係和影響分析;供需關係;數據對賬和使用跟蹤。
3.2
元數據管理工具
元數據管理是對數據採集、存儲、加工和展現等數據全生命周期的描述資訊,幫助用戶理解數據關係和相關屬性。元數據管理工具可以了解數據資產分布及產生過程。實現元數據的模型定義並存儲,在功能層包裝成各類元數據功能,最終對外提供應用及展現;提供元數據分類和建模、血緣關係和影響分析,方便數據的跟蹤和回溯。
圖10. 元數據管理功能架構圖
1)元數據採集:能夠適應異構環境,支援從傳統關係型資料庫和大數據平台中採集從數據產生系統到數據加工處理系統到數據應用報表系統的全量元數據,包括過程中的數據實體(系統、庫、表、欄位的描述)以及數據實體加工處理過程中的邏輯;
2)元數據管理:實現元數據的模型定義並存儲,在功能層包裝成各類元數據功能,最終對外提供應用及展現;提供元數據分類和建模、血緣關係和影響分析,方便數據的跟蹤和回溯。
3)元數據展示:能夠根據類別、類型等資訊展示各個數據實體的資訊及其分布情況,展示數據實體間的組合、依賴關係,以及數據實體加工處理上下游的邏輯關係;
4)元數據應用:元數據的應用一般包括數據地圖,數據的血緣、影響分析,全鏈分析等;
5)元數據搜索:可根據數據源庫、類型等搜索元數據資訊。
3.3
主數據管理工具
具備企業級主數據存儲、整合、清洗、監管以及分發等五大功能,並保證這些主數據在各個資訊系統間的準確性、一致性、完整性。
1)主數據存儲、整合:實現主數據整合、清洗、校驗、合併等功能,根據企業主數據標準和業務規則和主數據品質標準對收集到的主數據進行加工和處理,用於提取分散在各個支撐系統中的主數據集中到主數據存儲庫,合併和維護唯一、完整、準確的主數據資訊;
2) 主數據管理:支援對企業主數據的操作維護,包括主數據申請與校驗、審批、變更、凍結/解凍、發布、歸檔等全生命周期管理;
3) 主數據分發與共享:實現主數據對外查詢和分發服務,前者用於在其它系統發出針對主數據實時響應類查詢請求時,返回所需數據,後者則用於提供批量數據分發服務,一般採用企業服務匯流排(ESB工具)實現方式。
4)主數據分析:實現對主數據的變更情況監控,為主數據系統管理員提供對主數據進行分析、優化、統計、比較等功能;
3.4
數據指標工具
圖11. 數據指標功能架構
1)數據指標定義:包含指標主題分類、各業務域具體指標定義、指標屬性及模型管理。包含對指標的批量管理以及主題(即指標樹)維護,其中主題維護主要包括對主題、一級主題、二級主題的維護。其中主題含投資、市場分析、財務、資產、人力資源、生產、採購、銷售、庫存、設備、工程、HSE、能源二十大類現有業務主題。
2)指標維度管理:主要是生產層面設置的時間維度、空間維度、物料維度以及層次維度四個維度的資訊和所含具體維度進行管理。
3)指標維護:包括指標新增、修改、刪除、審批、凍結、解凍、發布(分發)、導出等部分組成一個有機的整體,不同用戶可根據自己的用戶許可權對數據指標進行申請、修改、查詢、審批、凍結、解凍等功能操作。
4)指標的查詢:提供對數據指標主題、屬性、維度、指標以及導入表的按條件查詢、模糊查詢、樹狀查詢數據等。
5)指標值的管理:實現對指標數據的集成及存儲管理,定期向各系統發布。
3.5
數據資產管理
數據資產管理著力構建數據資產管理體系,通過數據資產管理可將數據規範管理和數據處理實現有機的融合,實現對具體資源數據的元數據描述,支援利用標準化的數據介面以及形式豐富圖表展示工具可快速訂製各類數據資產應用,配合數據資產的全面評估,實現數據資產的「三全」管理,實現數據資產的三全管理:全生命周期管理、全流程管理、全景式管理。
數據資產管理主要包括:數據資產註冊管理;數據資目錄管理;數據視圖管理;數據資產統計分析;數據成本管理和數據價值(收益)管理。
1)數據資產註冊管理:包括分類管理、註冊、審核、發布、授權等,提供數據資產安全管理,包括資產安全等級設置、資產安全形色設置、用戶安全設置等。提供數據資產變更監控,可對數據資產的增加、修改、刪除等操作進行實時監控。提供數據資產的導入導出。提供了資訊資源的導入、導出功能。通過標準Excel、Word等格式進行資訊資源的導入和導出操作。提供資訊資源的啟用、停用、恢復功能,可根據實際需求對資訊資源進行啟用、停用操作。
2)資源目錄的管理:提供資源目錄的註冊、發布、申請審核等操作。資訊資源註冊實現了將資訊資源註冊到資源目錄系統的功能。資訊資源只有註冊到資源目錄系統中,才能進行配置、查詢等操作。註冊到目錄系統的資訊資源通過部門、業務主題進行分類。
3)數據視圖的管理:利用技術數據視圖實現基礎業務數據的標準、規範及統一管理,包括數據視圖的註冊、發布、申請、審核等管理。進行分類統一管理,並形成一套規範去註冊、發布、申請提供給其他用戶使用。
4)資產統計分析工具:提供柱狀圖、矩形圖等多種展現形式,對各部門已註冊數據資源的數量、比例進行可視化展現。統計分析工具主要包括數據資源分布盤點、數據資源使用盤點、供需關係分析三部分。數據資源分布盤點可對各部門已註冊的數據資源的數量、比例進行直觀的展現;數據資源使用盤點可對各部門已申請、已審核的數據資源的數量、比例進行直觀展現;供需關係分析可對各部門間的供需關係進行統計分析。
5)數據成本管理:從度量成本的維度出發,通過定義數據成本核算指標、監控數據成本產生等步驟,確定數據成本優化方案,實現數據成本的有效控制。數據價值(收益)主要從數據資產的分類、使用頻次、使用對象、使用效果和共享流通等方面計量。
6)數據價值(收益)管理:從度量價值的維度出發,選擇各維度下有效的衡量指標,對針對數據連接度的活性評估、數據品質價值評估、數據稀缺性和時效性評估、數據應用場景經濟性評估,並優化數據服務應用的方式,最大可能性的提高數據的應用價值。比如可以選擇數據熱度、廣度等作為數據價值的參考指標,通過ROI評估,高效管控和合理應用數據資產。
3.6
數據交換和服務工具
數據服務交換和服務工具是數據採集服務、數據交換服務、數據加工服務、數據共享服務的統一支撐工具。數據服務工具採用面向服務的架構,提供數據服務實現數據交換、數據整合、數據複製、數據的傳輸、數據共享等功能。主要包括運行支撐、加工組件、服務組件、數據服務匯流排等組成。
圖12. 數據交換與服務工具
1)數據採集服務:主要負責異構、異地的多源數據到貼源快取區的採集,實現內外部系統的結構化數據、半結構化數據、非結構化數據等不同類型、不同時效的數據的複製與整合。結構化數據和非結構化數據的複製,將異構、異地的資料庫數據、文件數據複製到快取庫中。
2)數據交換服務:支援多用應用場景數據交換,如:企業內部數據交換、企業上下級數據交換、基於前置機數據交換、物流隔離數據交換。支援全量、批量、實時的數據交換;支援大數據量的數據交換;支援複雜網路環境下的可靠數據交換;支援跨網段、跨單位的數據交換;支援基於通道、文件的加密傳輸;支援多種數據介面和傳輸協議;提供數據交換日誌;支援斷點續傳功能。
圖13. 基於流加工技術的數據交換及整合服務
3)數據加工處理服務:實現數據的轉換、邏輯判斷、數據品質的檢查、異常處理、數據路由、數據的規範化等處理,用於將貼源緩衝區的數據根據需要加工到數據存儲與處理層的結構化區、非結構化區,並能給數據主題區、分析服務區、數據實驗室提供規範合理的數據。支援全量、增量、實時的數據處理,基於數據流處理技術,處理在數據流引擎中進行,減輕對數據源和目標的影響;提供統一加工服務實現資料庫、數據倉庫、NoSQL、搜索引擎、文件、XML、We b Service、傳輸隊列、適配器、記憶體表、JSON 等之間的相互交換,通過工具可視化配置通過拖拉等操作,可視化配置異構數據之間的轉換、加工、映射規則。
4)數據共享服務:服務提供方做服務資源的編目,註冊到目錄中心;中心做服務資源的審核、維護,並將共享的服務發布出去;服務使用方查詢到服務後,向中心申請使用該服務;中心審核審批通過後給申請用戶授權該服務的使用;服務使用方通過安全可管理的服務匯流排調用該服務,實現提供方和使用方的數據交換和共享。
5)運行支撐服務: 統一的工具實現可視化配置、任務的管理、安全管理、運維監控及調度管理功能,如上主要包括可視化配置及監控、調度規則的管理及運行監控模組、調度策略模組、流程調度模組、數據匯流排調度、服務模組等組成。
3.7
數據品質工具
提供數據品質管理實現數據全生命周期的品質管理,能根據標準規則可視化配置數據品質檢查策略,通過調度中心實現數據品質的檢查,發現問題數據,將問題數據根據擁有者體系派給相關人員修正,並能根據需要形成數據品質評估報告和問題處理報告等。為減輕對資訊系統資料庫影響,數據品質檢查採用數據流檢查技術,數據品質檢查方法及計算運行在引擎中而不是依賴資料庫的SQL。
數據品質工具主要包括:數據品質初步分析、數據品質精度檢查、比對和驗證檢查、檢查結果處理。
圖14. 品質管理管控體系
1)數據品質初步分析:提供數據品質初步分析能力,方便對給定庫表做數據品質的初步了解。包括全庫初步探測、資料庫表基本資訊分析、表基本資訊分析的統計資訊等分析。全庫初步探測,對庫中所有表做初步探測獲得庫基本資訊,每個表初步探測包括表名、主鍵欄位數、外鍵欄位數、欄位數、必填欄位數、記錄數、空值率、空值比等。並以表的方式提供。
2)數據品質精度檢查:提供數據品質精度檢查,方便對給定表做精細化的數據品質分析。提供數據品質檢查服務對資料庫表做指定規則檢查,提供邏輯表達式檢查,提供相似重複記錄檢查,提供複合檢查,提供可視化定義介面,提供數據品質檢查方法介面、相似度檢查方法介面,方便增加數據品質檢查方法。
3)數據品質檢查服務:對資料庫表做指定規則檢查,包括格式檢查、範圍檢查、缺失記錄檢查、相似重複記錄檢查、精度檢查、邏輯表達式檢查、複合規則檢查等。在數據品質檢查服務可視化配置出單欄位多規則檢查,也可以配置出多欄位同規則檢查,還可以配置出多欄位之間的關聯檢查。
4)相似重複記錄檢查:包括完全重複記錄檢查、相似記錄檢查。完全重複記錄檢查可以根據一個欄位或者多個欄位的比對,得到重複記錄,能可視化配置;相似記錄檢查是指先檢查一個或者多個欄位相似度,然後得到記錄相似度,根據記錄相似度的值得到相似記錄,可視化選擇多種欄位相似演算法和可視化定義記錄相似演算法及屬性。
5)比對和驗證檢查:提供比對和驗證功能,對於數據目標和數據源做一致性檢查,發現其差異。主要包括資料庫表的比對、數據文件的比對。對源庫表和目標庫表做一致性比對檢查,包括表結構比對、數據一致性比對,能發現並展示不一樣的結構、不一致的數據(包括增加、修改、減少的數據)對源和目標文件夾下的文件做比對和驗證檢查,能發現並展示不一致的文件,包括增加、修改的文件。支援數據源和數據目標位於不同網段的一致性檢查。
6)檢查結果處理:數據品質檢查服務部署運行完成後,會生成檢查結果,數據品質檢查結果存儲到指定資料庫中,每個數據品質檢查服務的存儲表結構根據選擇的檢查欄位、定義的檢查規則自動生成,並提供可視化介面,方便修改資訊配置。
7)系統提供問題數據統計:針對每個數據品質檢查服務提供數據品質檢查結果報告,包括異常數據、異常數據檢查的規則描述,並能做問題數據統計、修改情況統計、檢查規則統計。
3.8
數據模型管理工具
數據模型管理工具可對關係型、NoSQL、ERP數據源的數據模型自動抽取,可視化畫ER圖的方式設計資料庫,跨部門共享數據模型。負責對企業數據模型的管理、比對、分析、展示提供技術支撐,提供統一、多系統、基於多團隊並行協作的數據模型管理。解決企業數據模型管理分散,無統一的企業數據模型視圖、數據模型無有效的管控過程,數據模型標準設計無法有效落地、數據模型設計與系統實現出現偏差等多種問題。
圖15. 數據模型管理工具功能架構
1)數據模型設計:支援對於新建系統的正向建模能力,還應支援對原有系統的逆向工程能力,通過對數據模型進行標準化設計,能夠將數據模型與整個企業架構保持一致,從源頭上提高企業數據的一致性;
2)模型差異稽核:提供數據模型與應用資料庫之間自動數據模型審核、稽核對比能力,解決數據模型設計與實現不一致而產生的「兩張皮」現象,針對資料庫表結構、關係等差別形成差異報告,輔助數據模型管理人員監控數據模型品質問題;提升數據模型設計和實施品質;
3)數據模型變更管控:支援數據模型變更管控過程,提供數據模型從設計、提交、評審、發布、實施到消亡的在線、全過程、流程化變更管理。同時,實現各系統數據模型版本化管理,自動生成版本號、版本變更明細資訊,可以輔助數據模型管理人員管理不同版本的數據模型。通過工具可以簡單回溯任意時間點的數據模型設計狀態以及數據模型設計變更的需求來由,實現各系統數據模型的有效管控和管治,強化用戶對其數據模型的掌控能力;
4)模型可視化:支援將管理的數據模型E-R圖(實體關係圖)轉換為圖片、數據建模腳本(DDL)等可視化展示形式,方便數據模型管理人員以全局視角監控系統中各類數據實體結構及實體間關係。
3.9
數據安全工具
數據安全管理的目標是建立完善的體系化的安全策略措施,全方位進行安全管控,通過多種手段確保數據資產在「存、管、用」等各個環節中的安全,做到「事前可管、事中可控、事後可查」。通過數據安全管理,規劃、開發和執行安全政策與措施,提供適當的身份以確認、授權、訪問與審計等功能。數據安全共享實現,數據安全需從數據採集、數據傳輸、數據存儲、數據處理、數據共享和數據銷毀6個方面進行全方位的管能力。
圖16. 數據安全管理體系框架
在數據生命周期節點上應用不同安全技術組合,保障數據安全。
圖17. 數據安全的工具集
除了以上安全工具集外,數據治理工具提供安全共享管控機制,保證數據資源的安全管理及共享。主要包括數據的授權、數據脫敏、數據訪問安全、數據服務的發布/申請/審核管理、服務的接入控制等。
圖18. 數據安全管理工具
1)數據授權。數據授權給不同的用戶提供數據結構、資料庫數據、文件等的數據的安全授權,包括對數據結構模型的授權、資料庫表和欄位的訪問授權、數據文件的訪問授權等。可以對要授權的對象分別設置允許訪問、不允許訪問等許可權。
2)數據脫敏。對來源於文件、資料庫表等數據中的敏感內容設置數據脫敏處理。可以對不同的欄位內容設置不同的數據脫敏規則,包括數據加密、數據的模糊化處理等。
3)數據訪問安全。數據共享是通過數據服務的方式對外提供,通過數據服務屏蔽數據源,數據訪問者不知道數據的存儲位置、數據的物理結構等敏感資訊。通過工具可視化定義數據服務共享的數據欄位、數據內容、轉換策略、數據加密、數據查詢條件等,進而保證了數據的安全,使用者調用數據服務時,只有通過身份鑒定、訪問控制的用戶才能使用授權的數據。
4)數據服務的發布/申請/審核管理。具有描述屬性的數據服務是以目錄的方式對外發布,使用者可以查詢到相應的數據服務,申請使用,經過審核審批管理後,使用者才能使用數據提供者的數據服務。
5)數據服務的接入控制。數據使用者通過數據提供者提供的用戶名、密碼、安全授權等資訊訪問數據提供者提供的數據服務,數據提供者將對數據的訪問實施身份鑒定和訪問控制等安全策略。
3.10
數據開發工具
提供數據開發功能方便數據服務開發、數據流程加工建模,按流程和應用確定數據流,提供數據流程清冊,為應用和流程集成提供唯一數據源,實現數據全流程一次錄入多次共享,支援端對端的業務流程的優化,提供部署和調度功能方便數據流程和數據服務的使用。
1)實現數據預處理。對原始數據進行分類或分組前所做的審核、篩選、排序等處理。主要包括:數據清理、數據集成、數據變換等。
2)建立數據加工流程。
3)基於數據流實現單個業務主題在多個業務系統之間數據變化過程和數據加工開發,每個業務主題具有一個由數據源模型、數據加工節點組成的數據流式加工模型,上一個加工節點的目標源模型是下一個加工節點的數據源模型。
4)數據加工模型管理:提供數據加工模型目錄樹管理,方便按照業務域分類管理。提供主題數據加工模型的部署、調度運行、監控管理。
四數據治理平台技術發展5種能力
4.1
微服務插座式架構能力
微服務是一種架構風格,一個大型複雜軟體應用由多個微服務組成。系統中的各個微服務可被獨立部署,各個微服務之間是松耦合的。每個微服務僅關注於完成一件任務並很好地完成該任務。在所有情況下,每個任務代表著一個小的業務能力。各種類型的數據交換及其處理都是服務的方式存在,並作為插件插入到架構上。提供統一建模工具快速生成服務模型(交換、傳輸、整合、數據品質、共享等), 服務松耦合,可以編排形成滿足不同需要的服務組合、可重用;可以調度使用、安全調用,使用方便、安全。
圖19. 微服務架構下數據服務架構圖
4.2
跨網段的數據交換能力
基於統一的數據交換服務實現了端對端的數據交換。通過事務處理機制保證交換的數據一致性。狀態感測器技術解決了分散式傳輸過程的狀態感知,避免了需要長時間處理情況下的通訊掛起現象,保證了傳輸的暢通。跨網段情況下的大數據量的交換能力強。配置、部署、運維簡單。
4.3
一體化數據交換和治理能力
基於統一工具、統一的架構、統一的運行支撐、統一元數據管理實現數據採集、交換、加工、共享、治理(含元數據管理、數據模型管理、數據品質、數據圖譜、數據安全)等功能。可以根據項目特點選擇不同的模組組合,形成不同的數據服務和治理解決方案。
4.4
強調交換過程中的數據處理能力
數據交換過程中的數據處理能力。需提供交換過程中的數據轉換(包括程式碼的統一、格式轉換,數據脫敏處理等)、邏輯判斷(包括格式檢查、邏輯判斷、範圍檢查、組合檢查等)、數據路由等處理。
提供交換過程中的數據品質檢查,設置檢查規則,並將交換過程中的異常數據記錄下來供處理。
4.5
全方位的數據治理支援能力
1)數據模型管理,包括元數據管理、數據建模等。
2)數據品質檢查(包括數據比對、數據重複相似檢查、常規數據品質檢查)、數據品質報告、問題數據處理等。
3)數據資產可視化,包括數據圖譜、血緣關係、數據地圖等。
4)數據安全管理,包括數據模型授權管理、數據服務授權管理、數據脫敏處理、安全審計等。
五數據治理管理工具與數據中心及資訊系統關係 1)更豐富數據治理平台是企業數據規劃、數據標準落地的載體,實現數據治理統一標準、統一規則的支撐 2)數據治理平台包含數據門戶地圖、主數據管理、數據指標、元數據管理、數據模型、數據交換與服務、數據資產管理、數據開發、數據品質管理、數據安全等工具,提供規範統一的數據治理和服務的平台 3)數據治理平台是實現數據從產生到應用,分層協同、全面治理的核心
圖20. 數據治理平台與目標系統及數據資源中心的關係
- 數據治理平台是資訊化架構中是基礎性平台,為數據匯聚平台和數據存儲平台提供基礎層面數據標準化保障,進而為數據分析應用平台提供服務。 數據治理平台的架構需要確保敏捷、輕巧,不宜太厚重。
- 數據處理層屬於數據集中存儲處理中心,負責將底層標準化數據源彙集之後供給上層應用使用。
- 數據存儲層屬於數據集中存儲處理中心,負責按照數據標準規範存儲,適應分析與共享需求。
-
圖21. 一體化數據治理與服務平台與數據資源中心的關係
結束語
數據治理的目標是提高數據的品質(準確性、及時性、完整性、唯一性、一致性,有效性),確保數據的安全性(保密性、完整性及可用性),實現數據資源在各組織機構部門的共享,推進數據資源的整合、服務和共享,從而提升企事業單位資訊化水平,充分發揮數據資產作用。
通過實施數據治理工具,可以讓數據品質變得更好,發掘數據資產的商業價值,實現如下目標:對業務的支撐;降低經營風險、安全保障;對決策進行支援;滿足風險控制和外部監管要求;可企業持續發展。
參考文獻
1.國家標準GB/T 36073-2018《數據管理能力成熟度評估模型》
2.中國資訊通訊研究院雲計算與大數據研究所CCSA TC601大數據技術標準推進委員會《數據資產管理實踐白皮書(3.0)》
3.中國資訊通訊研究院雲計算與大數據研究所CCSA TC601大數據技術標準推進委員會《主數據管理實踐白皮書(1.0)》
4.中國電子技術標準化研究院 全國資訊技術標準化技術委員會大數據標準工作組《工業大數據白皮書(2019版)》
5.The DAMA Guide to the Data Management Body of Knowledge
作者簡介
蔡春久,某公司數據業務負責人。中國數據標準化及治理大會組委會評為「 中國數據標準化及治理專家」十個專家之一 。中國大數據技術標準推進委員會數據資產專家、中電標協企業資訊標準化委員會常委委員、eCl@ss協會會員(國際產品分類標準化組織)、中國數據工匠俱樂部發起人。工商管理碩士,具有有20年的特大型集團企業IT諮詢服務和數據治理行業工作經驗,前10年主要從事物資採購變革與管理、PLM、ERP、MES等領域諮詢服務。近10年專註數據治理及標準化、數據架構、智慧工廠等諮詢工作。為中國石化、延長石油集團、晉煤集團、恆力集團、國投集團、中國外運、新興際華集團、中國兵器工業集團、中國一重、哈電集團、河南投資集團、陝西投資集團等80餘家500強的集團企業的提供數據治理相關諮詢服務。