數據倉庫之數據品質建設(深度好文)
數倉建設真正的難點不在於數倉設計,而在於後續業務發展起來,業務線變的龐大之後的數據治理,而數據治理的範圍非常廣,包含數據本⾝的管理、數據安全、數據品質、數據成本等。在這麼多治理內容中,大家想下最重要的治理是什麼?當然是數據品質治理,因為數據品質是數據分析結論有效性和準確性的基礎,也是這一切的前提。所以如何保障數據品質,確保數據可用性是數據倉庫建設中不容忽視的環節。

數據品質涉及的範圍也很廣,貫穿數倉的整個生命周期,從數據產生->數據接入->數據存儲->數據處理->數據輸出->數據展示,每個階段都需要品質治理。
在系統建設的各個階段都應該根據標準進行數據品質檢測和規範,及時進行治理,避免事後的清洗工作。
本文首發於公眾號【五分鐘學大數據】,完整的數據治理及數倉建設文章公眾號上都有
1. 為什麼要進行數據品質評估
很多剛入門的數據人,拿到數據後會立刻開始對數據進行各種探查、統計分析等,企圖能立即發現數據背後隱藏的資訊和知識。然而忙活了一陣才頹然發現,並不能提煉出太多有價值的資訊,白白浪費了大量的時間和精力。比如和數據打交道的過程中,可能會出現以下的場景:
場景一:作為數據分析人員,要統計一下近 7 天用戶的購買情況,結果從數倉中統計完發現,很多數據發生了重複記錄,甚至有些數據統計單位不統一。
場景二:業務看報表,發現某一天的成交 gmv 暴跌,經過排查發現,是當天的數據缺失。
造成這一情況的一個重要因素就是忽視了對數據品質的客觀評估,沒有制定合理的衡量標準,導致沒有發現數據已出現問題。所以,進行科學、客觀的數據品質衡量標準是非常必要且十分重要的。
2. 數據品質衡量標準
如何評估數據品質的好壞,業界有不同的標準,我總結了以下六個維度進行評估,包括完整性、規範性、一致性、準確性、唯一性、及時性。

-
數據完整性
完整性指的是數據資訊是否存在缺失的狀況,數據缺失的情況可能是整個數據記錄缺失,也可能是數據中某個欄位資訊的記錄缺失。
-
數據規範性
規範性指的是描述數據遵循預定的語法規則的程度,是否符合其定義,比如數據的類型、格式、取值範圍等。
-
數據一致性
一致性是指數據是否遵循了統一的規範,數據集合是否保持了統一的格式。數據品質的一致性主要體現在數據記錄的規範和數據是否符合邏輯,一致性並不意味著數值上的絕對相同,而是數據收集、處理的方法和標準的一致。常見的一致性指標有:ID 重合度、屬性一致、取值一致、採集方法一致、轉化步驟一致。
-
數據準確性
準確性是指數據記錄的資訊是否存在異常或錯誤。和一致性不一樣,存在準確性問題的數據不僅僅只是規則上的不一致,更為常見的數據準確性錯誤就如亂碼,其次異常的大或者小的數據也是不符合條件的數據。常見的準確性指標有:缺失值佔比、錯誤值佔比、異常值佔比、抽樣偏差、數據雜訊。
-
數據唯一性
唯一性指的是資料庫的數據不存在重複的情形。比如真實成交 1 萬條,但數據表有 3000 條重複了,成了 1.3 萬條成交記錄,這種數據不符合數據唯一性。
-
數據及時性
及時性是指數據從產生到可以查看的時間間隔,也叫數據的延時時長。比如一份數據是統計離線今日的,結果都是第二天甚至第三天才能統計完,這種數據不符合數據及時性。
還有一些其他的衡量標準,在此簡單列出:
維度 | 衡量標準 |
---|---|
參照完整性 | 數據項是否在父表中有定義 |
依賴一致性 | 數據項取值是否滿足與其他數據項之間的依賴關係 |
正確性 | 數據內容和定義是否一致 |
精確性 | 數據精度是否達到業務規則要求的位數 |
技術有效性 | 數據項是否按已定義的格式標準組織 |
業務有效性 | 數據項是否符合已定義的 |
可信度 | 根據客戶調查或客戶主動提供獲得 |
可用性 | 數據可用的時間和數據需要被訪問時間的比例 |
可訪問性 | 數據是否便於自動化讀取 |
3. 數據品質管理流程
本節流程如下圖所示:

1. 數據資產等級
1) 等級定義
根據當數據品質不滿足完整性、規範性、一致性、準確性、唯一性、及時性時,對業務的影響程度大小來劃分數據的資產等級。
-
毀滅性:數據一旦出錯,會引起巨大的資產損失,面臨重大收益受損等。標記為 L1
-
全局性:數據用於集團業務、企業級效果評估和重要決策任務等。標記為 L2
-
局部性:數據用於某個業務線的日常運營、分析報告等,如果出現問題會給該業務線造成一定的影響或影響其工作效率。標記為 L3
-
一般性:數據用於日常數據分析,出現問題的帶來的影響很小。標記為 L4
-
未知性質:無法追溯數據的應用場景。標記為 Lx
重要程度:L1>L2>L3>L4>Lx。如果一份數據出現在多個應用場景中,則根據其最重要程度進行標記。
2) 等級劃分
定義數據資產等級後,我們可以從數據流程鏈路開始進行數據資產等級標記,完成數據資產等級確認,給不同的數據定義不同的重要程度。
1. 分析數據鏈路:
數據是從業務系統中產生的,經過同步工具進入數據倉庫系統中,在數據倉庫中進行一般意義上的清洗、加工、整合、演算法、模型等一系列運算後,再通過同步工具輸出到數據產品中進行消費。而從業務系統到數據倉庫再到數據產品都是以表的形式體現的,其流轉過程如下圖所示:

2. 標記數據資產等級:
在所有數據鏈路上,整理出消費各個表的應用業務。通過給這些應用業務劃分數據資產等級,結合數據的上下游依賴關係,將整個鏈路打上某一類資產等級標籤。
舉例:
假設公司有統一的訂單服務中心。應用層的應用業務是按照業務線,商品類型和地域統計公司的訂單數量和訂單金額,命名為order_num_amount
。
假設該應用會影響到整個企業的重要業務決策,我們可以把應用定級為 L2,從而整個數據鏈路上的表的數據等級,都可以標記為L2-order_num_amount
,一直標記到源數據業務系統,如下圖所示:

2. 數據加工過程卡點校驗
1) 在線系統數據校驗
在線業務複雜多變,總是在不斷地變更,每一次變更都會帶來數據的變化,數據倉庫需要適應這多變的業務發展,及時做到數據的準確性。
基於此,在線業務的變更如何高效地通知到離線數據倉庫,同樣也是需要考慮的問題。為了保障在線數據和離線數據的一致性,我們可以通過工具+人員管理並行的方式來儘可能的解決以上問題:既要在工具上自動捕捉每一次業務的變化,同時也要求開發人員在意識上自動進行業務變更通知。
1. 業務上線發布平台:
監控業務上線發布平台上的重大業務變更,通過訂閱這個發布過程,及時將變更內容通知到數據部門。
由於業務系統複雜多變,若日常發布變更頻繁,那麼每次都通知數據部門,會造成不必要的資源浪費。這時,我們可以使用之前已經完成標記的數據資產等級標籤,針對涉及高等級數據應用的數據資產,整理出哪些類型的業務變更會影響數據的加工或者影響數據統計口徑的調整,則這些情況都必須及時通知到數據部門。
如果公司沒有自己的業務發布平台,那麼就需要與業務部門約定好,針對高等級的數據資產的業務變更,需要以郵件或者其他書面的說明及時回饋到數據部門。
2. 操作人員管理:
工具只是輔助監管的一種手段,而使用工具的人員才是核心。數據資產等級的上下游打通過程需要通知給在線業務系統開發人員,使其知道哪些是重要的核心數據資產,哪些暫時還只是作為內部分析數據使用,提高在線開發人員的數據風險意識。
可以通過培訓的方式,把數據品質管理的訴求,數據品質管理的整個數據加工過程,以及數據產品的應用方式及應用場景告知在線開發人員,使其了解數據的重要性、價值及風險。確保在線開發人員在完成業務目標的同時,也要考慮數據的目標,保持業務端和數據段一致。
2) 離線系統數據校驗
數據從在線業務系統到數據倉庫再到數據產品的過程中,需要在數據倉庫這一層完成數據的清洗、加工。正是有了數據的加工,才有了數據倉庫模型和數據倉庫程式碼的建設。如何保障數據加過程中的品質,是離線數據倉庫保障數據品質的一個重要環節。
在這些環節中,我們可以採用以下方式來保障數據品質:
-
程式碼提交核查:
開發相關的規則引擎,輔助程式碼提交校驗。規則分類大致為:
-
程式碼規範類規則:如表命名規範、欄位命名規範、生命周期設置、表注釋等;
-
程式碼品質類規則:如分母為 0 提醒、NUll 值參與計算提醒等;
-
程式碼性能類規則:如大表提醒、重複計算監測、大小表 join 操作提醒等。
-
程式碼發布核查:
加強測試環節,測試環境測試後再發布到生成環境,且生成環境測試通過後才算髮布成功。
-
任務變更或重跑數據:
在進行數據更新操作前,需要通知下游數據變更原因、變更邏輯、變更時間等資訊。下游沒有異議後,再按照約定時間執行變更發布操作。
3. 數據處理風險監控
風險點監控主要是針對數據在日常運行過程中容易出現的風險進行監控並設置報警機制,主要包括在線數據和離線數據運行風險點監控。
1) 數據品質監控
在線業務系統的數據生產過程需要保證數據品質,主要根據業務規則對數據進行監控。
比如交易系統配置的一些監控規則,如訂單拍下時間、訂單完結時間、訂單支付金額、訂單狀態流轉等都配置了校驗規則。訂單拍下時間肯定不會大於當天時間,也不會小於業務上線時間,一旦出現異常的訂單創建時間,就會立刻報警,同時報警給到多人。通過這種機制,可以及時發現並解決問題。
隨著業務負責程度的提升,會導致規則繁多、規則配置的運行成本增大,這時可以按照我們之前的數據資產等級有針對性的進行監控。
離線數據風險點監控主要包括對數據準確性和數據產出及時性的監控。對數據調度平台上所有數據處理調度進行監控。
我們以阿里的 DataWorks 數據調度工具為例,DataWorks 是基於 MaxCompute 計算引擎的一站式開發工場,幫助企業快速完成數據集成、開發、治理、品質、安全等全套數據研發工作。
DataWorks 中的 DQC 通過配置數據品質校驗規則,實現離線數據處理中的數據品質監控報警機制。
下圖是 DQC 的工作流程圖:

DQC 數據監控規則有強規則和弱規則:
-
強規則:一旦觸發報警就會阻斷任務的執行(將任務置為失敗狀態,使下游任務不會被觸發執行)。
-
弱規則:只報警但不阻斷任務的執行。
DQC 提供常用的規則模板,包括錶行數較 N 天前波動率、表空間大小較 N 天前波動率、欄位最大/最小/平均值相比 N 天前波動率、欄位空值/唯一個數等。
DQC 檢查其實也是運行 SQL 任務,只是這個任務是嵌套在主任務中的,一旦檢查點太多自然就會影響整體的性能,因此還是依賴數據產等級來確定規則的配置情況。比如 L1、L2 類數據監控率要達到 90% 以上,規則類型需要三種及以上,而不重要的數據資產則不強制要求。
2) 數據及時性監控
在確保數據準確性的前提下,需要進一步讓數據能夠及時地提供服務,否則數據的價值將大幅度降低,甚至沒有價值,所以確保數據及時性也是保障數據品質重中之重的一環。
-
任務優先順序:
對於DataWorks平台的調度任務,可以通過智慧監控工具進行優先順序設置。DataWorks的調度是一個樹形結構,當配置了葉子節點的優先順序,這個優先順序會傳遞到所有的上游節點,而葉子節點通常就是服務業務的消費節點。
因此,在優先順序的設置上,要先確定業務的資產等級,等級越高的業務對應的消費節點優先順序越高,優先調度並佔用計算資源,確保高等級業務的準時產出。
總之,就是按照數據資產等級優先執行高等級數據資產的調度任務,優先保障高等級業務的數據需求。
-
任務報警:
任務報警和優先順序類似,通過DataWorks的智慧監控工具進行配置,只需要配置葉子節點即可向上游傳遞報警配置。任務執行過程中,可能出錯或延遲,為了保障最重要數據(即資產等級高的數據)產出,需要立即處理出錯並介入處理延遲。
-
DataWorks智慧監控:
DataWorks進行離線任務調度時,提供智慧監控工具,對調度任務進行監控告警。根據監控規則和任務運行情況,智慧監控決策是否報警、何時報警、如何報警以及給誰報警。智慧監控會自動選擇最合理的報警時間、報警方式以及報警對象。
4. 最後
要想真正解決數據品質問題,就要明確業務需求並從需求開始控制數據品質,並建立數據品質管理機制。從業務出發做問題定義,由工具自動、及時發現問題,明確問題責任人,通過郵件、簡訊等方式進行通知,保證問題及時通知到責任人。跟蹤問題整改進度,保證數據品質問題全過程的管理。