算法基石：實時數據質量如何保障？

2020 年 2 月 21 日
筆記

優酷視頻搜索是文娛分發場最核心的入口之一，數據源多、業務邏輯複雜，尤其實時系統的質量保障是一個巨大挑戰。如何保障數據質量，如何衡量數據變化對業務的影響？本文會做詳細解答。

一、現狀分析

搜索數據流程如下圖所示，從內容生產到生成索引經歷了複雜的數據處理流程，中間表多達千餘張，實時數據消費即消失，難以追蹤和復現。

從上圖可以看出，整個系統以實時流模式為數據流通主體，業務層面按實體類型打平，入口統一分層解耦，極大的增加了業務的實時性和穩定性。但是另一方面，這種龐大的流式計算和數據業務系統給質量保障帶來了巨大的挑戰。如何從 0 開始，建設實時數據的質量保障體系，同時保證數據對搜索引擎業務的平滑過渡？這是我們面臨的挑戰。

二、實時數據質量保障體系方案

質量保障需要透過現象看本質。通過對架構和業務的分析，可以發現整個流式計算的業務系統有幾個關鍵點：流式計算、數據服務、全鏈路、數據業務（包括搜索引擎的索引和摘要）。整體的質量訴求可以歸類為：

基礎數據內容質量的保障
流式鏈路的數據正確性和及時性保障
數據變化對業務效果的非負向的保障

結合線上、線下、全鏈路閉環的理論體系去設計我們的整體質量保障方案，如下圖所示：

三、線下質量

1．實時 dump

數據測試包含鏈路節點比對、時效性、正確性、一致性、可用性等方面，依託於阿里技術資源設計實時 dump 的方案如圖：

2．數據一致性

一致性主要是指每個鏈路節點消費的一致性，重點在於整體鏈路的各個節點的數據處理消費情況保持一致，通過對數據消費的分時分頻率的比對完成一致性驗證。方案如下圖：

我們採取不同的數據流頻率輸送給實時鏈路進行消費，利用各層的 dump 機制進行數據 dump，然後取不同的抽樣間隔對 dump 數據計算分析，分為三種不同的數據頻率模式：

natural-flow：自然消費的數據流，是源於線上真實的數據消息通道，即自然頻率的數據消費，以該模式進行測試更貼合實際業務情景；
high-frequency：高頻數據流，採用超出真實峰值或者其他設定值的數據頻次輸送給實時消費鏈路，在壓測或者檢測鏈路穩定性中是一個常用的測試策略；
low-frequency：低頻數據流，採用明顯低於真實值或者特定的低頻次數據輸送給實時消費鏈路。如果數據鏈路中有基於數據量的批量處理策略會暴露的比較明顯，比如批量處理的閾值是 100，那麼在業務低峰時很有可能達不到策略閾值，這批數據就會遲遲不更新，這個批量處理策略可能不是合理。同時低頻次的消費對於實時鏈路處理的一些資源、鏈接的最低可用度這些層面的檢查也是有意義的。

3．數據正確性

數據正確性是對於數據內容的具體值的檢查，總體原則是：

首先，高優保障影響用戶體驗的數據；
其次，保障業務層直接使用的核心業務相關的數據內容；
再次，中間層的核心業務相關數據由於不對外露出，會轉換成業務引擎需要的最終層的業務數據。所以中間層我們採用通用的規則和業務規則來做基礎數據質量保障，同時對上下游數據內容變化進行 diff 對比，保障整個流程處理的準確性。

4．數據可用性

數據可用性指的是數據鏈路生產的最終數據是能夠安全合理使用的，包括存儲、查詢的讀寫效率、數據安全讀寫、對不同的使用方提供的數據使用保持一致性等。

可用性保障主要關注數據的存儲、查詢、數據協議（數據結構）三個大的維度，衡量的標準重點關注三個方面：

易讀寫：數據的結構化存儲和寫入必須是高效合理的；
服務一致：數據在結構化存儲後，對外提供的服務有很多種，比如 PB 協議、API、SDK 等，需要根據業務去考量。比如 SDK、PB 等對外提供使用的方式會涉及協議版本，不同的版本可能數據結構不一致導致對外使用的數據不一致性；
安全可靠：重點關注存儲穩定、可靠、高效，兼顧效率和穩定性，同時更要關注安全性，防範隨意改寫數據、惡意 dump 等嚴重影響線上數據使用安全的風險。

5．時效性

由於實時鏈路的流式特性和多實體多次更新的特性，在測試時效性時核心問題有兩點：

如何去跟蹤確定一條唯一的消息在整個鏈路的消費情況；
如何低成本獲取每個節點過程的數據鏈路時間。

我們抽象出一個 trace+wraper 的流式 trace 模型如下圖：

獲取鏈路過程的每個節點的時間，包括傳輸時間和處理時間。對於 track-wraper 需要約定統一的 track 規範和格式，並且保證這部分的信息對業務數據沒有影響，沒有增加大的性能開銷。如下圖，我們最終的信息中經過 trace&track-wraper 帶出來的 trak-info，採用 json 格式方便 track-info 的擴展性。

這樣就很容易獲取到任意信息，計算每個節點的時間：

我們也可以通過抽樣計算一些統計指標衡量時效：

對於時效性有明顯異常的數據可以篩選出來，進行持續優化。

6．性能測試

實時數據鏈路本質是一套全鏈路數據計算服務，所以我們也需要測試它的性能情況。

第一步，我們先具體化全鏈路的待測系統服務

包括兩部分的性能，Bigku 的反查服務，即 HSF 服務，再就是 blink 的計算鏈路節點。

第二步，準備數據和工具

壓測需要的業務數據就是消息。數據準備有兩種方式，一種是儘可能模擬真實的消息數據，我們只要獲取消息內容進行程序自動模擬即可；另外一種會採用更真實的業務數據 dump 引流，進行流量回放。

由於數據鏈路的特性，對壓測鏈路施壓就是轉成發送消息數據，那麼如何控制數據發送呢？有兩種方式：第一種我們開發一個發送消息的服務接口，轉變成常規的接口服務壓測，然後可以採用阿里的任何壓測工具，整個測試就變成常規的性能測試；第二種我們可以利用 blink 消息回追的機制，重複消費歷史消息進行壓測，不過這種方法有弊端，無法控制消息的頻率。