Apache Hudi內核之文件標記機制深入解析

2021 年 9 月 12 日
筆記

1. 摘要

Hudi 支援在寫入時自動清理未成功提交的數據。Apache Hudi 在寫入時引入標記機制來有效跟蹤寫入存儲的數據文件。在本部落格中，我們將深入探討現有直接標記文件機制的設計，並解釋了其在雲存儲（如 AWS S3、Aliyun OSS）上針對非常大批量寫入的性能問題。並且演示如何通過引入基於時間軸伺服器的標記來提高寫入性能。

2. 為何引入Markers機制

Hudi中的marker是一個表示存儲中存在對應的數據文件的標籤，Hudi使用它在故障和回滾場景中自動清理未提交的數據。

每個標記條目由三部分組成

數據文件名
標記擴展名 (.marker)
創建文件的 I/O 操作（CREATE – 插入、MERGE – 更新/刪除或 APPEND – 兩者之一）。

例如標記91245ce3-bb82-4f9f-969e-343364159174-0_140-579-0_20210820173605.parquet.marker.CREATE指示相應的數據文件是91245ce3-bb82-4f9f-969e-343364159174-0_140-579-0_20210820173605.parquet 並且 I/O 類型是 CREATE。

在寫入每個數據文件之前，Hudi 寫入客戶端首先在存儲中創建一個標記，該標記會被持久化，在提交成功後會被寫入客戶端顯式刪除。

標記對於寫客戶端有效地執行不同的操作很有用，標記主要有如下兩個作用

刪除重複/部分數據文件：通過 Spark 寫入 Hudi 時會有多個 Executor 進行並發寫入。一個 Executor 可能失敗，留下部分數據文件寫入，在這種情況下 Spark 會重試 Task ，當啟用speculative execution時，可以有多次attempts成功將相同的數據寫入不同的文件，但最終只有一次attempt會交給 Spark Driver程式進程進行提交。標記有助於有效識別寫入的部分數據文件，其中包含與後來成功寫入的數據文件相比的重複數據，並在寫入和提交完成之前清理這些重複的數據文件。
回滾失敗的提交：寫入時可能在中間失敗，留下部分寫入的數據文件。在這種情況下，標記條目會在提交失敗時保留在存儲中。在接下來的寫操作中，寫客戶端首先回滾失敗的提交，通過標記識別這些提交中寫入的數據文件並刪除它們。

接下來我們將深入研究現有的標記機制，闡述其性能問題，並演示新的基於時間軸伺服器的標記機制來解決該問題。

3. 現有的直接標記機制及其局限性

現有的標記機制簡單地創建與每個數據文件相對應的新標記文件，標記文件名如前面所述。每個 marker 文件被寫入在相同的目錄層次結構中，即提交即時和分區路徑，在Hudi表的基本路徑下的臨時文件夾.hoodie/.temp下。例如，下圖顯示了向 Hudi 表寫入數據時創建的標記文件和相應數據文件的示例。在獲取或刪除所有marker文件路徑時，該機制首先列出臨時文件夾.hoodie/.temp/<commit_instant>下的所有路徑，然後進行操作。

雖然掃描整個表以查找未提交的數據文件效率更高，但隨著要寫入的數據文件數量的增加，要創建的標記文件的數量也會增加。這可能會為 AWS S3 等雲存儲帶來性能瓶頸。在 AWS S3 中，每個文件創建和刪除調用都會觸發一個 HTTP 請求，並且對存儲桶中每個前綴每秒可以處理的請求數有速率限制。當並發寫入的數據文件數量和 marker 文件數量巨大時，marker 文件的操作會成為寫入性能的顯著性能瓶頸。而在像 HDFS 這樣的存儲上，用戶可能幾乎不會注意到這一點，其中文件系統元數據被有效地快取在記憶體中。

4. 基於時間線伺服器的標記機制提高寫入性能

為解決上述 AWS S3 速率限制導致的性能瓶頸，我們引入了一種利用時間線伺服器的新標記機制，該機制優化了存儲標記的相關延遲。 Hudi 中的時間線伺服器用作提供文件系統和時間線視圖。如下圖所示，新的基於時間線伺服器的標記機制將標記創建和其他標記相關操作從各個執行器委託給時間線伺服器進行集中處理。時間線伺服器在記憶體中為相應的標記請求維護創建的標記，時間線伺服器通過定期將記憶體標記刷新到存儲中有限數量的底層文件來實現一致性。通過這種方式，即使數據文件數量龐大，也可以顯著減少與標記相關的實際文件操作次數和延遲，從而提高寫入性能。

為了提高處理標記創建請求的效率，我們設計了在時間線伺服器上批量處理標記請求。每個標記創建請求在 Javalin 時間線伺服器中非同步處理，並在處理前排隊。對於每個批處理間隔，例如 20 毫秒，調度執行緒從隊列中拉出待處理的請求並將它們發送到工作執行緒進行處理。每個工作執行緒處理標記創建請求，並通過重寫存儲標記的底層文件。有多個工作執行緒並發運行，考慮到文件覆蓋的時間比批處理時間長，每個工作執行緒寫入一個不被其他執行緒觸及的獨佔文件以保證一致性和正確性。批處理間隔和工作執行緒數都可以通過寫入選項進行配置。

請注意工作執行緒始終通過將請求中的標記名稱與時間線伺服器上維護的所有標記的記憶體副本進行比較來檢查標記是否已經創建。存儲標記的底層文件僅在第一個標記請求（延遲載入）時讀取。請求的響應只有在新標記刷新到文件後才會返回，以便在時間線伺服器故障的情況下，時間線伺服器可以恢復已經創建的標記。這些確保存儲和記憶體中副本之間的一致性，並提高處理標記請求的性能。

5. 標記相關的寫入選項

我們在 0.9.0 版本中引入了以下與標記相關的新寫入選項，以配置標記機制。

hoodie.write.markers.type，要使用的標記類型。支援兩種模式： direct，每個數據文件對應的單獨標記文件由編寫器直接創建； timeline_server_based，標記操作全部在時間線服務中處理作為代理。為了提高效率新的標記條目被批處理並存儲在有限數量的基礎文件中。默認值為direct。
hoodie.markers.timeline_server_based.batch.num_threads，用於在時間軸伺服器上批處理標記創建請求的執行緒數。默認值為20。
hoodie.markers.timeline_server_based.batch.interval_ms，標記創建批處理的批處理間隔（以毫秒為單位）。默認值為50。

6. 性能

我們通過使用 Amazon EMR 和 Spark 和 S3 批量插入大規模數據集來評估direct和timeline_server_based的標記機制的寫入性能。輸入數據大約為 100GB。我們通過設置最大 parquet 文件大小為 1MB 和並行度為 240 來配置寫入操作以並發生成大量數據文件。正如我們之前提到的，而直接標記機制的延遲對於較小數量的增量寫入是可以接受的，對於產生更多數據文件的大批量插入/寫入，開銷會急劇增加。

如下圖所示，由於是批處理，基於時間線伺服器的標記機制生成的存儲標記的文件要少得多，從而導致標記相關的 I/O 操作的時間要少得多，因此與直接相比，寫入完成時間減少了 31%。標記文件機制。

7. 總結

我們發現由於 AWS S3 等雲存儲上文件創建和刪除調用的速率限制，現有的直接標記文件機制會導致性能瓶頸。為了解決這個問題我們引入了一種利用時間線伺服器的新標記機制，它將標記創建和其他與標記相關的操作從各個 Executor 委託給時間線伺服器，並使用批處理來提高性能。使用 Spark 和 S3 在 Amazon EMR 上進行的性能評估表明，與標記相關的 I/O 延遲和整體寫入時間有所減少。