攜程二面：講講 MySQL 中的 WAL 策略和 CheckPoint 技術

2021 年 7 月 1 日
筆記
JAVA, MySQL, 後端, 資料庫, 面試

前段時間我在準備暑期實習嘛，這是當時面攜程的時候二面的一道問題，我一臉懵逼，趕緊道歉，不好意思不知道沒了解過，面試官又解釋說 redo log，我尋思著 redo log 我知道啊，WAL 是啥？給面試官整無語了（滑稽），為我當時的無知道歉。後來回去百度了一下才知道，最近又在丁奇大佬的《MySQL 實戰 45 講》中看到了 WAL，遂來寫篇文章總結下。

InnoDB 體系架構

在說 WAL 之前，有必要簡單介紹下 InnoDB 存儲引擎的體系架構，方便我們理解下文，並且 redo log 也是 InnoDB 存儲引擎所特有的。

如下圖，InnoDB 存儲引擎由記憶體池和一些後台執行緒組成：

記憶體池

先來解釋下記憶體池。

首先，我們需要知道，InnoDB 存儲引擎是基於磁碟存儲的，並將其中的記錄按照頁的方式進行管理。因此可將其視為基於磁碟的資料庫系統（Disk-base Database），在這樣的系統中，眾所周知，由於 CPU 速度與磁碟速度之間的不匹配，通常會使用緩衝池技術來提高資料庫的整體性能。

所以這裡的記憶體池也被稱為緩衝池（簡單理解為快取就好了）。

具體來說，緩衝池其實就是一塊記憶體區域，在 CPU 與磁碟之間加入記憶體訪問，通過記憶體的速度來彌補磁碟速度較慢對資料庫性能的影響。

擁有了緩衝池後，「讀取頁」操作的具體步驟就是這樣的：

首先將從磁碟讀到的頁存放在緩衝池中
下一次再讀相同的頁時，首先判斷該頁是否在緩衝池中。若在緩衝池中，稱該頁在緩衝池中被命中，直接讀取該頁。否則，讀取磁碟上的頁。

「修改頁」操作的具體步驟就是這樣的：

首先修改在緩衝池中的頁；然後再以一定的頻率刷新到磁碟上。

所謂」臟頁「就發生在修改這個操作中，如果緩衝池中的頁已經被修改了，但是還沒有刷新到磁碟上，那麼我們就稱緩衝池中的這頁是」臟頁「，即緩衝池中的頁的版本要比磁碟的新。

至此，綜上所述，我們可以得出這樣的結論：緩衝池的大小直接影響著資料庫的整體性能。

後台執行緒

後台執行緒其實最大的作用就是用來完成「將從磁碟讀到的頁存放在緩衝池中」以及「將緩衝池中的數據以一定的頻率刷新到磁碟上」這倆個操作的，當然了，還有其他的作用。以下是《MySQL 技術內幕：InnoDB 存儲引擎 – 第 2 版》對於後台執行緒的描述：

後台執行緒的主要作用就是刷新記憶體池中的數據，保證記憶體池中快取的是最近的數據；此外將已修改的數據文件刷新到磁碟文件，同時保證在資料庫發生異常的情況下 InnoDB 能恢復到正常運行狀態。

另外，InnoDB 存儲引擎是多執行緒的模型，也就是說它擁有多個不同的後台執行緒，負責處理不同的任務。這裡簡單列舉下幾種不同的後台執行緒：

Master Thread：主要負責將緩衝池中的數據非同步刷新到磁碟，保證數據的一致性
IO Thread：在 InnoDB 存儲引擎中大量使用了 AIO（Async IO）來處理寫 IO 請求，這樣可以極大提高資料庫的性能。IO Thread 的工作主要是負責這些 IO 請求的回調（call back）處理
Purge Thread：回收已經使用並分配的 undo 頁
Page Cleaner Thread：將之前版本中臟頁的刷新操作都放入到單獨的執行緒中來完成。其目的是為了減輕原 Master Thread 的工作及對於用戶查詢執行緒的阻塞，進一步提高 InnoDB 存儲引擎的性能

redo log 與 WAL 策略

上文我們提到，當緩衝池中的某頁數據被修改後，該頁就被標記為」臟頁「，臟頁的數據會被定期刷新到磁碟上。

倘若每次一個頁發生變化，就將新頁的版本刷新到磁碟，那麼這個開銷是非常大的。並且，如果熱點數據都集中在某幾個頁中，那麼資料庫的性能將變得非常差。另外，如果在從緩衝池將頁的新版本刷新到磁碟時發生了宕機，那麼這個數據就不能恢復了。

所以，為了避免發生數據丟失的問題，當前事務資料庫系統（並非 MySQL 所獨有）普遍都採用了 WAL（Write Ahead Log，預寫日誌）策略：即當事務提交時，先寫重做日誌（redo log），再修改頁（先修改緩衝池，再刷新到磁碟）；當由於發生宕機而導致數據丟失時，通過 redo log 來完成數據的恢復。這也是事務 ACID 中 D（Durability 持久性）的要求。

有了 redo log，InnoDB 就可以保證即使資料庫發生異常重啟，之前提交的記錄都不會丟失，這個能力稱為 crash-safe。

舉個簡單的例子，假設你非常熱心且 rich 的，借出去了很多錢，但是你非常 old school，不會使用電子設備並且記性不太好，所以你用一個小本本記下了所有欠你錢的人的名字和具體金額。這樣，別人還你錢的時候，你就翻出你的小本本，一頁頁地找到他的名字然後把這次還的錢扣除掉。

但是呢，其實你平常是非常忙碌的，沒辦法隨時隨地翻小本本做記錄，因此你就想出了一個主意：每當有人還你錢的時候，你就在一張白紙上記下來，然後挑個時間對照小本本把白紙上的賬目都給清了。

這就是 WAL。白紙就是 redo log，小本本就是磁碟。

當然了，redo log 可不是白紙這麼簡單，一張用完了換一張就行了，這裡有必要詳細解釋下。

每個 InnoDB 存儲引擎至少有 1 個重做日誌文件組（ redo log group），每個文件組下至少有 2 個重做日誌文件（redo log file），默認的話是一個 redo log group，其中包含 2 個 redo log file：ib_logfile0 和 ib_logfile1 。

一般來說，為了得到更高的可靠性，用戶可以設置多個鏡像日誌組（mirrored log groups），將不同的文件組放在不同的磁碟上，以此提高 redo log 的高可用性。在日誌組中每個 redo log file 的大小一致，並以循環寫入的方式運行。

所謂循環寫入，也就是為啥我們說 redo log 不像白紙那樣用完一張換一張就行，舉個例子，如下圖，一個 redo log group，包含 3 個 redo log file：

InnoDB 存儲引擎會先寫 redo log file 0，當 file 0 被寫滿的時候，會切換至 redo log file 1，當 file 1 也被寫滿時，會切換到 redo log file 2 中，而當 file 2 也被寫滿時，會再切換到 file 0 中。

可以看出，redo log file 的大小設置對於 InnoDB 存儲引擎的性能有著非常大的影響：

redo log file 不能設置得太大，如果設置得很大，在恢復時可能需要很長的時間
redo log file 又不能設置得太小了，否則可能導致一個事務的日誌需要多次切換重做日誌文件

CheckPoint 技術

有了 redo log 就可以高枕無憂了嗎？顯然不是這麼簡單，我們仍然面臨這樣 3 個問題：

1）緩衝池不是無限大的，也就是說不能沒完沒了的存儲我們的數據等待一起刷新到磁碟

2）redo log 是循環使用而不是無限大的（也許可以，但是成本太高，同時不便於運維），那麼當所有的 redo log file 都寫滿了怎麼辦？

3）當資料庫運行了幾個月甚至幾年時，這時如果發生宕機，重新應用 redo log 的時間會非常久，此時恢復的代價將會非常大。

因此 Checkpoint 技術的目的就是解決上述問題：

緩衝池不夠用時，將臟頁刷新到磁碟
redo log 不可用時，將臟頁刷新到磁碟
縮短資料庫的恢復時間

所謂 CheckPoint 技術簡單來說其實就是在 redo log file 中找到一個位置，將這個位置前的頁都刷新到磁碟中去，這個位置就稱為 CheckPoint（檢查點）。

針對上面這三點我們依次來解釋下：

1）縮短資料庫的恢復時間：當資料庫發生宕機時，資料庫不需要重做所有的日誌，因為 Checkpoint 之前的頁都已經刷新回磁碟。故資料庫只需對 Checkpoint 後的 redo log 進行恢復就行了。這顯然大大縮短了恢復的時間。

2）緩衝池不夠用時，將臟頁刷新到磁碟：所謂緩衝池不夠用的意思就是緩衝池的空間無法存放新讀取到的頁，這個時候 InnoDB 引擎會怎麼辦呢？LRU 演算法。 InnoDB 存儲引擎對傳統的 LRU 演算法做了一些優化，用其來管理緩衝池這塊空間。

總的思路還是傳統 LRU 那套，具體的優化細節這裡就不再贅述了：即最頻繁使用的頁在 LRU 列表（LRU List）的前端，最少使用的頁在 LRU 列表的尾端；當緩衝池的空間無法存放新讀取到的頁時，將首先釋放 LRU 列表中尾端的頁。這個被釋放出來（溢出）的頁，如果是臟頁，那麼就需要強制執行 CheckPoint，將臟頁刷新到磁碟中去。

3）redo log 不可用時，將臟頁刷新到磁碟：

所謂 redo log 不可用就是所有的 redo log file 都寫滿了。但事實上，其實 redo log 中的數據並不是時時刻刻都是有用的，那些已經不再需要的部分就稱為」可以被重用的部分「，即當資料庫發生宕機時，資料庫恢復操作不需要這部分的 redo log，因此這部分就可以被覆蓋重用（或者說被擦除）。

舉個例子來具體解釋下：一組 4 個文件，每個文件的大小是 1GB，那麼總共就有 4GB 的 redo log file 空間。write pos 是當前 redo log 記錄的位置，隨著不斷地寫入磁碟，write pos 也不斷地往後移，就像我們上文說的，寫到 file 3 末尾後就回到 file 0 開頭。CheckPoint 是當前要擦除的位置（將 Checkpoint 之前的頁刷新回磁碟），也是往後推移並且循環的：

write pos 和 CheckPoint 之間的就是 redo log file 上還空著的部分，可以用來記錄新的操作。如果 write pos 追上 CheckPoint，就表示 redo log file 滿了，這時候不能再執行新的更新，得停下來先覆蓋（擦掉）一些 redo log，把 CheckPoint 推進一下。

綜上所述，Checkpoint 所做的事情無外乎是將緩衝池中的臟頁刷新到磁碟。不同之處在於每次刷新多少頁到磁碟，每次從哪裡取臟頁，以及什麼時間觸發 Checkpoint。在 InnoDB 存儲引擎內部，有兩種 Checkpoint，分別為：

Sharp Checkpoint：發生在資料庫關閉時將所有的臟頁都刷新回磁碟，這是默認的工作方式，參數 innodb_fast_shutdown=1
Fuzzy Checkpoin：InnoDB 存儲引擎內部使用這種模式，只刷新一部分臟頁，而不是刷新所有的臟頁回磁碟。關於 Fuzzy CheckPoint 具體的情況這裡就不再贅述了。

有了 bin log 為什麼還需要 redo log？

前文我們講過，MySQL 架構可以分成倆層，一層是 Server 層，它主要做的是 MySQL 功能層面的事情；另一層就是存儲引擎，負責存儲與提取相關的具體事宜。

redo log 是 InnoDB 引擎特有的日誌，而 Server 層也有自己的日誌，包括錯誤日誌（error log）、二進位日誌（binlog）、慢查詢日誌（slow query log）、查詢日誌（log）。

其他三個日誌顧明思意都挺好理解的，需要解釋的就是 binlog（二進位日誌，binary log），它記錄了對 MySQL 資料庫執行更改的所有操作，但是不包括 SELECT 和 SHOW 這類操作，因為這類操作對數據本身並沒有修改。也就是說，binlog 是邏輯日誌，記錄的是這個語句的原始邏輯，比如「給 ID=1 這一行的 a 欄位加 1」。

可以看出來，binlog 日誌只能用于歸檔，因此 binlog 也被稱為歸檔日誌，顯然如果 MySQL 只依靠 binlog 等這四種日誌是沒有 crash-safe 能力的，所以為了彌補這種先天的不足，得益於 MySQL 可插拔的存儲引擎架構，InnoDB 開發了另外一套日誌系統 — 也就是 redo log 來實現 crash-safe 能力。

這就是為什麼有了 bin log 為什麼還需要 redo log 的答案。

回顧下 redo log 存儲的東西，可以發現 redo log 是物理日誌，記錄的是「在某個數據頁上做了什麼修改」。

另外，還有一點不同的是：binlog 是追加寫入的，就是說 binlog 文件寫到一定大小後會切換到下一個，並不會覆蓋以前的日誌；而 redo log 是循環寫入的。

🎉 關注公眾號 | 飛天小牛肉，即時獲取更新

部落客東南大學碩士在讀，攜程 Java 後台開發暑期實習生，利用課餘時間運營一個公眾號『飛天小牛肉』，2020/12/29 日開通，專註分享電腦基礎（數據結構 + 演算法 + 電腦網路 + 資料庫 + 作業系統 + Linux）、Java 技術棧等相關原創技術好文。本公眾號的目的就是讓大家可以快速掌握重點知識，有的放矢。關注公眾號第一時間獲取文章更新，成長的路上我們一起進步
並推薦個人維護的開源教程類項目： CS-Wiki（Gitee 推薦項目，現已累計 1.8k+ star）, 致力打造完善的後端知識體系，在技術的路上少走彎路，歡迎各位小夥伴前來交流學習 ~ 😊
如果各位小夥伴春招秋招沒有拿得出手的項目的話，可以參考我寫的一個項目「開源社區系統 Echo」Gitee 官方推薦項目，目前已累計 900+ star，基於 SpringBoot + MyBatis + MySQL + Redis + Kafka + Elasticsearch + Spring Security + … 並提供詳細的開發文檔和配套教程。公眾號後台回復 Echo 可以獲取配套教程，目前尚在更新中。

Tags: JAVA MySQL 後端資料庫面試