Spring Cloud Alibaba Nacos 的 2 種健康檢查機制！

2022 年 2 月 28 日
筆記

Spring Cloud Alibaba Nacos 作為註冊中心不止提供了服務註冊和服務發現功能，它還提供了服務可用性監測的機制。有了此機制之後，Nacos 才能感知服務的健康狀態，從而為服務調用者提供健康的服務實例，最終保證了業務系統能夠正常的執行。

兩種健康檢查機制

Nacos 中提供了兩種健康檢查機制：

客戶端主動上報機制。
服務器端反向探測機制。

如何理解這兩種機制呢？
想像⼀下這麼⼀個場景，你所在的地區突然發生地質災害，你被掩蓋在廢墟下面，搜救隊必須要知道你在廢墟裏面，那麼才能對你進行施救。那有什麼方法可以讓救援隊知道你在廢墟下面？

第⼀種，你在廢墟裏面大喊 help! help! I am here! ，讓搜救隊知道你的位置和健康狀態。
第二種，搜救隊使用了他們的專業檢查設備，探測到你正埋在廢墟下面。

以上這兩種方法和 Nacos 的兩種健康檢查機制類似，也就是客戶端主動上報機制，是客戶端每隔一段時間，主動向 Nacos 服務器端上報自己的健康狀況，而服務器端反向探測機制是 Nacos 服務器端來檢測客戶端是否健康。

如何設置健康檢查機制？

Nacos 中的健康檢查機制不能主動設置，但健康檢查機制是和 Nacos 的服務實例類型強相關的。
也就是說 Nacos 中的兩種服務實例分別對應了兩種健康檢查機制：

臨時實例（也可以叫做非持久化實例）：對應的是客戶端主動上報機制。
永久實例（也可以叫做持久化實例）：服務端反向探測機制。

為什麼需要兩種服務實例呢？
以淘寶為例，雙十一大促期間，流量會比平常高出很多，此時服務肯定需要增加更多實例來應對高並發，而這些實例在雙十一之後就無需繼續使用了，採用臨時實例比較合適。而對於服務的一些常備實例，則使用永久實例更合適。

客戶端主動上報機制

臨時實例每隔 5 秒會主動上報一次自己的健康狀況，發送的數據包叫做心跳包，發送心跳包的機制叫做心跳機制。
如果心跳包的間隔時間超過了 15 秒，那麼 Nacos 服務器端就會將此服務實例標記為非健康實例，如果心跳包超過了 30s 秒，那麼 Nacos 服務器端將會把此服務實例從服務列表中刪除掉。
運行 Nacos 項目時，可以看到客戶端主動上報心跳包的日誌，如下圖所示：

從上述圖片可以看出，Nacos 客戶端會以每 5s 一次的頻率來上報自己的健康情況，請求信息如下：

/nacos/v1/ns/instance/beat?app=unknown&namespaceId=public&port=8081&clusterName=DEFAULT&ip=192.168.3.72&serviceName=DEFAULT_GROUP@@spring-cloud-nacos-producer2

服務端反向探測機制

永久實例使用的服務器端反向探測的方式實現健康檢查的，它的探測周期是 2000 毫秒 + 隨機數（5000 毫秒以內），如果檢測異常會將此服務實例，標記為非健康實例，但不會把服務實例向臨時實例那樣進行刪除。
Nacos 服務器反向探測目前內置了 3 種探測協議：HTTP 探測、TCP 探測和 MySQL 探測。
⼀般而言 HTTP 和 TCP 探測已經可以涵蓋絕大多數的健康檢查場景，MySQL 主要用於特殊的業務場景，例如數據庫的主備需要通過服務名對外提供訪問，需要確定當前訪問數據庫是否為主庫時，那麼我們此時的健康檢查接口，是⼀個檢查數據庫是否為主庫的 MySQL 命令。

TCP 探測

默認情況下，永久實例使用的是 TCP 探測，這點可以在 Nacos 控制台觀察到，如下圖所示：

默認會使用 IP端口來檢查，如下圖所示：

TCP 探測的大體邏輯是通過與註冊實例建立 channel，不斷 ping 註冊實例的端口，來判斷實例是否健康。

HTTP 探測

HTTP 探測需要在 Nacos 控制台手動配置，如下圖所示：

我們在服務實例中添加探測接口的實現代碼：

此時我們重新啟動服務實例，在服務詳情中可以看到我們配置的 HTTP 探測已經生效了，可以檢查出實例是健康的，如下圖所示：

Nacos 服務器端通過檢查 HTTP 的接口是否返回 200 狀態碼，來判斷實例是否為健康狀態。

集群下的健康檢查機制

集群下的健康檢查機制可以用一句話來概括，那就是「各司其職」。每個服務對應了一個主註冊中心，當註冊中心接收到臨時實例的心跳包之後，將健康狀態同步給其他註冊中心。而永久實例也是類似的，每個服務對應了一個主註冊中心，當負責的註冊中心探測到服務實例的健康狀態發生改變時，再會將實例的健康狀況同步到其他註冊中心，從而實現了集群下的健康檢查機制。

總結

Nacos 中提供了兩種健康檢查機制：臨時實例的客戶端主動上報機制和永久實例的服務端反向探測機制。臨時實例每隔 5s 發送一個心跳包給 Nacos 服務器端，服務器端接收到心跳包之後再將健康狀況同步給其他註冊中心。永久實例支持 3 種探測協議，TCP、HTTP 和 MySQL，默認探測協議為 TCP，也就是通過不斷 ping 的方式來判斷實例是否健康。

參考 & 鳴謝

《Nacos框架與原理》

是非審之於己，毀譽聽之於人，得失安之於數。

公眾號：Java中文社群

Java面試合集：//gitee.com/mydb/interview