【故障公告】沒有龍捲風，k8s集群翻船3次，投用雙集群恢復 - ⎝⎛CodingNote.cc ⎞⎠

【故障公告】沒有龍捲風，k8s集群翻船3次，投用雙集群恢復

2022 年 3 月 16 日
筆記
故障公告

今天沒有龍捲風（異常的高並發請求），故障卻依然出現，問題非常奇怪。

某種異常情況會造成短時間內， k8s 集群中大量 pod （超過60%）因健康檢查失敗而處於 CrashLoopBackOff 狀態，健康檢查失敗的錯誤是 connection refused

Liveness probe failed: Get "//192.168.238.204:3501/v1.0/healthz": dial tcp 192.168.238.204:3501: connect: connection refused
Readiness probe failed: Get "//192.168.238.204:3501/v1.0/healthz": dial tcp 192.168.238.204:3501: connect: connection refused

今天 k8s 集群因此翻船3次，分別是

早上 10:00-10:15
中午 11:48-12:07
下午 14:20-14:35

第2次翻船後我們非常緊張，如果中午找不到有效的避免翻船的緊急措施，下午不知要翻多少次，而當前我們對這個從天而降的突發問題毫無頭緒。

中午我們想到了一招，既然1艘船扛不住，那我們用2艘，2艘同時翻的可能性小很多，而且翻掉的1艘過段時間自己也能恢復，即使2艘也扛不住，那故障的影響也會減小。

就在我們剛部署好新的集群，14:20 左右開始又翻船了，加入新船後恢復了正常。

從2艘船並駕齊驅的情況看，我們相信可以扛住。

非常抱歉！這段時間的頻繁故障給大家帶來了很大的麻煩，請大家諒解！

Tags: 故障公告

Previous post

給深圳衛健委留言「發泄」的早餐店主被回復：結局暖心

Next post

七天接手react項目 —— state&事件處理&ref