從812到新冠戰疫,數據中心該如何從自愈到自救?

  • 2020 年 2 月 24 日
  • 筆記

我們知道,作為整個IT架構最底層的關鍵基礎設施,數據中心的設計是一件非常嚴謹的事情。 冗餘,這兩個字貫穿了數據中心每一個子系統的設計過程,是高頻關鍵詞。 得益於2N或N+m的完美冗餘,數據中心像一個冷冰冰的鋼鐵巨人一般,變得日益健壯。 地震可以有,只要烈度不超8,能扛;斷電、停水,即便兩個一起來,兩三天內,能扛;颱風,有預案,能扛;雷暴,有防雷接地系統呢,能扛…… 至於設備級的故障,那更是數據中心設計中「並行維護」的起步要求,甚至允許多台設備故障神奇地同時發生。

數據中心是具備自愈能力的。 病毒進入人體,就是考驗人體自愈能力的時候。自愈能力不夠,又沒有特效藥幫助,只好選擇送人頭;自愈能力強,病毒不知不覺就被幹掉了。 那麼,既然有這麼強大的自愈能力,數據中心還怕什麼呢? 當然怕。最怕那種不在應急預案覆蓋範圍內的、起源於外部的不可抗力事件。 五年前發生在天津的812大爆炸,以及眼下的新冠病毒之戰,就屬於這類事件。 關於812事件詳情這裡就不再贅述了,有興趣的同學可以通過《沒有觀眾的裸奔》重溫一下痛苦記憶。天津數據中心離爆炸核心不到1.5公里,受到極大破壞。 爆炸聲落,數據中心內即發現8處故障點,其中包括冷水機組停機、爆管、地下室水浸這樣的嚴重故障。 只要應急預案能覆蓋的場景,處理起來就可以有條不紊。80分鐘後,8處故障全部處理完畢,各系統運行平穩。當然,光有預案還不夠,就像我們在事後反覆強調的,應急預案和平時不折不扣的演習,關鍵時候才是救命稻草。 第一時間處理好故障,是數據中心的本分,也是其自愈能力的展示舞台。但第一天還遠不是高潮,隨後發生的一系列事情,才讓這一天天的值守,變得特別漫長。

絕大多數情況下,數據中心依靠自身的自愈能力來消除風險,是不需要外部幫助的。但到了「大敵當前大局為重」的關口,一旦事件升級,當政府不得不上門來「幫助」你時,問題就來了。 清場之後,偌大的天津數據中心沒有一個人影;我們經常掛在口邊的「無人值守」,陡然一下成為了現實。 此情此景,如何自救?很顯然,有一個完整精確隨時隨地可登入允許關鍵運行參數遠程修正的數據中心監管控系統,此時顯得多麼的重要……此處省略666字。關於當年天津是怎麼做的,可參閱上述文章《沒有觀眾的裸奔》。 天津數據中心雖然扛過了812的考驗,但也暴露出若干問題。尤其是無人值守的全面管控能力。 我們常說,教訓比經驗更值得珍視。經此一役,騰訊在數據中心自動化系統方面加大投入,集中優勢兵力很快推出了「騰訊智維」監管控平台,並開源共享給全行業。詳情請了解《助力產業互聯網升級 騰訊推出數據中心智慧運維全棧解決方案》。

因此,在年前新冠病毒還沒有真正爆發的時候,我們在全國每一個數據中心,已經提前做好了無人值守的準備。極端情況下政府干預清場後,可能會有一段不短的時間需要啟動「無人預案」。 類似的極端場景,可能還包括化工廠泄漏監獄暴動等只能靠想像預判的不可抗力事件。 這一年的春節,每個中國人都過得不凡。 醜陋的半獸人「新冠」攜病毒大軍兵臨城下,全國的數據中心和中土所有部落一起,都在打一場保衛戰。 資訊報備、100%跟蹤、無死角消殺、內外物理隔離、一級無差別嚴控……只要能想到的,只要病毒有可乘之機的,一定可以做到極致的嚴防死守。 但也有些地方可能被我們忽視了。比如數據中心值守人員的心理狀態。我們說數據中心的自救,除了無人值守能力,其實也包括心理干預。 尤其是時間越拖越長,保衛戰變成巷戰,甚至進一步變成持久戰的情況下。外面謠言滿天飛,裡面的人這一天天的,就會變得焦慮、敏感、消沉。 當然,「咱們運維團隊心理素質過硬著呢,請全國人民放心」。這是兩回事。「扛」是決心,可對數據中心來說,主觀上要保證團隊每一個人的健康完好,客觀上更要保障數據中心的安全運行;畢竟,人在焦躁狀態下,很容易出現誤操作…… 至於怎麼做心理干預,我黨我軍有很多行之有效的辦法,就不在這裡班門弄斧了。該政委上場了。 戰疫之下的數據中心自救,自然是各有各的做法,各自各精彩。騰訊數據中心友情提醒各位同行:

做好無人值守技術準備;關注值守人員心理健康