【玩轉騰訊雲】COVID-19:數據中心基礎設施風險最小化
- 2020 年 4 月 4 日
- 筆記
本文英文版來自於Uptime Institute,文章主要介紹了針對於新冠疫情期間數據中心基礎設施的風險控制方案,本文英文版權歸屬於Uptime Institute。以下是正文內容:
COVID-19:基礎設施風險最小化
Uptime Institute Intelligence團隊
此諮詢報告由Uptime Institute在其客戶和成員的幫助下製作,以幫助基礎設施的運營方準備並應對COVID-19的新型冠狀病毒引起的影響。本報告中討論的步驟還將幫助運營方制定針對流行病的響應策略和程序。(全文閱讀需要30-45分鐘)
此Uptime Institute Intelligence報告包括以下內容:
摘要
響應
業務準備
現場和人員防護
運營保障
潛在風險因素
Uptime的建議
結論
附錄:資源
摘要
本諮詢報告由Uptime Institute在其客戶和成員的幫助下整理,以幫助基礎設施運營方準備並應對COVID-19的新型冠狀病毒引起的影響。本報告中討論的步驟還將幫助運營方制定針對疫情的響應策略和程序。
響應
COVID-19被世界衛生組織定性為「大流行」(指大型且具有傳染力又會造成死亡的流行病)。在這種情況下,關鍵的基礎設施面臨著特殊的挑戰,因為主要的工作人員存在因疾病或隔離而無法工作的風險,同時其他的長期負面影響會使數據中心的連續性和可用性受到波及。幸運的是,嚴陣以待是這個行業的DNA;通過以往對性能,效率和可靠性的關注-比如過往針對斷電,火災,惡劣天氣和其他潛在破壞性事件的應急演練-大多數數據中心的管理者/運營方都制定了應急計劃,可以適應當前疫情的挑戰。隨着病毒的傳播,越來越多的組織正從更新應對計劃的階段轉到實施階段。每個組織都根據現場環境,該地區的COVID-19病例數和政府規定的限制,其應對措施也各不相同。但是,所有的公司都有一個共同的優先事項:員工,合作夥伴和客戶的健康和安全;業務連續性;遵守公共衛生和政府機構發佈的準則和法規。該報告回顧了數據中心行業應對疫情的現狀,並詳細介紹了建議和可能的後續步驟。這些建議基於Uptime Institute Network成員和客戶,Uptime Institute Intelligence團隊和五大洲Uptime Institute顧問的反饋和評論。附錄包括相關資源列表。為了進一步支持管理者和運營方,Uptime Institute將引入定期公告,其中包含有關COVID-19的更新。 2020年3月20日之後,詳細信息將發佈在Uptime Institute網站,Uptime的Inside Track門戶和LinkedIn上。2020年3月,Uptime Institute為其數據中心運營商和合作夥伴通過全球網絡展開了一系列圓桌討論。參與者報告其組織已採取或正在考慮採取以下討論的許多步驟。
一、業務準備
第一步和最重要的一步是做好準備。包括以下環節:
•制定具體的疫情防備計劃。如果沒有針對疫情的具體計劃,則使用已經為公民突發事件準備好的現有應急計劃。該計劃應包括分級響應,清晰地明確在每個級別應採取的行動,以及觸發響應升級的場景。大多數組織都有一個三到五級的應急計劃,計劃範圍從採取合理的預防措施到無人值守,最壞的情況是將關鍵應用程序和操作轉移到備份站點,並徹底關閉該站點。應急計劃應考慮員工可能無法在短時間內進入或離開現場的情況。
•與保險公司和法律顧問商討有關事項,例如清潔要求,服務水平協議(SLA),通知等。
•考慮IT服務(客戶機)的影響。對COVID-19的響應可能會影響某些客戶機的Internet流量,工作負載和可用性要求。運營方應與內部和外部客戶協商,以討論可能的影響,特別是在計劃升級或遷移或增加新容量時,這些工作的延遲可能會影響業務部門的運營或項目開展。
•與員工,客戶和合作夥伴保持同步。信息同步是動態的,因此,根據情況的變化,可能需要每天(甚至每天兩次)頻繁地進行簡報,這可能會影響業務運營。
•分享最新消息和公共資源鏈接,以使工作人員隨時了解疫情的現狀以及維持安全健康工作環境的最佳做法(請參閱附錄)。
•為員工提供明確的指導,如與癥狀(個人或家庭成員)相關的公司政策(和法規政策),可能接觸疫情的情況,自我隔離要求和周期,以及病假/帶薪休假限制的影響,報銷指導等方面。
•定期讓員工知悉當前的應急響應水平及其對日常活動的影響。
•如果將運營和維護等活動外包,請與合作夥伴協商以制定和調整策略。
•預期供應鏈中斷。除了業務功能的核心資源外,還要採購適當的防疫物資以減少傳染源的傳播:消毒濕巾,洗手液,口罩,手套,非接觸式溫度計,適用於不同類型設備的清潔產品等。還應考慮潛在的關鍵備件和耗材供應鏈的長期中斷。在中國或其他受到影響的地區所製造的組件可能幾個月都無法提供。(請注意,幾個主要的供暖,通風和空調[HVAC]設備製造工廠都在意大利。)
•避免不必要的風險。對於可能增加感染風險的,引起現金流風險的(如果這是一個問題)或對供應商/合作夥伴/員工帶來一定壓力的項目或活動,考慮推遲或取消。(請參閱潛在風險因素)。
二、現場和人員防護
儘管需要採取的許多步驟都涉及外部合作夥伴,但首先要做好當前現場和員工的防護。
現場
加強消毒工作
對於病毒疫情,消毒當然是最重要的。基礎設施環境由於疫情的原因,出入管理/安保管理會面臨挑戰,需要有專門的管理程序並做好設備保護。以下步驟將改善防護工作:
•加強內務管理措施–每天進行多輪清潔,尤其是接觸較頻繁的表面(例如門把手,電燈開關,電梯按鈕,扶手,水龍頭把手)。如果可能的話,請讓清潔工在工作時間內重複對接觸頻繁的表面進行消毒。(不包括工作站,辦公室以及個人和共享的設備。)
•在整個設施環境中放置洗手液和消毒濕巾(帶有回收裝置),並貼有告示牌,提醒工作人員和訪客經常使用。
•在衛生間放置標識,提醒工作人員採取正確的方法洗手。
•在設施環境張貼標識,提醒員工攜帶紙巾,打噴嚏和咳嗽進入紙巾,然後將紙巾放入垃圾桶中處理。
•請注意,個人儲物櫃可能會隱匿大量病毒,因為它們是一個很小的封閉空間,通常不通風,並且它們的表面可以使病毒存活數小時甚至幾天。考慮限制使用個人儲物櫃,或者在每次使用後進行消毒。
•提供清潔用品,並要求員工在每班開始和結束時對所有工作區域進行消毒。
•審查設施承包清潔公司使用的程序和材料。考慮聘請一家專業清潔公司,遵循公認公共衛生機構(如美國疾病控制和預防中心(CDC))的消毒建議。
•儘可能使用噴霧消毒或霧化技術-與簡單地用消毒劑溶液擦拭表面相比,這些技術更有效,因為消毒劑薄霧可長時間覆蓋表面。請諮詢您的清潔承包商和設備供應商,以確定數據中心特定區域中所能接受的消毒系統。
•考慮您設施的具體情況(例如,空氣交換率/體積,活動地板),研究並採用深度清潔空白區域的方法。增加標準清潔操作(即公共場所,設備機櫃外部等)和深層清潔(徹底擦拭所有設備,在高架地板下和吊頂上方清潔,消毒劑霧化等)的頻率。酌情諮詢專業清潔公司、設計/工程顧問和/或設備製造商。
•開始擴展,以針對以下兩種情況確定技術空間/設備區域(空白區域,數據機房)的專業清潔供應商:
•預防措施:清潔人員使用疾控中心認可的專用清潔劑和抹布。清潔完成後,將清潔中使用的所有材料移出設施環境並作為生物危害物進行處理。
•現場確認存在COVID-19病例:清潔人員使用生化防護服,手套,鞋套等。清潔完成後,將所有袋子裝袋並從現場清走。
•檢查新風過濾器和HVAC過濾器的計劃性更換。考慮更頻繁地更換過濾器和/或使用具有更高過濾等級的濾芯。
•確保配備個人防護設備,包括口罩,手套和Tyvek(危險材料或危險品)防護服。
•考慮關閉園區中的所有健身中心和自助餐廳,只開放帶有預製食品的自助售賣機/微型市場。
訪客控制
從定義上來講,對關鍵設施環境進行嚴格的訪客控制-有助於減少感染風險。可考慮以下幾點:
•數據中心入口大門的安全檢查點應檢查入口通行證,採用非接觸方法(如果可能/可用)測量溫度,並消毒(使用消毒劑)。只有在訪客有檢疫合格的情況下才允許進入園區。
•在所有入口和交通繁忙區域張貼健康自評標識。
•因為許多醫療系統目前無法進行COVID-19檢測,所以採取保守的方法:將任何相關癥狀視為COVID-19疑似病例。參考公共衛生當局發佈的篩查標準指南。
•與貴組織的人力資源(HR)和/或EHS部門協商,以制定暴露於高風險情況下(前往高感染率地點,出現癥狀或與疑似患者接觸)的篩查問卷。要求所有個人(員工和非員工)在進入數據中心之前完成訪問問卷。
員工
各國的工作慣例、立法和對工作條件和/或安全的態度可能有很大不同。同樣,有關遠程工作,遠程訪問數據和現場出勤的要求可能會因國家和行業而異。應結合人力資源和安全管理考慮以下建議的做法:
•測試所有虛擬專用網絡(VPN)連接以確保可靠的訪問,然後考慮指導所有數據中心操作的非必需人員在家中工作。
•確保VPN可以訪問建築物管理系統(BMS),以進行遠程數據中心監控。
•提供特定於城市/地區的VPN服務器登錄說明(這很重要,因為公司的大部分勞動力將暫時遠程辦公)。
•確保可以訪問標準操作程序(SOP)和緊急操作程序(EOP),以便在需要時進行遠程配合。
•確保SOP / EOP準確無誤,能夠作為基礎設施非正常情況下的資源來執行(指導現場工作開展)。
•根據情況,考慮推遲/取消所有面對面的會議-使用電子郵件,電話和音頻/視頻會議。
•提醒員工(粘貼標誌,日報)執行消毒措施-提供防護裝備,消毒物資並提醒其多洗手。
•評估現場人員減少帶來的風險。針對員工缺勤的各種情況(例如,低於25%,25-50%,50-75%,75-99%,100%)開發現場人員配置風險矩陣。對於每種情況,需涵蓋:
•業務影響(關鍵工作)。
•業務影響(非關鍵工作)。
•數據中心運營響應因素。
•對服務水平的影響。
•對團隊指標的影響。
•研究和測試遠程監控/管理技術(例如,遙控/遠程助手),自動化。預先對技術和程序進行壓力測試。
•要求任何錶現出現疑似癥狀的工作人員在接下來的14天內進行自我隔離和遠程通勤。
•建議任何與COVID-19確診病例有密切聯繫的工作人員在適當的時期內進行自我檢疫,通常為14天。
•審查關鍵員工和候補人員的任命,並確認對候補人員進行了充分的培訓,並向他們簡要介紹可能需要被臨時替換的關鍵員工的角色和職責。
差旅限制
在COVID-19爆發期間,公司和政府實施了差旅管制。應當始終遵守受影響國家的政府規定。隨着疫情消退,相關規定會被放寬,因此不同的政策應該在不同的時間實施。應注意以下內容:
•禁止/減少所有不必要的差旅。組織應該清楚差旅包括的範圍(例如,短途本地旅行與長途/國際旅行),並制定適當的指南。
•禁止或減少機房之間的出差。如果需要在機房之間出差,則應採取措施以確保將交叉感染的的風險降到最低—一個機房可能正在備份另一個機房。
•制定最基本的維護訪問計劃。對於設備的基本維護,政府或公司可以適當放寬規則或提供豁免。當前實施的大多數「封鎖措施」尚未對正常復工人員執行,但是其他管理部門可能會對他們控制範圍內的行程實行更嚴格的控制。運營方必須預先計劃如何進行管理,並在需要時獲得必要的訪問權限。訪問權限可能取決於在數據中心中運行的應用程序/服務。[x1]
排班管理
理想情況下,支撐數據中心設計和運營的冗餘原則也應適用於員工。當然,許多站點已經採用了這樣的原則。在病毒爆發期間,應考慮以下事項:
•創建關鍵任務團隊,確保每個團隊具有足夠的技能/經驗組合,可以有效地管理設施(如果這樣合適,並且現場人員配備充足)。站點間團隊進行隔離,特別是不允許在主站點中工作的人員訪問該站點的備份站點或與備份站點的員工進行任何聯繫。如果可能的話,現場的任務安排盡量使團隊可以在設施環境的不同區域工作,不要彼此接觸,也不要進入到彼此的工作環境。確保同一團隊成員始終在同一班次,避免跨班次聯繫。
•即使在工作環境之外,也不允許團隊之間交叉接觸。
•不允許跨班次接觸。包括同乘電梯在內的各類場景,交接班次至少保持6英尺(約2米)的距離。
•接班的輪值人員應使用消毒濕巾擦拭公共工作區域。
•根據適當的醫療或管理建議,工人在輪班期間應戴口罩。
•根據適當的醫學或管理建議,培訓人員(例如,高級工程師和受訓人員)必須始終戴口罩。
•值班班長應定期(通過電子郵件)向經理報告員工對防疫工作(清潔消毒,保持安全距離等)的遵守情況,並進行問題預警(例如,員工問題,消毒用品短缺等)。
•考慮實施接觸跟蹤系統。每天登記自有人員,供應商人員和其他相關人員的健康信息和位置,以監測可能接觸病毒或出現任何癥狀(包括感冒)的情況。
三、運營保障
為了確保維持高可用性,請檢查以下方面的操作:
•根據行業最佳實踐,將任務分為關鍵任務和非關鍵任務,以促進優先級的排序。
•儘可能推遲所有非必要的維護(例如,紅外掃描和季度電力監控系統巡檢)和重要項目。
•如果沒有必要,可以在疫情解除後再重新安排高風險測試(例如,黑啟動[x2]/插拔測試,柴髮帶載測試)。
•審查災難恢復計劃,程序和政策(例如SOP,MOP,EOP),目標聲明等,並根據當前和預期情況進行必要的更新。
•開展SOP / EOP的加強培訓,以及供應商培訓(儘可能遠程),以便在100%缺勤的情況下能夠執行基本功能或操作。
•對於線纜,服務器機架,關鍵基礎設施備件和其他部件之類的供應鏈中斷,應提前做好預測和準備[x3]。訂購更多庫存,並與供應商溝通預計的貨期。如果數據中心依靠供應商和/或服務商來維護關鍵備件和耗材的庫存,請確保那些供應商已經預見並考慮了可能出現的供應鏈中斷。
•制定計劃以應對:重大設備故障發生時,由於供應鏈中斷導致的可能無法獲得關鍵人員或資源支持的場景。
•確保已建立的設備故障通報流程能夠明確傳達信息。審查EOP,以確認這些程序清楚地說明了需要採取哪些措施,以確保故障設備在無法修復時可以被隔離至安全狀態;另外需要確認採取哪些步驟,可以確保業務連續性(例如,切換旁路,切換至冗餘組件,將負載和/或關鍵應用程序遷移到備份資源)。
•檢查系統架構的彈性[x4]-如果冗餘不足以容納一個或多個組件的故障,請考慮其他行動計劃以確保可用性。
•加滿油罐。
•對VPN進行壓力測試以確保系統可以處理更多容量/頻率的虛擬互動,因為許多工作人員將進行遠程辦公。
•將其他人力服務商置於備崗狀態(如果可用並且成本允許)。這可能包括來自其他供應商的人員配置資源(流動勞動力)和專家人員(電氣/機械)。
四、潛在風險因素
由最熟悉環境的內部專家或正式員工來執行最可預測及例行的任務風險最低。操作人員應嘗試消除其他導致不確定性的因素、過程和行為。第三方的管理需要積極關注。綜上,請考慮以下幾點:
現場顧問和供應商
•停止(儘可能)所有不必要的供應商訪問,並主動篩選必須訪問的供應商。確保他們充分了解當前的所有要求和程序。
•查看供應商培訓計劃,並增加主題培訓,以涵蓋加強後的健康和安全程序以及現場規定。
•如果有顧問或其他必要的訪客在現場,請考慮採取以下預防措施:
•留一間洗手間供訪客專用。離開時進行深度清潔消毒工作。
•對於訪客,供應商和顧問,將「禁止飲食」的工作區域管理要求擴展到整個數據中心園區(即,非員工不得將食物帶入設施環境或使用員工休息室)。
第三方設施管理和其他外包服務
根據Uptime Institute的研究,三分之二的數據中心會使用某種形式的外包服務。所有相關公司之間都需要緊密協調,以確保員工不會因相互衝突的建議/政策而感到困惑。應考慮以下幾點:
•與合作夥伴就應對政策/升級程序保持溝通。
•確定各方報備人員信息更新的頻率和方式。
•審查所有服務水平協議中有關每班人員配置水平和其他條款的條款。與服務商溝通,討論他們的能力是否滿足所有要求。
•確認服務商是否可以通過從其他地區調動有經驗的人員來彌補當地人員的短缺。事先討論這種可能性。
數據中心位於疫情嚴重區域或疫情緩和區域所受的影響
本文檔中描述的許多措施是基於公司的政策,但是在疫情嚴重地區,設施運營可能會受到外部政府法規的約束,尤其是在會議和差旅方面。此外在這些地區,明智的做法是採用最嚴格的實用政策。
加強訪客限制:
•考慮在所有預定的訪客到達現場之前對其進行預篩選。
•在訪問者訪問前48小時(或儘可能長)通過電子郵件向其發送調查問卷,並要求在確認預約前完成。
•在訪客到達園區時核對報備信息。僅當報備信息表明感染可能性低時才允許進入。
•未預約訪客禁止進入。
•進入設施環境之前要進行溫度測量(使用非接觸式溫度計)。
進一步保障勞動力:
•每個班次每個崗位至少指定一名自我隔離人員待命以備緊急情況。
•鑒於病毒的潛伏期目前被認定為兩周,因此考慮對輪班工作的班組每兩周輪換一次:A小組在一個指定的區域工作兩周,不與任何其他小組交叉。接下來的兩周,B組接管,A組自行隔離14天。(自我隔離應盡量減少與直系親屬以外的社會接觸,並採取常識性的健康措施,以盡量減少感染病毒的風險,包括避免前往公共場所和乘坐公共交通工具。)
•重新評估如何解決現場員工的作息。考慮讓一名清潔工專門負責保持休息室的衛生。考慮關閉自助餐廳和廚房區域。
•準備員工在現場住宿,但只能作為最後的手段,因為這樣做實際上可能會更快地傳播病毒。(有關此主題的更多信息,請參見Uptime Institute建議。)
進一步清潔:
•諮詢專家,定期對整個設施進行深度清潔。
現場建設項目
對於那些參與數據中心建設,重大升級改造或擴容的組織而言,疫情帶來了挑戰。施工進度對成本有很大的影響,一個區域的延誤會影響到許多其他的區域和其他的供應商。但是,在這種情況下建議盡量延期,並且可以採取以下措施:
•儘可能暫停所有非重點項目。
•如果項目必須繼續進行,與承包商協調,以確保所有分包商/供應商採用適當的保障措施
•如有可能,為項目所有參與方開通一個單獨的安全入口,並將項目人員與運維人員隔離。項目監理或參與項目的運營人員應專門履行項目職責,並且不得與其他運維人員有所互動。
託管/多租戶數據中心
託管/多租戶數據中心的訪客可能比私有企業數據中心更多。通常會有更多的客戶來訪,更多的潛在客戶,維護人員也更多。此外,每個客戶可能有不同的政策要求,SLA和訪問權限。由於這些原因,數據中心需要與客戶保持密切聯繫。 (此外,應草擬將來的合同,闡明在發生另一種流行病時應遵循的程序。)應採取的措施包括:
•推遲所有參觀或其他非必要的現場活動(如剪綵)。
•為避免不便,引起潛在的客戶不滿,應做到積極主動:提前告知所有受影響方,COVID-19的防疫計劃及其對於客戶訪問基礎設施環境所受的影響。這些交流應強調,正在實施的環節旨在支持數據中心基礎架構的最大可用性,從而使客戶受益。
•告知客戶可用的技術,使他們可以遠程管理業務負載(例如,通過數據中心基礎設施監控,smart hands等進行遠程監控)。
•考慮免費提供遠程技術,或提供折扣價格,以鼓勵客戶使用。
•建議客戶在必要時測試他們遠程事件響應能力或僅聯繫值班人員進行支持情況下的響應能力。
•在建築物入口,個人儲物櫃和交通繁忙的區域張貼有關消毒和防護措施的標誌。請注意,防尾隨裝置可能聚集大量病毒,因為它們是狹窄的封閉空間,通常不通風,並且它們的表面可能使病毒存活數小時(甚至幾天)。客戶應考慮限制使用個人儲物櫃和/或在每次使用後進行消毒。
•考慮限制共享區域的可接近性,如客戶休息室等。確保在所有共享區域(包括自動售貨機旁)都有消毒用品(和回收裝置)。
綜合應用設施
一些小型數據中心有時被稱為服務器機房,位於總部,工廠或行政中心等多功能建築中。在這種情況下,儘管本文檔中描述的原理在很大程度上適用,但策略和規則很可能由非基礎設施管理部門制定。
•應明確確定關鍵人員的需求(維護、訪問),以及普通建築規定下的基礎設施應急場景,以酌情制定例外政策。
•運營方應測試所有VPN連接以確保訪問可靠,然後指導所有非數據中心必需的操作人員儘可能的遠程訪問系統。
Uptime的建議
除了以上詳細說明的響應外,Uptime Institute建議組織進一步考慮以下內容:
企業響應
•保持更新。請查閱可用的信息源以獲取最新信息和指導(請參閱附錄)。
•分享經驗教訓。由於許多組織在多個地區都有數據中心,因此響應可能因位置或設施環境特點而異。建議為那些受影響較小/尚未受影響的區域分享在疫情影響較大區域吸取的經驗教訓,以加強對策。
•安全證明。管理層可能需要獲得允許關鍵員工出差的許可/官方文件(特別是在該地區跨境通勤很普遍的情況下)。
•闡明升級流程。確保業務部門(尤其是關鍵任務部門)充分了解響應級別和和觸發升級的具體事件。
•確保業務/技術協作。鼓勵業務部門就可能影響數據中心/ IT運營的政策變更與數據中心運營和IT運營進行充分溝通。例如,指導員工遠程辦公或指導客戶使用在線服務(類似於一些零售商關閉了所有實體零售店,並宣布其在線商店仍在「營業」-這可能會推動在線流量的急劇增加,對此IT團隊應該有所準備)。
數據中心響應
•檢查維護優先級。審查維護計劃並確定優先級:確定如果需要由骨幹員工進行操作,哪些任務和問題可以降級/最後響應,或不需要處理。
•確保良好的團隊溝通。約定好定期開展團隊溝通,以使彼此隔離的團隊按設定的時間表進行遠程交流(例如通過無線電,電話/視頻會議),並提前測試系統。
•避免工作空間共享。大多數數據中心的員工工作空間有限(例如BMS室,運營辦公室等)。如有可能,請指定會議室或其他空間供輪班人員交替使用,例如,白班使用運營辦公室,晚班使用會議室,而夜班使用設施經理辦公室。設置BMS控制台和網絡訪問權限,以便輪班不必進入彼此的工作區。在無法做到這一點的地方,制定程序來消毒清理班組之間的共享區域。
•避免設備共享。儘可能避免共享設備-為每個員工提供他們自己的設備。
•如果必須共享設備(例如,值班電話,對講機,平板電腦,工具,鍵盤等),請在每次交接班時進行消毒。
•審查外部服務。遠程辦公的增加意味着帶寬,電力,網絡等方面的壓力越來越大。必要時請審查和修訂備份/災難恢復計劃。
•提供緊急住房。儘管工作人員住在現場應作為最終的方案,但各地區可能會在倒班期間進入封閉狀態,因此請為這種情況做好準備:
•提前與地方當局商定將數據中心指定為關鍵基礎設施(類似於醫院或警察局),並獲得必要人員的差旅許可。說明該站點支持的重要業務(例如,網上銀行,遠程辦公等)。
•獲得諸如食物,基本衛生和醫療用品之類的補給。
•如有可能,找出附近的酒店(最好在步行距離之內),以便員工在輪班之間休息。確保環境(酒店或現場的生活區)有利於保持身心健康(乾淨私密,安靜的睡眠空間;可以獲得各種新鮮健康的食物;可以使用淋浴和運動設施等) 。
•審查推遲的維護。考慮推遲維護的後果,因為這可能會增加組件或系統故障的風險。與往常一樣,制定應急方案,並在必要時與供應商進行協調,以確保問題得到解決。
•如果不能及時處理設備故障,請確保解決設備和數字化基礎設施保護性停機/隔離的程序具有足夠的彈性,以減少故障設備引起的損失(至少在負載轉移之前)。
•隨着時間推移和防疫規定的持續要求,需要重新審查延期的工作,並確定持續的延期是否會使風險超出可接受的範圍。
•更新核心資料。在項目和維護工作減少的同時,利用更長的周期來回顧和更新計劃與資料庫(例如,程序,培訓內容,技能清單,升級計劃,後續計劃)。這可以在場外完成。
•鼓勵有經驗的人員進行文件經驗分享;可以採取注釋程序和手冊,進行團隊視頻會議等形式。
•評估「康復」員工潛在的傳染風險。迄今為止的資料表明,感染病毒並康復的人只有有限的免疫力,可能會再次感染。因此,所有的規則和政策對於全員適用:在獲得更多的資料之前,應考慮康複員工與其他員工均具有潛在的傳染性和風險。
結論
COVID-19已經活躍了數周(在本報告發佈時),但直到最近許多組織才開始進行管控。因此,許多企業處於(並保持在)被動狀態。最終這種情況會被審查與迭代改進後的政策和程序來取代;受疫情的嚴重影響,許多政策可能會被永久性地採納到關鍵基礎設施的管理中。這可能會造成整體成本的增加。由於部分地區人口老齡化,儘管付出了最大努力,但數據中心可能比其他行業更容易受到COVID-19的影響。目前,行業面臨著專業人員短缺的挑戰。當前的事件進一步表明,行業,教育機構和貿易組織需要加大力度以加強人員的招聘和培訓計劃。
同樣,自動化和遠程監控的使用可以使設施更有效,更長時間地運行,而對現場人員的需求則會更少。疫情可能會長期加速這一方向的趨勢。生產力和遠程協作工具也是如此,這種疫情不會是最後一次。在過去的20年中,SARS(嚴重急性呼吸道綜合症)和MERS(中東呼吸綜合症)等病毒暴發已經造成大量的死亡和經濟破壞。全球化的發展意味着將會有更多類似的情況,有些甚至會更加致命。因此,所有組織都需要隨時做好準備,就像面對電源中斷之類的普通事件一樣。這意味着所有的措施應作為常規最佳實踐進行制定和審查。對於冗餘和遠程管理/自動化方面的投資也應被重視。目前主流的觀點是,COVID-19病毒可能會成為流行病-每年重複出現,就像流感一樣。在應對當前全球健康危機的同時,企業也必須做好長期規劃。企業應更新業務連續性計劃,需包括預防措施(例如,要求必要的工作人員在每個「流感季節」開始時接種疫苗)和準備措施(審查數據彈性[x9],站點冗餘,供應商SLA等),參考本份諮詢報告。通過疫情學到的教訓,Uptime Institute將製作一份諮詢報告,以制定永久性的流程/策略。
附錄:資源
•國家和國際新聞,公共衛生和政府機構-例如,
•美國疾病預防控制中心
•美國職業健康與安全管理局
•世界衛生組織
•約翰·霍普金斯大學
•當地資源(新聞站點,州和地區機構)
•冠狀病毒技術手冊(針對技術行業的參考資料)
•Uptime Institute Inside Track COVID-19公告
•Uptime Institute的COVID-19信息收集(適用於Uptime的Inside Track社區成員/ Uptime Network成員),該數據庫經常更新,其中包括示例業務連續性計劃,站點訪問者調查表等
•Uptime實時支持或需求型應急管理資源
備註:
1、涉及到重要的基礎設施業務,政府可能會提供限制豁免,如金融類、在線教育、在線醫療等等
2、黑啟動是指依靠系統內部的電源,而不藉助外部的電力進行的啟動。
3、關於供應鏈問題,Uptime提的建議十分中肯和重要,部分部件的生產地一旦成為疫情地,獲取就會很困難。
4、 Resilience 彈性,可以定義為"在面對環境極端以及人為錯誤或故意破壞的情況下維持ICT服務的能力"