AI走進數據中心智能化運維:騰訊與清華聯合論文被IFAC世界大會錄用

  • 2020 年 3 月 30 日
  • 筆記

近日,騰訊數據中心與清華大學自動化系智網中心團隊的賈慶山老師合作論文被第21屆IFAC國際自動控制世界大會錄取。該大會為自動控制領域三大頂會之一,將於今年7月在德國柏林舉辦。本屆大會將關注可持續資源、綠色能源、數字化和工業4.0等主題;人工智能、控制和計算機科學日益重要的融合也將成為大會關注的焦點。

此次騰訊-清華聯合團隊投中的論文全稱為Predictive Maintenance of VRLA Batteries in UPS towards Reliable Data Centers (中文名稱:對可靠數據中心UPS使用的VRLA電池的預測性維護)。論文提出的電池故障檢測方法,填補了此前行業針對UPS(Uninterruptible Power System,不間斷電源)電池基於數據驅動的預測性維護的研究空白,相比當前基於專家經驗和閾值規則等進行判斷的檢測方式有更高的準確率,同時可以提前預警電池健康狀態,有效提升數據中心的智能管理水平,是人工智能技術在數據中心落地應用的生動實例。

《對可靠數據中心UPS使用的VRLA電池的預測性維護》

該研究成果也已經整合形成電池AI診斷服務,搭載在騰訊自研的數據中心智能運維平台——騰訊智維上,成功支撐了騰訊深汕數據中心的電池健康管理服務交付工作,目前已覆蓋了騰訊自建數據中心的數萬隻蓄電池。未來,將全面覆蓋騰訊數據中心的幾十萬節電池,並面向廣大行業夥伴開放。

通過人工智能對數據中心蓄電池進行預測性維護

UPS供電系統是滿足數據中心供電質量的核心部分,而蓄電池又是UPS系統中最重要的組成之一,是整個供電系統的「最後一道屏障」,在UPS系統的故障中,與蓄電池有關的原因佔比30%以上。如果電池故障引起UPS系統宕機,關鍵業務中斷,將產生很大的經濟損失。行業調查機構顯示:金融行業的數據中心每宕機一小時的損失為1495134美元,通訊行業的數據中心每宕機一小時的損失為2066245美元。因此通過對蓄電池系統科學的運維管理、監測維護,及時發現故障隱患並及時維護更換,將極大提升數據中心持續運轉的可靠性。

不間斷電源系統使用的蓄電池

面對數據中心成千上萬的蓄電池,通過人工智能自動化的方式進行檢測和維護能極大提升效率。但現實中,AI在蓄電池故障預測的落地並不容易。首先,由於日常狀態UPS中使用的蓄電池通常在浮充狀態下運行,因此監控數據的信息量遠不及進行放電測試所收集的數據。第二,沒有統一的電池更換標準,現有的維護策略依賴於專家知識。第三,電池故障相關的數據量不足,使尋找高質量模型的任務具有挑戰性。

此前行業關於用數據驅動電池壽命預測的研究,也多關注於電動汽車電池這類可循環使用的電池,針對UPS類等常態處於浮充狀態電池的健康管理,此前未見已有研究。

針對這些問題,騰訊-清華聯合團隊依託於騰訊智維平台提供的海量數據中心運營數據,研究了一種用於UPS中VRLA電池的預測維護的新型數據驅動技術。為了提高數據採集和標註的效率,團隊首先對電池自然老化和內部急劇衰退兩種情況,提出了一種可以自動標註電池退化時間點的算法,分別以電池內阻和電壓離群程度進行自動標註,避免了數據標註過程中的重複和繁重的體力勞動。然後,針對蓄電池監控數據數據量大、數據維度低的問題,應用特徵工程技術對數據維度進行擴展。在完成特徵工程後,研究人員分別訓練了邏輯回歸、隨機森林、梯度提升決策樹和人工神經網絡模型,對蓄電池是否發生故障進行預測。實驗結果表明,AI模型對故障電池的預測準確率為98%,和現有的基於閾值的判斷規則相比,AI模型平均能夠提前15天預測電池的故障。

目前上述研究成果已經被研究團隊整合形成電池AI診斷服務,並在騰訊自研的數據中心基礎設施管理軟件平台——騰訊智維平台上發佈落地,覆蓋了騰訊自建數據中心的數萬隻蓄電池。該服務能夠方便地集成進現有的電池管理服務中,並能夠自動對採集到的蓄電池電壓、內阻和溫度數據進行分析預測。

應用數據驅動UPS蓄電池健康管理流程圖

現場專家工程師對AI故障診斷的效果進行了持續的跟進驗證,驗證結果表明:相比於原有的電池維護策略,AI診斷服務能夠更加準確地對電池的故障狀態進行提前預測,同時還可以檢測出超出專家知識範圍的潛在電池故障,這使得數據中心的運維工程師能夠對蓄電池的維護更換進行更加有針對性地規劃,有效提高了蓄電池的運維效率,進一步保障數據中心的可靠性。在對騰訊天津數據中心3號樓的6880節電池進行現場實際落地驗證發現,電池健康管理服務可以實現96.2%的告警準確率,且告警時間比實際故障提前5~30天,大大優於傳統的基於經驗規則的分析方案。

目前,騰訊團隊正在逐步擴大落地範圍,未來將通過智維平台,實現對騰訊幾十萬節電池的業務覆蓋。騰訊智維平台由服務騰訊內部的星雲平台升級而來,是騰訊將近20年數據中心運營經驗與智能化、雲化技術相結合,自研的一款數據中心基礎設施管理軟件平台。通過騰訊智維平台,可以實現數據中心的智能告警、智能巡檢、智能容量分析和透明化的客戶體驗,為全局把控、精細化管理、優化運營成本提供基礎,同時也為技術專家實時、異地處理告警和數據中心的無人值守創造可能。它可以幫助客戶360°掌握數據中心的運行情況,持續提升運營的質量與效率,降低成本投入,將數據中心的價值極大化。騰訊智維平台就像是數據中心的「大腦」,為騰訊數據中心賦予了精密的感知能力和快速迭代進化的能力。

騰訊智維平台功能簡介

目前,騰訊智維平台已在騰訊超過80個大規模數據中心進行部署,覆蓋了全球12個國家和地區,運營管理了超過100萬台服務器,測點數量超過600萬個。同時,騰訊智維也和重慶電信、廣東電信等運營商和銀行、證券等各行業的客戶達成了合作關係。據了解,騰訊智維平台接入部署後,為重慶電信在能耗優化方面提升30%左右,每年節省電費達百萬元以上。

騰訊聯合高校攜手推進新基建領域技術創新及應用落地

早在2006年,騰訊就圍繞人才培養、聯合研究和學術交流三條主線啟動了騰訊高校合作項⽬,並先後與清華大學、哈爾濱工業大學、中科院計算所、北京大學、華中科技大學、中國人民大學、南京大學、西安交通大學等多所知名高校成立聯合實驗室,且與眾多領域專家開展產學研合作。

騰訊數據中心實地勘察研討交流

2016年,騰訊IDC平台部與清華大學自動化系智網中心團隊的趙千川、賈慶山和夏俐老師建立了數據中心自動化運維領域的產學研合作。研究工作以提升數據中心運營質量、降低運營成本和提升運營效率三個目標為出發點,經過雙方多年持續耕耘,已累計發表6篇高質量學術論文,輸出7項發明專利。

騰訊數據中心和高校專業研究團隊的合作研究,不僅集中在電池健康管理的研究上。在數據中心智能告警方面,研究團隊提出了告警預警多維分析方案,綜合設備狀態、設備工藝,採用多傳感器融合以及專家知識等方法,通過對數據中心的告警數據的根因分析和關聯性分析,對數據中心告警風暴進行收斂,有效減少冗餘告警信息,實現了對數據中心設備的準確告警和提前預警,並在海量告警場景中進行告警溯源、定位根因,幫助現場工程師快速定位故障,有效提升現場告警的準確性和響應效率。該方案已應用於騰訊智維平台,在近百個騰訊的數據中心中提供實際支持。

在數據中心節能方面,研究團隊採用AI技術,構建了數據中心能效預測模型,實現對數據中心能效的精準預測,並提供數據中心能效影響因子的解釋性服務,同時基於能效預測模型進行自動尋優的智能分析,輸出節能優化建議。該方案已在騰訊天津數據中心4號樓完成第一階段的落地驗證,實現良好的節能效果,證明AI技術在數據中心節能方面的應用價值和巨大潛力。隨着相關研究的不斷深入,騰訊與清華將有更多研究成果在騰訊智維平台上落地發佈,推動平台由自動化向智能化發展。

如今,數據中心智能化已成為其主要的發展方向,作為所有互聯網業務的基石,數據中心正在人工智能技術的推動下發生着運維管理的大變革。作為世界領先的互聯網公司,也是全球IaaS市場增長最快的雲計算廠商之一,騰訊全網服務器總量已經超過110萬台,是中國首家服務器總量超過百萬的公司,也是全球五家服務器數量過百萬的公司之一。在此背景下,騰訊數據中心圍繞「降本增效」的核心訴求,不斷整合自身資源與經驗,加速構建基礎設施層的自研技術體系。

2020年3月4日,在中共中央政治局常務委員會召開的會議上,決策層強調,要加快推進國家規劃已明確的重大工程和基礎設施建設,其中5G 網絡、大數據中心、人工智能等新型基礎設施建設成為備受關注的方向。人工智能作為新一輪產業變革的核心驅動力,正在釋放歷次科技革命和產業變革積蓄的巨大能量。持續探索人工智能技術在數據中心的應用,以人工智能賦能數據中心,將極大地推動數據中心由自動化向智能化發展,也將促進數據中心快速適應新的智能化業務的需求。

延伸閱讀

國際自動控制聯合會(IFAC,International Federation of Automatic Control)成立於1957年,是一個以國家組織為其成員的國際性學術組織,中國是創始國之一。該組織負責定期舉行控制方面的國際會議,方便控制領域的學者和工程師更好地進行學術交流。由其舉辦的IFAC世界大會(IFAC World Congress),於1960年起每三年召開一次,致力於反映世界範圍內控制理論與應用發展的新成果和趨勢,是自動控制領域公認的頂級學術會議。