清華裴丹 | AIOps九大發展趨勢
- 2019 年 10 月 4 日
- 筆記
大家知道,運維是數字世界的的基礎設施級別的技術。隨著支撐數字世界的軟硬體系統越來越龐大、越來越複雜,運維對智慧化的要求就會越來越高。所以我們說,AIOps(智慧運維)是運維技術發展必然的趨勢。
AIOps在中國正式提出來到現在的實際落地有兩三年了,也取得了初步的落地效果。那麼下一步到底怎麼做?做什麼?未來幾年內能進一步達到什麼樣的效果?今天我就分享下我最近總結出來的AIOps發展九大趨勢。
做趨勢預測是有很大挑戰和風險的,好在我之前在AIOps領域還有過成功的預測。

我在2018年1月曾給出一個AIOps宏觀預測:我說2018年將是AIOps在中國落地的元年,而據我所知在2018年的確有小几十個AIOps項目開始落地,也就是說我的這個預測的確成為了現實。2019年1月我說2019年是AIOps快速發展的一年,而實際上截止2019年8月份在中國有大幾十個AIOps項目開始推進;與此同時,我們看到2019年初的時候人行以及各大銀行也發文闡述支援AIOps方向。
我在AIOps具體技術上也有個算是成功的預測。2018年中的時候我已經在公開演講中講AIOps平台化這個概念了;之後在2018年底,Gartner的報告也基於與世界範圍內的客戶和廠商的訪談正式提出了AIOps平台化這一方向。
下面這幅圖的左下部分是我的團隊給出的AIOps平台架構,該圖的右下部分是2009年我在AT&T工作時做的智慧運維平台的架構,可以看出兩幅圖在概念上是非常相似的。所以,從這個例子大家可以看出,我能夠先於Gartner提出AIOps平台的概念,不是因為真有什麼能看到未來的「水晶球」,而是因為我之前在其它場景下做過類似工作,並且在AIOps方向不斷努力推進。當我看到需求到了,相關條件成熟了,自然而然就能判斷應該做AIOps平台了。所以,所謂的預測能力無非是經驗的積累、不斷觀察、思考,最重要的是不斷的親手實踐,就像林肯和圖靈獎得主Alan Kay(面向對象程式語言的發明者)所言,預測未來最好的方法就是親手創造/發明這個未來。

下面我總結一下基於經驗、訪談、觀察、思考和實踐得出的AIOps發展九大趨勢,即行業多樣化、產業生態化、數據多樣化、場景多樣化、場景精細化、演算法服務化、技術平台化、落地加速化、成熟度評估的標準化。

第一個趨勢就是AIOps落地的多樣化,這個結論是基於我通過多種渠道採集到的資訊。我們自己有一個公眾號「智慧運維前沿」,馬上要突破10000個用戶了;我們還有一個超過千人AIOps群,已經成功舉辦了兩屆AIOps 挑戰賽,我一年中會到幾十家各行各業機構去進行現場交流。從上述多種渠道採集到的資訊清楚表明:現在開始落地AIOps的,除了互聯網公司、銀行以外,證券、保險,電力、運營商、工業製造、國家機關、自動駕駛公司也都在嘗試AIOps落地。

第二個趨勢是AIOps產業生態化。各個行業都在試圖嘗試落地AIOps,給AIOps方向提供了一個很好的產業基礎。「產、學、研、用」各方也都在積極跟進,形成了一個AIOps生態系統。在這個生態系統里,專業的人負責專業的事,有越來越多的學術機構從事AIOps原理研究;由機構用戶負責提出實際需求,由有預研能力的廠商把AIOps原理上的突破變成實際落地效果;有負責數據採集、接入、存儲等的廠商,還有負責集成、交付、維保等的廠商。也就是說,「學、研、產、用」幾方專業分工,通力協作。AIOps產業生態化在AIOps落地過程中是一個重要的里程碑,會大力推動AIOps的更快落地。

第三個趨勢是AIOps數據多樣化。數據中心的系統物理架構和軟體架構都非常龐大複雜。因此我們必須採集、治理、融合多種運維數據源、從中提取對運維最有用的資訊,幫助我們了解數據中心最新最全的運行狀態, 從而為AIOps的眾多場景服務。因此我們說AIOps數據多樣化是必然趨勢。

第四個趨勢是AIOps場景多樣化。下圖羅列了一些我們與合作夥伴合作、交流時遇到的具體場景。我們分成幾個大場景:即異常發現、事件發現、事件分析、系統畫像、圖譜豐富等。每一個大場景會包含很多的具體場景,比如「事件分析」大場景就包括「異常機器定位」、「交易鏈條定位」、「多維度異常定位」等多種類型的事件分析。也就是說,當用戶認識到AIOps能實際幫助到運維的時候,會自發與生態系統中的夥伴共同找到越發多樣化的AIOps場景。

第五個趨勢是AIOps場景精細化。如下圖所示,異常檢測(也就是通過分析監控數據自動發現運維故障)就包含單指標異常檢測、多指標異常檢測、多維度異常檢測、日誌異常檢測等等。而單指標異常檢測在檢測業務、機器、網路、資料庫、存儲系統、批處理的異常時,其場景和檢測側重點會有所不同,因此需要針對精細化的具體場景進行AIOps異常檢測演算法的適當調整或適配。

為了避免AIOps場景多樣化和精細化導致的落地工作量增加,我們必須把各類場景用到的AIOps演算法共性部分抽象提煉出來作為公用模組,為多個場景服務。如下圖所示,從日誌數據測量出的指標數據的異常檢測,就可以復用單指標異常檢測這一演算法模組,並且這一演算法模組已經服務化,即可以通過API直接調用。所以我們說的第六個趨勢就是AIOps演算法服務化,提升了效率,讓整體服務得更好。

在AIOps場景多樣化、場景精細化、演算法服務化的前提下,第七個趨勢,即AIOps技術平台化也就水到渠成了。AIOps技術平台化打穿多個場景、多個數據源、多個演算法。如下圖所示,上面輸入的是各種運維監控數據,輸出的就是我們所需要的各種運維智慧,中間是各種服務化的AIOps演算法。不管具體的某個運維場景有什麼樣的特點,我們都可以通過整體平台進行自由組合和編排,從而高效落地該運維場景,避免傳統方法的重複低效落地。

這也就引出了第八個趨勢:AIOps新演算法落地加速化。以往一個新演算法研製出來後,需要大量的工程工作配合才能讓新演算法產生實際效果。有了平台化之後,只需要通過編排把該新演算法、新演算法所需數據、已有工程工作「串」在一起,就能夠快速落地。比如做了一個0day攻擊檢測演算法ZeroWall,我們在一家具體機構進行嘗試的時候,一周內捕獲28種0day攻擊,每天捕獲上萬條0day攻擊,每天誤報數0到6個。如果按照以往方法,我們要花大量的時間去做ZeroWall的落地工作,而有了AIOps平台化, ZeroWall的落地工作就快了很多。

在過去半年期間,各個行業的合作夥伴都提出了AIOps成熟度評估標準化的需求,而銀保監會、證監會、人行、工信部相關領導也都表示會支援。這個事情我也已經著手聯合各方開始做,預計一兩年的時間才能做出一個切實可行的標準。

總結一下AIOps的九大趨勢:行業多樣化、產業生態化、數據多樣化、場景多樣化、場景精細化、演算法服務化、技術平台化、落地加速化、成熟度評估標準化。這九大趨勢將助力AIOps在今後的幾年起飛、爆發。

AIOps落地還會遇到各種各樣的挑戰。我們需要抬頭看天,低頭看路,目標一致,腳踏實地,一步一個腳印落地AIOps。AIOps是我本人「擇一事,終一生」的事業,希望與更多志同道合的同仁一起,為AIOps這個事業共同奮鬥!
謝謝大家!