用上這門黑科技,運維從此不背鍋!

  • 2019 年 10 月 7 日
  • 筆記

近年來,企業業務規模的急劇上升,導致運維場景的複雜性也呈指數性上升,原本依靠人工經驗的運維工作難度也變得更具有挑戰性,而基於機器學習的智慧運維(AIOps)開始得到企業 IT 人員的關注。

AIOps(Algorithmic IT operations platforms),即基於演算法的 IT 運維平台,也是 DevOps 未來發展的一個趨勢。簡言之,AIOps 將機器學習演算法引入運維中的監控和故障分析領域,如通過演算法、建模、推理等方法,以輔助 DevOps 提升效率,降低業務及系統出現的風險故障係數。我們發現,常見的如時間序列異常檢測、故障根因分析、業務調度等工作均是當下運維人員所面臨的挑戰。

那麼,智慧化運維(AIOps)如何在真實業務場景中落地?Gartner 為用戶指出了三點建議:

一是通過增量方法確保成功部署 AIOps 的各項功能。

二是選擇能夠支援廣泛的歷史和流數據類型的 AIOps 平台。

三是選擇能夠在 IT 運營導向的分析和機器學習的四個階段系統進步的工具。

為此,我們整理了Gartner 最新公布的 《AIOps 平台市場指南》,以幫助用戶快速了解當前新興 AIOps 市場情況。

主要發現

  1. AIOps 在企業 IT 運營中的應用正逐漸升溫,其中,一些更為成熟的組織則正利用該技術為企業領導者提供洞察力。
  2. AIOps 技能和 IT 運營成熟度是確保其快速實現價值的常見因素,此外,數據品質成為更為成熟部署架構時的新挑戰。
  3. 企業採用 AIOps 平台以增強應用性能監測工具(APM)和網路性能檢測與診斷工具(NPMD)。
  4. 供應商正制定使用機器學習的戰略,以分析 IT 運營在數量、種類及速度等方面遇到的數據挑戰。與此同時,他們也在構建數據存儲和人工智慧實踐訂製化的能力。

定義

AIOps 平台利用大數據和機器學習,通過可擴展性和對不斷增長的數據進行分析,以達到對所有主流 IT 操作功能的支援。該平台支援同時使用多個數據源、數據收集方法以及分析和演示技術。

AIOps 可以增強廣泛的 IT 運營流程和任務,包括性能分析、異常檢測、事件關聯和分析、IT 服務管理和自動化。其核心功能包括:

  1. 從多個數據源中獲取數據
  2. 數據分析:獲取數據時的實時分析;存儲數據時的歷史分析
  3. 提供對數據的訪問
  4. 使用機器學習
  5. 根據分析結果進行下一步操作。(注意:分析是為了用於預測可能發生的事件,並及時回顧以確定引發當前系統行為的根本原因。)

市場分析

迄今為止,很少有供應商能提供全面、集成化的 AIOps 平台。然而,許多供應商提供了廣泛且可內置集成的 AIOps 功能。為更清楚描述市場發展及供應商所處水平,Gartner 將當前可用的 AIOps 功能劃分為數據管理和分析結果兩大部分:

數據獲取與處理

歷史和流數據管理——軟體或設備允許數據獲取、索引,以及存儲日誌數據、互聯網數據、指標、文檔數據,由此產生的資料庫大部分是非結構化或多結構化的,而存儲的數據集以高容量累積,以高速變化的格式構建。這種歷史數據管理功能可被稱之為 「大數據管理」。

為了給 IT 運營人員提供幫助,這種工具必須將人類感知的數據以時間尺度呈現,並直接提供數據無需訪問存儲資料庫。此外,它必須跨多個實時和歷史數據流提供連貫的分析。

分析結果

  • 基礎及高級統計分析——單變數和多變數分析組合,包括相關性、聚類、分類和推斷的使用。
  • 模式發現及預測自動化——使用上述一種或多種類型的歷史數據或流數據,以引出可從數據集本身推斷但不立即存在相關性的數學或結構模式。這些模式可用來及時執行不同概率的事件預測。
  • 異常檢測——先確定正常系統行為,再辨別出與正常系統行為的偏差。
  • 確定根本原因——對由模式發現和預測自動化組件建立的相關性網路進一步修正,以隔離代表真正因果關係的依賴性連接,從而提供有效干預。
  • 規定性建議——對問題進行分類,將其分類為已知類別。然後,挖掘先前解決方案,分析這些解決方案的適用性並以優先順序形式讓其以用於修改。最終,這些將使用閉環方法,並在使用後對其有效性進行投票。
  • 拓撲——對於 AIOps 檢測到的相關且可操作的模式,必須圍繞所獲取的數據,形成的即為拓撲。使用拓撲作為因果關係確定的一部分可以大大提高其準確性和有效性。

發展方向

在過去二十年里,人工智慧技術間歇性地影響了 ITOM 的發展,而 AIOps 平台只是這種影響的最新例證。IT 運營一方面受到成本降低的壓力,同時又增加了運營的複雜性。關於後者,可以從數量、種類、速度三個維度進行定義:

數量,IT 基礎架構和應用程式產生的數據量快速增長(每年增長 2 至 3 倍);

種類,機器和人生成的數據種類越來越多,如指標、日誌、網路真實數據(wire data)、知識管理文檔;

由於採用了雲原生或其他架構,數據生成速度不斷提高,IT 架構也在不斷變化。

考慮到現代企業所需的洞察力,以上不同維度的運營複雜性帶來的成本是非常高的。在處理大量、多樣化且快速增長的數據時,現有的監控工具承受了不少壓力。更重要的是,監控工具不會跨平台挖掘其他多種數據,特別是用戶的情感數據、業務交易數據、感測器遙測以及各種系統的日誌,以獲得更多洞察。

為此,非 IT 團隊如業務 Leader 和 IT 運營團隊,對 AIOps 技術產生了越來越濃厚的興趣。正如他們探索正探索的通用平台,其部署時最大的問題在於IT運營實現不同用例時的 AIOps 平台的性能和成熟度。

迄今為止,AIOps 主要用於支援 IT 操作流程,以便監控或觀測 IT 基礎架構、應用程式表現或數字體驗。此外,無論是採用機器學習對事件管理環境中的重複數據進行刪除,還是在APM中結合基於位元組碼檢測的分散式跟蹤數據來分析應用程式的日誌數據,這都是合理的。

AIOps 平台正擴展其能夠獲取的數據種類的範圍。在過去,供應商僅支援提供日誌數據,而現在,數據種類已延伸到互聯網真實數據。

因此,考慮到供需方面的趨勢和技術差異,Gartner 預計,在未來五年內,AIOps 平台將成為 AIOps 功能交付最為廣泛的形式,而不是僅僅將 AIOps 功能嵌入 APM、NPMD、ITIM 等監測工具中。

與此同時,IT 組織也開始在 DevOps 環境中探索這種方式,以預測部署前的潛在問題並監測潛在的安全問題。

Gartner 認為,AIOps 將會演變成雙向解決方案,不僅可以獲取數據進行分析,還可以根據分析啟動操作。這些操作最有可能通過與其他 ITOM/ITSM 工具集成,將採取多種形式,包括:

  • 警報
  • 問題分類
  • 配置管理資料庫(CMDB)
  • 日誌運行自動化
  • 應用程式發布編排

AIOps 工具在監控的四個階段:數據採集、聚合、分析、行動,具有數據聚合和分析的核心功能。目前一些企業用戶利用開源技術進行數據採集,從而繞過 APM 並使用 AIOps 作為監控功能的主要方式。

可以看到,關於監控工具與 AIOps 的爭論才剛剛開始。從長遠來看,APM 將主要應用於專用領域,而 AIOps 將適用於更為廣泛的 IT 運營場景。

未來

隨著市場的發展,Gartner 還觀察到 AIOps 功能的一些主要變化:

一是提供與數據源無關的 AIOps 平台的供應商進入市場。這些產品往往是通用的,可滿足最為廣泛的使用案例。

二是具有關鍵組件但數據源往往受限的供應商,他們通常專註於一個域(如網路、端點系統、APM)。這些工具往往只有一組有限的用例,針對於某些IT運營部門。

三是一些供應商現有的監控解決方案將數據源限制在自己的監控產品中,或擴展到有限的合作夥伴。

四是一些用戶通過開源項目能夠通過提供數據獲取的工具、大數據平台、機器學習、可視化技術來組裝自己的 AIOps 平台,最終可混合或匹配多個供應商的組件。

目前,市場中存在一種聲音:AIOps 是否會取代 APM、NPMD、ITIM、DEM 為主的以域為中心的監控工具?其實,

這是一種混淆。AIOps 不會取代監控工具,相反,它增強了分析能力和更具可操作性的數據。以域為中心的監控工具將繼續存在,為專家提供其域的數據獲取、分析和可視化。只不過,數據將流轉到 AIOps 平台,該平台充當的是一個將數據集中到連貫跨域分析的作用。

來源:雷鋒網 原文:https://tinyurl.com/y2y6qf8b 題圖:來自Google圖片搜索 版權:本文版權歸原作者所有 投稿:歡迎投稿,郵箱: [email protected]