企業級大數據平台智能運維好幫手——星環科技多模數據平台監控軟件Aquila Insight

動圖封面

Aquila Insight介紹

Aquila Insight是星環科技推出的一款多模數據平台監控軟件,為企業運維團隊提供了一套統一、完整、便捷的智能化運維解決方案。通過豐富的儀錶盤管理、告警與通知管理、實時和歷史查詢語句運行分析、計算和存儲引擎的統一監控、完整的日誌收集過濾與檢索等功能,實現高效智能運維的目標,充分保證集群穩定高效的運作。

業務痛點

企業在應對業務部門的擴張以及數據融合創新時,通常會針對不同的項目場景引入不同的數據模型以及大數據產品。這些產品和模型為企業解決了海量多源異構數據的存儲管理難題,但與此同時,產品服務的可靠性問題也為企業帶來了挑戰。服務需要持續高效、穩定、可靠的運作,對於企業運維團隊來說需要做到有問題及時發現,資源不夠及時擴容,出現故障迅速修復,以防止出現服務器長時間宕機、業務長時間中斷、數據丟失等問題。

企業如果採用了大量分佈式架構的大數據組件,那麼運維人員需要掌握每一款大數據產品的相關知識,極大的增加了企業的運維成本以及運維人員的學習成本。並且由於缺乏統一的運維入口,傳統的查詢運維難以完成指標數據的可視化,極易缺乏或遺漏關鍵監測指標。在數據碎片化、監控對象粒度龐大的情況下,自動化監控難以實現,無法保障企業及時發現故障異常並進一步排除業務隱患。

基於多年以來在大數據運維方面積累的豐富經驗,星環科技推出的Aquila Insight多模數據平台監控軟件具備高安全性、高易用性的特點,可以及時幫助企業發現問題並解決問題,為用戶提供平台級大數據系統的交互式運維解決方案,保障產品可靠穩定的高性能運轉。

Aquila Insight架構圖

產品功能

Aquila Insight將星環全線產品的運維數據集成起來,打通跨產品、跨服務、跨集群的運維窗口,提供一站式自動化的運維分析、完備的功能配置,滿足不同的運維場景需求。通過可視化的系統監控平台,運維人員可以對系統負載,平台運行狀況等指標進行統一管理與監控。多方面多維度的集群監控、預警、分析以及狀態檢查機制充分賦予了運維人員解決系統異常的能力,對於潛在的嚴重問題,Aquila Insight預置的告警通知設置能夠及時預警,實現事前預警、事中告警、事後分析的全階段運維

全線產品,一站式監控,開箱即用

Aquila Insight預置了大量的運維規則,提供54個預置儀錶盤,124條告警規則,用戶可以根據自身運維場景來設置不同的運維模塊組合,對產品的可用性、性能、業務負載等進行全方位監控。

分佈式集群監控

豐富的告警規則設置,全方位監控預警

Aquila Insight基於指標和日誌數據進行實時運算,幫助用戶及時感知平台健康狀態,搭配豐富的告警規則可以滿足用戶大量場景化的告警預警。

  • 審計告警:支持監測安全侵害事件,如越權操作、非法入侵;
  • 狀態告警:支持對用戶活動帶來的異常狀態告警,如慢查詢過多、在線事務過多、連接數過多等;支持對數據庫異常狀態告警,如鎖超時、相關服務不可用等;
  • 資源預警:支持對資源情況預警,通過摘要模板,精確顯示具體的告警對象,如某服務內存不足、某中間件CPU佔用過高等;

用戶可以在告警查詢頁面中方便地管理告警信息,進行故障排查。系統提供基於告警規則,歷史告警記錄的查詢,用戶可以更高效的追溯歷史事件,進行問題回顧。同時,系統彙集了不同系統來源的告警,將基於不同告警規則生成的告警通知以郵件或者Webhook的形式分派給對應的運維人員,進一步提升告警功能的易用性與告警處理效率。此外,Aquila Insight也支持告警分組,靜默,告警抑制等功能,可有效避免告警風暴, 凸顯關鍵告警。

規則定製

日誌管理與分析

Aquila Insight預置了平台以及租戶級別的日誌搜索規則,開箱即用。為了幫助用戶更高效的追溯故障發生的上下文並迅速定位故障原因,Aquila Insight支持星環大數據產品的日誌收集,導入導出,查詢,為用戶提供了豐富的篩選條件,如:關鍵詞、參數、上下文等查詢方式。並且系統支持審計日誌的檢索與報表展示,可以使用日誌搜索檢測安全侵害事件、操作不合規行為以及其他與數據庫或SQL相關的問題。平台預置了搜索過濾器,用戶可以選擇保存搜索條件,便於後續復用搜索。為了提高告警效率,平台還支持一鍵告警,通過與告警功能聯動,用戶可以直接根據日誌搜索結果進行告警設置。

日誌上下文展開

高效的計算引擎監控、SQL監控與告警

Insight Server的可視化頁面支持用戶查看server以及executor的健康狀態以及指標信息,如CPU、內存、GC等情況。除此之外,用戶也可以查看實時、歷史、每天/每小時的TOP SQL查詢,以及根據查詢的特徵進行實時告警,告警歷史查詢等等。

SQL查詢

運維人員在SQL運行效率慢或卡住的情況時,通常需要通過查看計算引擎的server、executor的jstack來排查此時引擎正在執行什麼任務,卡在了哪行代碼,定位線程長時間停頓的原因。雖然有一些性能分析工具可以幫助運維人員去排查問題,但是這類工具通常會給用戶展示大量的細節信息和數據,需要花費大量時間跟精力來優化可能並不重要的地方。

Insight Server引入了火焰圖(Flame Graphs),火焰圖以一個全局的視野列出所有可能導致性能瓶頸的調用棧,可以快速幫助運維人員查看函數執行的頻繁程度、哪些函數經常阻塞以及分析程序的性能瓶頸等等。

查看或下載執行器的jstack

數據庫管理功能

Aquila Insight 支持用戶查看當前集群中有哪些類型的數據庫和表,更直觀的為用戶實時展示當前數據庫與指定表的統計信息。並且針對部分組件(如ArgoDB,Slipstream、TimeLyre),Aquila Insight 提供完備的監控信息展示與統計,如支持流任務狀態查看和管理、任務指標查看、庫表信息查看、存儲健康狀態、讀寫情況展示、事務與鎖的情況等等。

當多個事務都需要對某一資源進行鎖定時,默認情況下會發生阻塞。被阻塞的請求會一直等待,直到原來的事務釋放相關的鎖。因此,監控SQL事務至關重要,通過精準定位到導致阻塞的SQL任務,用戶可以有針對性的對其進行監控,從而解決阻塞問題。

如下圖所示,Aquila Insight提供給了用戶一個可視化的事務監控圖,每個方塊代表一個PLSQL,其中a指向b,則表示SQL a涉及的事務在等待SQL b的事務。兩個橙色的節點表示導致整個SQL事務等待的關鍵SQL,由於耗時較久因此後面的事務被阻塞,用戶僅需針對這兩個SQL進行優化,即可解決其他事務阻塞的問題。

SQL事務監控

全棧覆蓋 跨級群統一監控運維

在多集群的場景下,如多雲, 數據庫兩地三中心,Aquila Insight支持用戶對多個集群進行統一監控運維。通過對接多個數據源,系統能夠將多個集群的運維數據匯總到一起,然後進行統一存儲,統一分析以及統一展示。

運維數據源管理

操作演示示例

為了方便您進一步了解Aquila Insight,以下從場景角度進行操作視頻演示:

演示場景:

  • 如何進入SQL監控頁面?
  • 如何查看正在運行、已完成、失敗的SQL?
  • 如何知道一個SQL更詳細的運行狀態?
  • 如何查看當前有哪些類型的數據庫和表?
  • 如何查看系統資源(CPU、內存、網絡)使用情況?
  • 如何查看更多的指標?
  • 如何自定義儀錶盤、面板?

//transwarp-ce-1253207870.cos.ap-shanghai.myqcloud.com/%E6%93%8D%E4%BD%9C%E6%BC%94%E7%A4%BA%E8%A7%86%E9%A2%91.mp4

此外,近期推出的Aquila Insight 9.1版本做了全新優化並新增了許多用戶友好的新功能,例如事件自動處理機制,規則與事件頁面支持10+規則觸發事件,系統自動執行指定動作例如alarm、kill等等,歡迎您上手操作體驗。

規則頁面

Tags: