阿里巴巴 Sentinel + InfluxDB + Chronograf 實現監控大屏

  • 2019 年 10 月 3 日
  • 筆記

前言

在上一篇推文中,我們使用時序資料庫 InfluxDb 做了流控數據存儲,但是數據存儲不是目的,分析監控預警才是最終目標,那麼問題來了,如何更好的實現呢?用過阿里巴巴 Sentinel 控制台的小夥伴,是不是覺得它的控制台丑爆了,而且只有短短的五厘米,顯然不能滿足大部分人或者場景的使用。

架構

工具

  • sentinel-dashboard(控制台,收集數據)
  • Influxdb(時序資料庫,存儲數據)
  • Chronograf (展示控制台,顯示數據並實現預警)

安裝

Sentinel 控制台 和 時序資料庫 Influxdb 的安裝方式前面已經聊過,這裡不再贅述,簡單說下 Chronograf 展示控制台的安裝方式,這裡推薦使用 Docker 安裝方式。

$ docker run -p 8888:8888         -v $PWD:/var/lib/chronograf         chronograf

安裝成功以後,瀏覽器訪問 http://ip:8888 你應該看到一個歡迎頁面:

然後,自行配置數據源,根據業務場景組裝監控大屏。

大屏

這裡根據 Sentinel 限流組件採集的數據,組裝了一個簡單的監控大屏,可以監控歷史訪問總量、最近一小時的訪問量、限流數以及最近幾分鐘或者幾小時的訪問曲線等等,相比於阿里演示版是不是瞬間高大上的些許。

總訪問量

SELECT SUM("successQps") AS "總訪問量" FROM "sentinel_log"."autogen"."sentinelInfo"

最近一小時訪問量

SELECT SUM("successQps") AS "訪問量"  FROM "sentinel_log"."autogen"."sentinelInfo"  WHERE TIME > NOW() - 1h

最近一小時限流數

SELECT SUM("blockQps") AS "限流數"  FROM "sentinel_log"."autogen"."sentinelInfo"  WHERE time > now() - 1h

最近一小時異常數

SELECT SUM("exceptionQps") AS "異常數"  FROM "sentinel_log"."autogen"."sentinelInfo"  WHERE time > now() - 1h

最近一小時的訪問趨勢圖(秒級別)

SELECT SUM("successQps") AS "訪問量"  FROM "sentinel_log"."autogen"."sentinelInfo"  WHERE time > now() - 1h  GROUP BY time(1s)

最近12小時資源訪問排名

SELECT SUM("successQps") AS "成功qps", SUM("blockQps") AS "限流qps"  FROM "sentinel_log"."autogen"."sentinelInfo"  WHERE time > now() - 12h  GROUP BY resource

預警

後期我們在 Chronograf 中接入 Kapacitor ,Chronograf會自動打開該Configure Alert Endpoints部分,Kapacitor支援多個警報端點/事件處理程式。有興趣的小夥伴也可以在 Sentinel 控制台中根據流控數據進行更智慧化的設置,比如根據限流失敗數以及機器指標動態調整流控規則。

小結

有了她,小哥哥、小姐姐們再也不用擔心凌晨一點的鬧鐘了,是不是很爽?以上只是冰山一角,目前我們上線的監控系統平台,通過各種第三方組件庫(Telegraf、InfluxDB、Chronograf、Kapacitor、Grafana、Prometheus、Consul、Elasticsearch、Kibana),接入了 1000 台伺服器實時監控,200個監控大屏,上千個監控指標,每日處理成噸的數據。是不是很吊!?我唧唧都佩服我自己的想像力。

源碼

https://gitee.com/52itstyle/sentinel-dashboard

參考

https://hub.docker.com/_/chronograf