Snova運維篇(五):snova平台監控告警的使用

  • 2019 年 12 月 26 日
  • 筆記

本節主要從監控告警的角度,深入了解騰訊雲snova平台的監控機制和策略。完善的告警系統,能夠獲取當前服務端snova的運行情況,當snova某個指標波動超過正常閾值時進行警報提示,以及時止損,保證平台穩定運行和故障修復的及時介入。

目錄:

  1. 告警系統概覽
  2. 配置告警策略

基本概念:

IOPS

每秒磁盤IO的讀寫次數

吞吐量

每秒磁盤 I/O 的流量,即磁盤寫入加上讀出的數據的大小。


1.告警系統概覽

  • 監控地址:用戶控制台點擊snova進入 https://console.cloud.tencent.com/snova
  • 點擊集群名稱進入詳細頁面,選擇性能監控
  • 參數詳解:

名稱

釋義

cpu利用率

又稱CPU使用率。顧名思義,CPU利用率是來描述CPU的使用情況,表明了一段時間內CPU被佔用的情況。

內存利用率

%

網絡接收吞吐量

MB/s 流入網卡

網絡輸出層吞吐量

MB/s 流出網卡

寫入IOPS

count/s

讀取IOPS

count/s

磁盤空間使用率

%

讀取吞吐量

MB/s

寫入吞吐量

MB/s

讀取延時

ms

寫入延時

ms

連接數

  • 時間粒度

2.配置告警策略

  • 搜索雲監控
  • 選擇告警策略並新增
  • 新增策略 綁定對象 配置觸發條件 添加告警渠道

未完待續;