RocketMQ/Kafka監控項整理【實戰筆記】
- 2019 年 11 月 7 日
- 筆記
目錄
六、消費客戶端監控項
一、系統監控項
1.CPU
CPU使用率、CPU Load
2.記憶體
記憶體使用率
3.磁碟
磁碟使用率、磁碟IO、磁碟IOWAIT
4.頻寬
頻寬檢測
5.實例存活
集群實例是否存活、實例埠是否可達
6.JVM監控
堆記憶體、Full GC時間等
二、集群監控項
1.集群節點數量
註:比如RocketMQ集群中有4主4從;當Master節點數量小於4時
2.集群節點可用性
註:檢測集群節點是否可達以及RT Time
3.集群寫入TPS
註:例如集群寫入TPS壓測值的40%
4.集群消費TPS
註:集群消費TPS需關注頻寬及CPU
5.集群寫入TPS變化率
註:例如5分鐘內集群TPS陡增30%
6.集群寫入TPS變化率
註:例如5分鐘內集群TPS陡增30%
7.集群日消息總量的變化
註:例如集群中每日的消息總量監控
8.Broker寫入/消費TPS
註:單節點的寫入/消費TPS
三、主題監控項
1.主題寫入TPS
註:單一主題的寫入速率
2.主題寫入TPS的變化率
註:例如某一主題5分鐘內速率陡增30%
3.主題日消息量
註:例如單一主題每日消息量
4.死信隊列監控
註:RocketMQ被丟入死信隊列的消息監控
四、消費組監控項
1.消費積壓
註:積壓量的監控
2.消費TPS
註:消費速率監控
3.消費阻塞
註:消費者隔特定時間未消費數據
4.消費速率變化
註:例如5分鐘之內消費速率陡降了30%
五、發送客戶端監控項
1.發送消息體大小變化
註:發送消息的大小在小於1K、1~2K、大於5K等的分布
2.發送耗時變化
註:單節點消息發送在不通時間範圍內的分布
3.發送速率變化
註:單個發送節點速率變化
4.發送成功失敗分布
註:消息發送成功/失敗分布情況
六、消費客戶端監控項
1.消費速率變化
註:單節點速率變化
2.消費耗時變化
註:單節點發送耗時分布情況
3.消費成功失敗分布
註:單節點消費成功失敗的分布情況
七、系列文章