­

RocketMQ/Kafka監控項整理【實戰筆記】

  • 2019 年 11 月 7 日
  • 筆記
目錄
六、消費客戶端監控項

一、系統監控項

1.CPU

CPU使用率、CPU Load

2.記憶體

記憶體使用率

3.磁碟

磁碟使用率、磁碟IO、磁碟IOWAIT

4.頻寬

頻寬檢測

5.實例存活

集群實例是否存活、實例埠是否可達

6.JVM監控

堆記憶體、Full GC時間等

二、集群監控項

1.集群節點數量

註:比如RocketMQ集群中有4主4從;當Master節點數量小於4時

2.集群節點可用性

註:檢測集群節點是否可達以及RT Time

3.集群寫入TPS

註:例如集群寫入TPS壓測值的40%

4.集群消費TPS

註:集群消費TPS需關注頻寬及CPU

5.集群寫入TPS變化率

註:例如5分鐘內集群TPS陡增30%

6.集群寫入TPS變化率

註:例如5分鐘內集群TPS陡增30%

7.集群日消息總量的變化

註:例如集群中每日的消息總量監控

8.Broker寫入/消費TPS

註:單節點的寫入/消費TPS

三、主題監控項
1.主題寫入TPS

註:單一主題的寫入速率

2.主題寫入TPS的變化率

註:例如某一主題5分鐘內速率陡增30%

3.主題日消息量

註:例如單一主題每日消息量

4.死信隊列監控

註:RocketMQ被丟入死信隊列的消息監控

四、消費組監控項
1.消費積壓

註:積壓量的監控

2.消費TPS

註:消費速率監控

3.消費阻塞

註:消費者隔特定時間未消費數據

4.消費速率變化

註:例如5分鐘之內消費速率陡降了30%

五、發送客戶端監控項
1.發送消息體大小變化

註:發送消息的大小在小於1K、1~2K、大於5K等的分布

2.發送耗時變化

註:單節點消息發送在不通時間範圍內的分布

3.發送速率變化

註:單個發送節點速率變化

4.發送成功失敗分布

註:消息發送成功/失敗分布情況

六、消費客戶端監控項
1.消費速率變化

註:單節點速率變化

2.消費耗時變化

註:單節點發送耗時分布情況

3.消費成功失敗分布

註:單節點消費成功失敗的分布情況

七、系列文章

RocketMQ生產環境配置【實戰筆記】

RocketMQ性能測試【實戰筆記】

RocketMQ性能優化【實戰筆記】

RocketMQ同步複製性能優化【實戰筆記】

Kafka集群平滑擴容及Leader均衡【實戰筆記】