实例规格

集群流量 = 业务流量 + 集群内副本复制流量,该规格实际业务读流量处理峰值为 240 MB/s,业务写流量处理峰值为 80 MB/s。

实例级别

监控指标项 周期 持续周期 操作符 阈值 单位 级别 沉默周期
实例消息生产量 5分钟 1 >= 80 Mbytes/s 严重 5分钟
实例消息生产量 5分钟 1 >= 80*0.8=64 Mbytes/s 警告 5分钟
实例消息消费量 5分钟 1 >= 240 Mbytes/s 严重 5分钟
实例消息消费量 5分钟 1 >= 240*0.8=192 Mbytes/s 警告 5分钟
实例磁盘使用率 5分钟 1 >= 95 % 提醒 5分钟

关键业务线Kafka流量监控

以上线的关键业务,避免资损,细粒度监控

topic级别

因为不同业务对应topic的量值都有不同区间,待业务稳定,与业务相关人员了解流量峰值,发布上线之后配置关键业务监控,不同topic分别设置

监控指标项 周期 持续周期 操作符 阈值 单位 级别 沉默周期
Topic消息生产条数 1分钟 5 >= n倍业务峰值,eg:8000 个/s 警告 5分钟
Topic消息生产量 1分钟 5 >= n倍业务峰值,eg:8000 Mbytes/s 警告 5分钟

consumer级别

根据不同的topic的 消息数/s以及消费端提交offset的间隔,待业务稳定,与业务相关人员了解流量峰值,发布上线之后配置关键业务监控,不同Consumer group分别设置

监控指标项 周期 持续周期 操作符 阈值 单位 级别 沉默周期
ConsumerGroup未消费此Topic消息数 1分钟 5 >= 正常1.5倍,eg:15000 个/s 警告 5分钟
ConsumerGroup未消费此Topic消息数 1分钟 5 >= 正常2倍,eg:20000 个/s 严重 5分钟