4-kafka监控模板
实例规格
集群流量 = 业务流量 + 集群内副本复制流量,该规格实际业务读流量处理峰值为 240 MB/s,业务写流量处理峰值为 80 MB/s。
实例级别
监控指标项 | 周期 | 持续周期 | 操作符 | 阈值 | 单位 | 级别 | 沉默周期 |
---|---|---|---|---|---|---|---|
实例消息生产量 | 5分钟 | 1 | >= | 80 | Mbytes/s | 严重 | 5分钟 |
实例消息生产量 | 5分钟 | 1 | >= | 80*0.8=64 | Mbytes/s | 警告 | 5分钟 |
实例消息消费量 | 5分钟 | 1 | >= | 240 | Mbytes/s | 严重 | 5分钟 |
实例消息消费量 | 5分钟 | 1 | >= | 240*0.8=192 | Mbytes/s | 警告 | 5分钟 |
实例磁盘使用率 | 5分钟 | 1 | >= | 95 | % | 提醒 | 5分钟 |
关键业务线Kafka流量监控
以上线的关键业务,避免资损,细粒度监控
topic级别
因为不同业务对应topic的量值都有不同区间,待业务稳定,与业务相关人员了解流量峰值,发布上线之后配置关键业务监控,不同topic分别设置
监控指标项 | 周期 | 持续周期 | 操作符 | 阈值 | 单位 | 级别 | 沉默周期 |
---|---|---|---|---|---|---|---|
Topic消息生产条数 | 1分钟 | 5 | >= | n倍业务峰值,eg:8000 | 个/s | 警告 | 5分钟 |
Topic消息生产量 | 1分钟 | 5 | >= | n倍业务峰值,eg:8000 | Mbytes/s | 警告 | 5分钟 |
consumer级别
根据不同的topic的 消息数/s以及消费端提交offset的间隔,待业务稳定,与业务相关人员了解流量峰值,发布上线之后配置关键业务监控,不同Consumer group分别设置
监控指标项 | 周期 | 持续周期 | 操作符 | 阈值 | 单位 | 级别 | 沉默周期 |
---|---|---|---|---|---|---|---|
ConsumerGroup未消费此Topic消息数 | 1分钟 | 5 | >= | 正常1.5倍,eg:15000 | 个/s | 警告 | 5分钟 |
ConsumerGroup未消费此Topic消息数 | 1分钟 | 5 | >= | 正常2倍,eg:20000 | 个/s | 严重 | 5分钟 |