TiDB Binlog 集群监控
使用 Ansible 成功部署 TiDB Binlog 集群后,可以进入 Grafana Web 界面(默认地址: http://grafana_ip:3000,默认账号:admin,密码:admin)查看 Pump 和 Drainer 的运行状态。
监控指标
Pump
metric名称 | 说明 |
---|---|
StorageSize | 记录磁盘的总空间大小(capacity),以及可用磁盘空间大小(available) |
Metadata | 记录每个Pump的可删除binlog的最大tso(gc_tso),以及保存的binlog的最大的committso(max_commit_tso)。 |
WriteBinlogQPSbyInstance | 每个Pump接收到的写binlog请求的QPS |
WriteBinlogLatency | 记录每个Pump写binlog的延迟时间 |
StorageWriteBinlogSize | Pump写binlog数据的大小 |
StorageWriteBinlogLatency | Pump中的storage模块写binlog数据的延迟 |
PumpStorageErrorByType | Pump遇到的error数量,按照error的类型进行统计 |
QueryTiKV | Pump通过TiKV查询事务状态的次数 |
Drainer
metric名称 | 说明 | |||
---|---|---|---|---|
CheckpointTSO | Drainer已经同步到下游的binlog的最大TSO对应的时间。可以通过该指标估算同步延迟时间 | |||
PumpHandleTSO | 记录Drainer从各个Pump获取到的binlog的最大TSO对应的时间 | PullBinlogQPSbyPumpNodeID | Drainer从每个Pump获取binlog的QPS | |
95%BinlogReachDurationByPump | 记录binlog从写入Pump到被Drainer获取到这个过程的延迟时间 | |||
ErrorByType | Drainer遇到的error数量,按照error的类型进行统计 | |||
DrainerEvent | 各种类型event的数量,event包括ddl、insert、delete、update、flush、savepoint | |||
ExecuteTime | 在下游执行SQL语句或写数据所消耗的时间 | |||
95%BinlogSize | Drainer从各个Pump获取到binlog数据的大小 | |||
DLJobCount | Drainer处理的DDL的数量 |
监控告警规则
Emergency
binlog_pump_storage_error_count
- 含义:Pump 写 binlog 到本地存储时失败
- 监控规则:changes(binlog_pump_storage_error_count[1m]) > 0
- 处理方法:先确认 pump_storage_error 监控是否存在错误,查看 Pump 日志确认原因
Critical
binlog_drainer_checkpoint_high_delay
- 含义:Drainer 同步落后延迟超过 1 个小时
- 监控规则:(time() - binlog_drainer_checkpoint_tso / 1000) > 3600
处理方法:
判断从 Pump 获取数据是否太慢:
监控 Pump handle tso 可以看每个 Pump 最近一条消息的时间,是不是有延迟特别大的 Pump,确认对应 Pump 正常运行
根据 Drainer event 和 Drainer execute latency 来判断是否下游同步太慢:
如果 Drainer execute time 过大,则检查到目标库网络带宽和延迟,以及目标库状态
- 如果 Drainer execute time 不大,Drainer event 过小,则增加 work count 和 batch 进行重试
- 上面都不满足或者操作后没有改观,则报备开发 support@pingcap.com 进行处理
Warning
binlog_pump_write_binlog_rpc_duration_seconds_bucket
- 含义:Pump 处理 TiDB 写 Binlog 请求耗时过大
- 监控规则:histogram_quantile(0.9, rate(binlog_pump_rpc_duration_seconds_bucket{method=”WriteBinlog”}[5m])) > 1
处理方法:
确认磁盘性能压力,通过 node exported 查看 disk performance 监控
- 如果 disk latency 和 util 都很低,那么报备研发 support@pingcap.com 处理
binlog_pump_storage_write_binlog_duration_time_bucket
- 含义:Pump 写本地 binlog 到本地盘的耗时
- 监控规则:histogram_quantile(0.9, rate(binlog_pump_storage_write_binlog_duration_time_bucket{type=”batch”}[5m])) > 1
- 处理方法:确认 Pump 本地盘情况,进行修复
binlog_pump_storage_available_size_less_than_20G
- 含义:Pump 剩余可用磁盘空间不足 20G
- 监控规则:binlog_pump_storage_storage_size_bytes{type=”available”} < 20 1024 1024 * 1024
- 处理方法:监控确认 Pump gc_tso 正常,需要的话调整 Pump gc 时间配置或者下线对应 Pump
binlog_drainer_checkpoint_tso_no_change_for_1m
- 含义:Drainer checkpoint 一分钟没有更新
- 监控规则:changes(binlog_drainer_checkpoint_tso[1m]) < 1
- 处理方法:确认是否所有非下线 Pump 正常运行
binlog_drainer_execute_duration_time_more_than_10s
- 含义:Drainer 同步到 TiDB 的 transaction 耗时,如果过大则影响 Drainer 同步
- 监控规则:histogram_quantile(0.9, rate(binlog_drainer_execute_duration_time_bucket[1m])) > 10
处理方法:
查看 TiDB cluster 状态情况
- 查看 Drainer 日志或监控,如果是 DDL 则忽略
看完两件小事
如果你觉得这篇文章对你挺有启发,我想请你帮我两个小忙:
- 把这篇文章分享给你的朋友 / 交流群,让更多的人看到,一起进步,一起成长!
- 关注公众号 「方志朋」,公众号后台回复「资源」 免费领取我精心整理的前端进阶资源教程