TiDB Binlog 集群监控

使用 Ansible 成功部署 TiDB Binlog 集群后，可以进入 Grafana Web 界面（默认地址: http://grafana_ip:3000，默认账号：admin，密码：admin）查看 Pump 和 Drainer 的运行状态。

监控指标

Pump

metric名称	说明
StorageSize	记录磁盘的总空间大小(capacity)，以及可用磁盘空间大小(available)
Metadata	记录每个Pump的可删除binlog的最大tso(gc_tso)，以及保存的binlog的最大的committso(max_commit_tso)。
WriteBinlogQPSbyInstance	每个Pump接收到的写binlog请求的QPS
WriteBinlogLatency	记录每个Pump写binlog的延迟时间
StorageWriteBinlogSize	Pump写binlog数据的大小
StorageWriteBinlogLatency	Pump中的storage模块写binlog数据的延迟
PumpStorageErrorByType	Pump遇到的error数量，按照error的类型进行统计
QueryTiKV	Pump通过TiKV查询事务状态的次数

Drainer

metric名称	说明
CheckpointTSO	Drainer已经同步到下游的binlog的最大TSO对应的时间。可以通过该指标估算同步延迟时间
PumpHandleTSO	记录Drainer从各个Pump获取到的binlog的最大TSO对应的时间	PullBinlogQPSbyPumpNodeID	Drainer从每个Pump获取binlog的QPS
95%BinlogReachDurationByPump	记录binlog从写入Pump到被Drainer获取到这个过程的延迟时间
ErrorByType	Drainer遇到的error数量，按照error的类型进行统计
DrainerEvent	各种类型event的数量，event包括ddl、insert、delete、update、flush、savepoint
ExecuteTime	在下游执行SQL语句或写数据所消耗的时间
95%BinlogSize	Drainer从各个Pump获取到binlog数据的大小
DLJobCount	Drainer处理的DDL的数量

监控告警规则

Emergency

binlog_pump_storage_error_count

含义：Pump 写 binlog 到本地存储时失败
监控规则：changes(binlog_pump_storage_error_count[1m]) > 0
处理方法：先确认 pump_storage_error 监控是否存在错误，查看 Pump 日志确认原因

Critical

binlog_drainer_checkpoint_high_delay

含义：Drainer 同步落后延迟超过 1 个小时
监控规则：(time() - binlog_drainer_checkpoint_tso / 1000) > 3600
处理方法：
判断从 Pump 获取数据是否太慢：

监控 Pump handle tso 可以看每个 Pump 最近一条消息的时间，是不是有延迟特别大的 Pump，确认对应 Pump 正常运行

根据 Drainer event 和 Drainer execute latency 来判断是否下游同步太慢：
如果 Drainer execute time 过大，则检查到目标库网络带宽和延迟，以及目标库状态
如果 Drainer execute time 不大，Drainer event 过小，则增加 work count 和 batch 进行重试
上面都不满足或者操作后没有改观，则报备开发 support@pingcap.com 进行处理

Warning

binlog_pump_write_binlog_rpc_duration_seconds_bucket

含义：Pump 处理 TiDB 写 Binlog 请求耗时过大
监控规则：histogram_quantile(0.9, rate(binlog_pump_rpc_duration_seconds_bucket{method=”WriteBinlog”}[5m])) > 1
处理方法：
确认磁盘性能压力，通过 node exported 查看 disk performance 监控
如果 disk latency 和 util 都很低，那么报备研发 support@pingcap.com 处理

binlog_pump_storage_write_binlog_duration_time_bucket

含义：Pump 写本地 binlog 到本地盘的耗时
监控规则：histogram_quantile(0.9, rate(binlog_pump_storage_write_binlog_duration_time_bucket{type=”batch”}[5m])) > 1
处理方法：确认 Pump 本地盘情况，进行修复

binlog_pump_storage_available_size_less_than_20G

含义：Pump 剩余可用磁盘空间不足 20G
监控规则：binlog_pump_storage_storage_size_bytes{type=”available”} < 20 1024 1024 * 1024
处理方法：监控确认 Pump gc_tso 正常，需要的话调整 Pump gc 时间配置或者下线对应 Pump

binlog_drainer_checkpoint_tso_no_change_for_1m

含义：Drainer checkpoint 一分钟没有更新
监控规则：changes(binlog_drainer_checkpoint_tso[1m]) < 1
处理方法：确认是否所有非下线 Pump 正常运行

binlog_drainer_execute_duration_time_more_than_10s

含义：Drainer 同步到 TiDB 的 transaction 耗时，如果过大则影响 Drainer 同步
监控规则：histogram_quantile(0.9, rate(binlog_drainer_execute_duration_time_bucket[1m])) > 10
处理方法：
查看 TiDB cluster 状态情况
查看 Drainer 日志或监控，如果是 DDL 则忽略

阅读全文

看完两件小事

如果你觉得这篇文章对你挺有启发，我想请你帮我两个小忙：

关注我们的 GitHub 博客，让我们成为长期关系
把这篇文章分享给你的朋友 / 交流群，让更多的人看到，一起进步，一起成长！
关注公众号 「方志朋」，公众号后台回复「资源」免费领取我精心整理的前端进阶资源教程

JS中文网是中国领先的新一代开发者社区和专业的技术媒体,一个帮助开发者成长的社区，目前已经覆盖和服务了超过 300 万开发者，你每天都可以在这里找到技术世界的头条内容。欢迎热爱技术的你一起加入交流与学习,JS中文网的使命是帮助开发者用代码改变世界

TiDB Binlog 集群监控

TiDB Binlog 集群监控

监控指标

Pump

Drainer

监控告警规则

Emergency

binlog_pump_storage_error_count

Critical

binlog_drainer_checkpoint_high_delay

Warning

binlog_pump_write_binlog_rpc_duration_seconds_bucket

binlog_pump_storage_write_binlog_duration_time_bucket

binlog_pump_storage_available_size_less_than_20G

binlog_drainer_checkpoint_tso_no_change_for_1m

binlog_drainer_execute_duration_time_more_than_10s

看完两件小事

results matching ""

No results matching ""