故障的机器修好后重启,狂拉主库binlog,导致网络问题,造成一定影响
发表于:2025-11-07 作者:千家信息网编辑
千家信息网最后更新 2025年11月07日,本文主要记录一次简单的、典型的故障,发生问题的原因很简单,这个问题发生也很简单,各位同学一定要注意,一不留神就会对主库造成影响。欢迎转载,请注明作者、出处。作者:张正 blog:http://spac
千家信息网最后更新 2025年11月07日故障的机器修好后重启,狂拉主库binlog,导致网络问题,造成一定影响本文主要记录一次简单的、典型的故障,发生问题的原因很简单,这个问题发生也很简单,各位同学一定要注意,一不留神就会对主库造成影响。
问题简述: 一周前,有一台mysql服务器发生硬件故障,停机了。我们给专门负责这块的同学提交了申请,他们负责去报修这台服务器。今天这台服务器修好后,他们将其开机启动。服务器上的4个mysql实例在开机后自动启动,开始拉主库的binlog。由于这台服务器停机时间比较久,日志丢的比较多,狂拉主库的binlog,导致主库网络出现问题。
现象:
首先,我们完全没有意识到是因为一台坏掉的服务器重启拉主库binlog导致的,因为我们压根不知道 这台服务器什么情况,只知道1周前,我们报修了1台服务器。具体什么情况,有没有修好,有没有开机,我们完全不知道。 在这样的情况下,忽然听到网络的同学说mysql有一台机器网络流量过大,导致业务感觉很慢,总共持续了17分钟。其实这样,是没有多大头绪的。
排查:
查看processlist、全日志、慢日志都没有发现有什么问题。
查看监控,发现那段时间的服务器的读IO骤然升高。 通过查看processlist的历史记录,发现有一段时间,主从复制的用户 状态是 waiting for net,通过其IP发现该服务器是1周前坏掉的一个slave服务器。
结论: 这台服务器上有4个实例,服务器启动后,mysql实例自动启动,开始向主库上拉binlog,每个主库每天的binlog量大概6G,4个实例1个星期大概160多G的binlog。
问题: 1、坏掉的服务器什么时候修好,什么时候开机,我们不可控,也不知道,也没有关注 2、这种案例其实是很简单、很典型的可能造成影响或故障的case,我们提前没有对这个现象有警觉,虽然知道这是个很容易出现的问题,但是在我们的case中,完全没有这方面的意识。因此导致该事件发生 3、对于网络流量这块,缺乏有效监控
解决方法: 1、所有服务器,取消开机自动启动mysql,服务器开机后,人为启动实例,停slave。(这样,如果服务器很多,可能过于麻烦,暂且先这样记录下来,总比造成影响强) 2、意识到该问题,将该问题纳入避免问题的常识库或工作手册中去。
欢迎转载,请注明作者、出处。
作者:张正 blog:http://space.itpub.net/26355921 QQ:176036317 如有疑问,欢迎联系。问题简述: 一周前,有一台mysql服务器发生硬件故障,停机了。我们给专门负责这块的同学提交了申请,他们负责去报修这台服务器。今天这台服务器修好后,他们将其开机启动。服务器上的4个mysql实例在开机后自动启动,开始拉主库的binlog。由于这台服务器停机时间比较久,日志丢的比较多,狂拉主库的binlog,导致主库网络出现问题。
现象:
首先,我们完全没有意识到是因为一台坏掉的服务器重启拉主库binlog导致的,因为我们压根不知道 这台服务器什么情况,只知道1周前,我们报修了1台服务器。具体什么情况,有没有修好,有没有开机,我们完全不知道。 在这样的情况下,忽然听到网络的同学说mysql有一台机器网络流量过大,导致业务感觉很慢,总共持续了17分钟。其实这样,是没有多大头绪的。
排查:
查看processlist、全日志、慢日志都没有发现有什么问题。
查看监控,发现那段时间的服务器的读IO骤然升高。 通过查看processlist的历史记录,发现有一段时间,主从复制的用户 状态是 waiting for net,通过其IP发现该服务器是1周前坏掉的一个slave服务器。
结论: 这台服务器上有4个实例,服务器启动后,mysql实例自动启动,开始向主库上拉binlog,每个主库每天的binlog量大概6G,4个实例1个星期大概160多G的binlog。
问题: 1、坏掉的服务器什么时候修好,什么时候开机,我们不可控,也不知道,也没有关注 2、这种案例其实是很简单、很典型的可能造成影响或故障的case,我们提前没有对这个现象有警觉,虽然知道这是个很容易出现的问题,但是在我们的case中,完全没有这方面的意识。因此导致该事件发生 3、对于网络流量这块,缺乏有效监控
解决方法: 1、所有服务器,取消开机自动启动mysql,服务器开机后,人为启动实例,停slave。(这样,如果服务器很多,可能过于麻烦,暂且先这样记录下来,总比造成影响强) 2、意识到该问题,将该问题纳入避免问题的常识库或工作手册中去。
服务器
服务
问题
实例
网络
修好
故障
影响
同学
情况
意识
日志
时间
作者
典型
时候
流量
现象
监控
机器
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
校园网络安全的特点
阿里云网络安全事件
服务器稳定性 安全性
小学生网络安全主题班会会标
nginx 服务器挂了
国家可再生能源数据库
数据库 创建表结构图
英语作文网络安全100
腾讯校招网络安全
阿里云服务器如何连接上去
数据库permit
我的世界服务器欢乐村地址
网浪网络技术有限公司苏州
plsql能连上数据库
公司电脑需要服务器么
vue 本地调试服务器
给软件开发公司的感谢信
网络安全与管理教程
韩国国家网络安全战略解读
电视剧网络安全比赛
深圳市呼市网络技术有限公司
安卓两个窗体共用一个数据库
数据库如何控制数据并发
顺德锐思软件开发
阿里服务器软件打不开网页
qq空间留言时服务器繁忙
从事软件开发需要会什么
互联网科技改变未来演讲
青浦区口碑好的软件开发诚信合作
DNS服务器实验报告心得