vlambda博客
学习文章列表

搭建MySQL主从集群,主从复制过程中同步延迟问题









上一节我们成功搭建了主从复制、读写分离,实际上并发量和数据量不大的情况下,使用起来也是非常的流畅,无任何问题,可以正常运行了


但是,要保证高可用,高并发的情况,可以写数据库master就有累了,从服务器slave读取数据也很累,在复制的过程中就产生了数据同步延迟问题,导致主服务器上有数据,从服务器没有数据情况,最终导致读写分离失效,访问数据失败。


有的网友就说我们可以升级主服务器的配置来解决,我说可以解决暂时的,一台服务器再怎么升级也有极限,如果使用多台服务器并且可以扩容的话,我们不是很好处理这个问题吗?


好了,我们这一节正要讲解同步延迟问题,解决掉数据同步延迟问题。


一、主从优势

其中Master主服务器负责写操作的负载,也就是说一切写的操作都在Master上,而读的操作则分摊到Slave从服务器上,这样一来的可以大大提高读取的效率


为什么要分离读和写呢?写操作涉及到锁的问题,不管是行锁还是表锁还是块锁,都是比较降低系统执行效率的事情。


我们这样的分离是把写操作集中在一个节点上,而读操作其他的N个节点上进行,有效的提高了读的效率,保证了系统的高可用性。


二、复制过程

1)、Mysql的主从同步就是当master(主库)发生数据变化的时候,会实时同步到slave(从库)。

2)、主从复制可以水平扩展数据库的负载能力,容错,高可用,数据备份。

3)、不管是delete、update、insert都是在master上,当master有操作的时候,slave会快速的接受到这些操作,从而做同步。搭建MySQL主从集群,主从复制过程中同步延迟问题


三、主从同步的延迟的原因:

(1)、主库延迟问题

当主库的TPS并发较高时,产生的DDL数量超过slave一个sql线程所能承受的范围,那么延时就产生了,当然还有就是可能与slave的大型query语句产生了锁等待。

首要原因:数据库在业务上读写压力太大,CPU计算负荷大,网卡负荷大,硬盘随机IO太高。

次要原因:读写binlog带来的性能影响,网络传输延迟。

(2)、从库同步延迟问题

1)、相关同步参数:首先在服务器上执行show slave satus;  

Master_Log_File:SLAVE中的I/O线程当前正在读取的主服务器二进制日志文件的名称
Read_Master_Log_Pos:在当前的主服务器二进制日志中,SLAVE中的I/O线程已经读取的位置

Relay_Log_File:SQL线程当前正在读取和执行的中继日志文件的名称
Relay_Log_Pos:在当前的中继日志中,SQL线程已读取和执行的位置
Relay_Master_Log_File:由SQL线程执行的包含多数近期事件的主服务器二进制日志文件的名称
Slave_IO_Running:I/O线程是否被启动并成功地连接到主服务器上
Slave_SQL_Running:SQL线程是否被启动
Seconds_Behind_Master:从属服务器SQL线程和从属服务器I/O线程之间的时间差距,单位以秒计。


● show slave status显示参数Seconds_Behind_Master不为0,这个数值可能会很大
● show slave status显示参数Relay_Master_Log_File和Master_Log_File显示bin-log的编号相差很大,说明bin-log在从库上没有及时同步,所以近期执行的bin-log和当前IO线程所读的bin-log相差很大

● mysql从库数据目录下存在大量mysql-relay-log日志,该日志同步完成之后就会被系统自动删除,存在大量日志,说明主从同步延迟很厉害。

2)、DDL的IO问题

DML和DDL的IO操作是随机的,不是顺序的,成本高很多,还可能slave上的其他查询产生lock争用,由于Slave_SQL_Running也是单线程的,所以一个DDL卡主了,需要执行10分钟,那么所有之后的DDL会等待这个DDL执行完才会继续执行,这就导致了延迟,比如:"主库上那个相同的DDL也需要执行5分钟,为什么slave会延时?",答案是master可以并发,Slave_SQL_Running线程却不可以。


四、主从同步的延迟的解决方案(重点):

1)、架构方面

1.业务的持久化层的实现采用分库架构,mysql服务可平行扩展,分散压力。

2.单个库读写分离,一主多从,主写从读,分散压力。这样从库压力比主库高,保护主库。

3.服务的基础架构在业务和mysql之间加入memcache或者redis的cache层。降低mysql的读压力。

4.不同业务的mysql物理上放在不同机器,分散压力。

2)、硬件方面

1.采用好服务器,比如4u比2u性能明显好,2u比1u性能明显好。2.存储用ssd或者盘阵或者san,提升随机写的性能。

3.主从间保证处在同一个交换机下面,并且是万兆环境。

总结,硬件强劲,延迟自然会变小。一句话,缩小延迟的解决方案就是花钱和花时间。

3)、mysql主从同步加速

1、sync_binlog在slave端设置为0

2、logs-slave-updates 从服务器从主服务器接收到的更新不记入它的二进制日志。

3、直接禁用slave端的binlog

4、slave端,如果使用的存储引擎是innodb,设置innodb_flush_log_at_trx_commit =2

4)、磁盘IO上操作

从文件系统本身属性角度优化master端修改linux、Unix文件系统中文件的etime属性, 由于每当读文件时OS都会将读取操作发生的时间回写到磁盘上,对于读操作频繁的数据库文件来说这是没必要的,只会增加磁盘系统的负担影响I/O性能。

五、主从同步的延迟的解决数据一致性方案:

1)、主从复制存在的问题:  

●主库宕机后,数据可能丢失  

●从库只有一个sql Thread,主库写压力大,复制很可能延时

2)、解决方法:  

● 半同步复制---解决数据丢失的问题 

● 并行复制----解决从库复制延迟的问题

3)、半同步复制mysql semi-sync(半同步复制)半同步复制 

● 确保事务提交后binlog至少传输到一个从库  

● 不保证从库应用完这个事务的binlog  

● 性能有一定的降低,响应时间会更长  

● 网络异常或从库宕机,卡主主库,直到超时或从库恢复

4)、主从复制--异步复制原理、半同步复制和并行复制原理比较

a、异步复制原理

搭建MySQL主从集群,主从复制过程中同步延迟问题

(图片来源于网络)

b、半同步复制原理

搭建MySQL主从集群,主从复制过程中同步延迟问题

(图片来源于网络)

事务在主库写完binlog后需要从库返回一个已接受,才放回给客户端;确保事务提交后binlog至少传输到一个从库不保证从库应用完成这个事务的binlog性能有一定的降低网络异常或从库宕机,卡主库,直到超时或从库恢复、mysql并行复制 。

总  结

以上写了那么多内容,主要查找主服务器和从服务器之间的问题,因为数据同步的过程就是服务器之间的数据传输,所以,我们需要把观察问题所在,才好更好的解决问题,把数据延迟问题解决掉。