分布式事务之【可靠消息】设计要点汇总
本文介绍分布式事务的另外一种解决方案:可靠消息最终一致性。
1、什么是可靠消息最终一致性?
可靠消息最终一致性方案是指当事务发起方执行完成本地事务后并发出一条消息,事务参与方(消息消费者)一定能 够接收消息并处理事务成功,此方案强调的是只要消息发给事务参与方最终事务要达到一致。
这里面有 2 个重点:
-
消息发送方本地事物执行成功之后,消息一定会投递成功 -
消息消费者最终也一定能够消费此消息,最终使分布式事务最终达成一致性
2、业务场景
电商中有这样的一个场景:商品下单之后,需给用户送积分,订单表和积分表分别在不同的 db 中,涉及到分布式事务的问题。
我们通过可靠消息来解决这个问题:
-
商品下单成功之后送积分的操作,我们使用 mq 来实现 -
商品下单成功之后,投递一条消息到 mq,积分系统消费消息,给用户增加积分
我们主要讨论一下,商品下单及投递消息到 mq 的操作,如何实现?每种方式优缺点?
3、方式一
3.1、过程
-
step1:开启本地事务 -
step2:生成购物订单 -
step3:投递消息到 mq -
step4:提交本地事务
这种方式是将发送消息放在了事务提交之前。
3.2、可能存在的问题
-
step3 发生异常:导致 step4 失败,商品下单失败,直接影响到商品下单业务 -
step4 发生异常,其他 step 成功:商品下单失败,消息投递成功,给用户增加了积分
4、方式二
下面我们换种方式,我们将发送消息放到事务之后进行。
4.1、过程
-
step1:开启本地事务 -
step2:生成购物订单 -
step3:提交本地事务 -
step4:投递消息到 mq
4.2、可能会出现的问题
step4 发生异常,其他 step 成功:导致商品下单成功,投递消息失败,用户未增加积分
上面两种是比较常见的做法,也是最容易出错的。
5、方式三
-
step1:开启本地事务 -
step2:生成购物订单 -
step3:本地库中插入一条需要发送消息的记录 t_msg_record -
step3:提交本地事务 -
step5:新增一个定时器,轮询 t_msg_record,将待发送的记录投递到 mq 中
这种方式借助了数据库的事务,业务和消息记录作为了一个原子操作,业务成功之后,消息日志必定是存在的。解决了前两种方式遇到的问题。如果我们的业务系统比较单一,可以采用这种方式。
对于微服务化的情况,上面这种方式不是太好,每个服务都需要上面的操作;也不利于扩展。
6、方式四
增加一个消息服务及消息库,负责消息的落库、将消息发送投递到 mq。
-
step1:开启本地事务 -
step2:生成购物订单 -
step3:当前事务库插入一条日志:生成一个唯一的业务 id(bus_id),将 bus_id 和订单关联起来保存到当前事务所在的库中 -
step4:调用消息服务:携带 bus_id,将消息先落地入库,此时消息的状态为待发送状态,返回消息 id(msg_id) -
step5:提交本地事务 -
step6:如果上面都成功,调用消息服务,将消息投递到 mq 中;如果上面有失败的情况,则调用消息服务取消消息的发送
能想到上面这种方式,已经算是有很大进步了,我们继续分析一下可能存在的问题:
-
系统中增加了一个消息服务,商品下单操作依赖于该服务,业务对该服务依赖性比较高,当消息服务不可用时,整个业务将不可用。 -
若 step6 失败,消息将处于待发送状态,此时业务方需要提供一个回查接口(通过 bus_id 查询),验证业务是否执行成功;消息服务需新增一个定时任务,对于状态为待发送状态的消息做补偿处理,检查一下业务是否处理成功;从而确定消息是投递还是取消发送 -
step4 依赖于消息服务,如果消息服务性能不佳,会导致当前业务的事务提交时间延长, 容易产生死锁,并导致并发性能降低。我们通常是比较忌讳在事务中做远程调用处理的,远程调用的性能和时间往往不可控,会导致当前事务变为一个大事务,从而引发其他故障。
7、方式五
在以上方式中,我们继续改进,进而出现了更好的一种方式:
-
step1:生成一个全局唯一业务消息 id(bus_msg_id),调用消息服务,携带 bus_msg_id,将消息先落地入库,此时消息的状态为待发送状态,返回消息 id(msg_id) -
step2:开启本地事务 -
step3:生成购物订单 -
step4:当前事务库插入一条日志(将 step3 中的业务和 bus_msg_id 关联起来) -
step5:提交本地事务 -
step6:分 2 种情况:如果上面都成功,调用消息服务,将消息投递到 mq 中;如果上面有失败的情况,则调用消息服务取消消息的发送
若 step6 失败,消息将处于待发送状态,此时业务方需要提供一个回查接口(通过 bus_msg_id 查询),验证业务是否执行成功;
消息服务需新增一个定时任务,对于状态为待发送状态的消息做补偿处理,检查一下业务是否处理成功;从而确定消息是投递还是取消发送。
方式五和方式四对比,比较好的一个地方:将调用消息服务,消息落地操作,放在了事务之外进行,这点小的改进其实算是一个非常好的优化,减少了本地事务的执行时间,从而可以提升并发量,阿里有个消息中间件RocketMQ就支持方式 5 这种,大家可以去用用。
8、关于消息消费的一些问题
如何解决重复消费的问题?
消费者轮循从 mq server 中拉取消息,然后进行消费。
消息消费者消费消息的过程
-
step1:从 mq 中拉取消息 -
step2:执行本地业务,比如增加积分操作 -
step3:消费完毕之后,将消息从 mq 中删掉
当 step2 成功,step3 失败之后,这个消息会再次从 mq 中拉取出来,会出现重复消费的问题,所以我们需要考虑消费的幂等性,同一条消息多次消费和一次消费产生的结果应该是一致的,关于幂等性是另外一个课题,下次会详说。
9、小结
本文介绍了通过可靠消息最终一致性来解决分布式事务的问题,这种方式比较实用于上游业务不关心下游业务结果的情况,且下游业务一定会成功的场景,关于上面 5 种方案的推导,大家多研究一下,有问题欢迎留言交流!