分布式事务之基本概念(CAP理论与BASE理论)
1. 基础概念
1.1. 什么是事务
1.2. 本地事务
在计算机系统中,事务主要通过关系数据库来控制,关系数据库是利用数据库本身的事务特性来实现的,因此被称为数据库事务。由于应用程序主要依赖关系数据库来控制事务,并且数据库通常与应用程序位于同一服务器上,因此基于关系数据库的事务也称为本地事务。
回顾一下数据库事务的四大特性 ACID:
A(Atomic):原子性,原子性意味着构成事务的所有操作要么完成,要么根本不执行。部分成功和部分失败是不可能的。
C(Consistency):一致性,在事务前后,数据库的一致性约束不会被打破。例如,如果张三向李四转账100元,转账前后的数据都是正确的,这称为一致性。如果张三转出100元,而李四的账户没有增加100元,则存在数据错误,无法实现一致性。
I(Isolation):隔离性,数据库中的事务通常是并发的。隔离意味着两个并发事务的执行不会相互干扰。一个事务无法看到其他事务的运行进程的中间状态。通过配置事务隔离级别,可以避免脏读和重复读等问题。
D(Durability):持久性,事务完成后,事务所做的数据更改将持久化到数据库中,并且不会回滚。
1.3. 分布式事务
begin transaction;
//1.本地数据库操作:张三减少金额
//2.本地数据库操作:李四增加金额
commit transation;
但是在分布式环境下,会变成下边这样:
begin transaction;
//1.本地数据库操作:张三减少金额
//2.远程调用:让李四增加金额
commit transation;
1.4 分布式事务产生的场景
1、典型的场景就是微服务架构 微服务之间通过远程调用完成事务操作。比如:订单微服务和库存微服务,下单的同时订单微服务请求库存微服务减库存。简言之:跨JVM进程产生分布式事务。
2、单体系统访问多个数据库实例 当单体系统需要访问多个数据库(实例)时就会产生分布式事务。 比如:用户信息和订单信息分别在两个MySQL实例存储,用户管理系统删除用户信息,需要分别删除用户信息及用户的订单信息,由于数据分布在不同的数据实例,需要通过不同的数据库链接去操作数据,此时产生分布式事务。 简言之:跨数据库实例产生分布式事务。
3、多服务访问同一个数据库实例 比如:订单微服务和库存微服务即使访问同一个数据库也会产生分布式事务,原因就是跨JVM进程,两个微服务持有了不同的数据库链接进行数据库操作,此时产生分布式事务。
2. 分布式事务基础理论
2.1. CAP理论
2.1.1. 理解CAP
下边我们分别来解释:
整体执行流程如下:
1、商品服务请求主数据库写入商品信息(添加商品、修改商品、删除商品)
2、主数据库向商品服务响应写入成功。
3、商品服务请求从数据库读取商品信息。
C - Consistency:
上图中,商品信息的读写要满足一致性就是要实现如下目标:
1、商品服务写入主数据库成功,则向从数据库查询新数据也成功。
2、商品服务写入主数据库失败,则向从数据库查询新数据也失败。
如何实现一致性?
1、写入主数据库后要将数据同步到从数据库。
2、写入主数据库后,在向从数据库同步期间要将从数据库锁定,待同步完成后再释放锁,以免在新数据写入成功 后,向从数据库查询到旧的数据。
分布式系统一致性的特点:
1、由于存在数据同步的过程,写操作的响应会有一定的延迟。
2、为了保证数据一致性会对资源暂时锁定,待数据同步完成释放锁定资源。
3、如果请求数据同步失败的结点则会返回错误信息,一定不会返回旧数据。
A - Availability :
1、从数据库接收到数据查询的请求则立即能够响应数据查询结果。
2、从数据库不允许出现响应超时或响应错误。
如何实现可用性?
1、写入主数据库后要将数据同步到从数据库。
2、由于要保证从数据库的可用性,不可将从数据库中的资源进行锁定。
3、即时数据还没有同步过来,从数据库也要返回要查询的数据,哪怕是旧数据,如果连旧数据也没有则可以按照 约定返回一个默认信息,但不能返回错误或响应超时。
分布式系统可用性的特点:
1、 所有请求都有响应,且不会出现响应超时或响应错误。
P - Partition tolerance :
上图中,商品信息读写满足分区容忍性就是要实现如下目标:
1、主数据库向从数据库同步数据失败不影响读写操作。
2、其一个结点挂掉不影响另一个结点对外提供服务。
如何实现分区容忍性?
1、尽量使用异步取代同步操作,例如使用异步方式将数据从主数据库同步到从数据,这样结点之间能有效的实现 松耦合。
2、添加从数据库结点,其中一个从结点挂掉其它从结点提供服务。分布式分区容忍性的特点:
1、分区容忍性分是布式系统具备的基本能力。
2.1.2. CAP组合方式
1、上边商品管理的例子是否同时具备 CAP呢?
在所有分布式事务场景中不会同时具备CAP三个特性,因为在具备了P的前提下C和A是不能共存的。 比如:
下图满足了P即表示实现分区容忍:
本图分区容忍的含义是:
1) 主数据库通过网络向从数据同步数据,可以认为主从数据库部署在不同的分区,通过网络进行交互。
2) 当主数据库和从数据库之间的网络出现问题不影响主数据库和从数据库对外提供服务。
3) 其一个结点挂掉不影响另一个结点对外提供服务。
2、CAP有哪些组合方式呢?
所以在生产中对分布式事务处理时要根据需求来确定满足CAP的哪两个方面。
1) AP:
放弃一致性,追求分区容忍性和可用性。这是很多分布式系统设计时的选择。例如:
2) CP:
放弃可用性,追求一致性和分区容错性,我们的zookeeper其实就是追求的强一致,又比如跨行转账,一次转账请求要等待双方银行系统都完成整个事务才算完成。
3) CA:
放弃分区容忍性,即不进行分区,不考虑由于网络不通或结点挂掉的问题,则可以实现一致性和可用性。那么系统将不是一个标准的分布式系统,我们最常用的关系型数据就满足了CA。
上边的商品管理,如果要实现CA则架构如下:
主数据库和从数据库中间不再进行数据同步,数据库可以响应每次的查询请求,通过事务隔离级别实现每个查询请求都可以返回最新的数据。
2.1.3 总结
2.2. BASE理论
1、理解强一致性和最终一致性
2、Base理论介绍
基本可用:分布式系统在出现故障时,允许损失部分可用功能,保证核心功能可用。如,电商网站交易付款出 现问题了,商品依然可以正常浏览。
软状态:由于不要求强一致性,所以BASE允许系统中存在中间状态(也叫软状态),这个状态不影响系统可用 性,如订单的"支付中"、“数据同步中”等状态,待数据最终一致后状态改为“成功”状态。
最终一致:最终一致是指经过一段时间后,所有节点数据都将会达到一致。如订单的"支付中"状态,最终会变 为“支付成功”或者"支付失败",使订单状态与实际交易结果达成一致,但需要一定时间的延迟、等待。