vlambda博客
学习文章列表

分布式事务的CAP理论

相关历史文章(阅读本文之前,您可能需要先看下之前的系列👇)



前言

       通过前面的学习,我们了解到了分布式的基础概念,与本地事务不同的是,分布式系统之所以叫分布式系统,是因为提供服务的若干个节点分布在不同机器上相互之间通过网络交互,不能因为有一点网络问题就导致整个系统无法提供服务,网络因素成为了分布式事务的考量标准之一。因此,分布式事务需要进一步的理论基础,接下来,我们先来学习一下分布式事务的CAP理论

       在讲解分布式事务事务控制解决方案之前需要先学习一些基础理论,通过理论知识指导我们确定分布式事务控制的目标,从而帮助我们理解每个解决方案。

 

一、CAP理论

       CAPConsistencyAvaliabilityPartitiontolerance三个词语的缩写,分别表示一致性可用性分区容忍性

       为了方便对CAP理论的理解,我们结合电商系统中的一些业务场景来理解CAP,如下图,是商品信息管理的执行流程:


执行流程如下:

(1)商品请求主数据库写入商品信息(添加商品、修改商品、删除商品);

(2)主数据库向商品服务响应写入成功;

(3)商品服务请求从数据库读取商品信息;

 

1.1 C - 一致性

       一致性是写操作后的读操作可以读取到最新的数据状态,当数据分布在多个节点时,从任意节点读取到的数据都是最新的状态。

       上图中,商品信息的读写要满足一致性就是要实现如下目标:

(1)商品服务写入主数据库成功,则向从数据库查询新数据也成功。

(2)商品服务写入主数据库失败,则向从数据库查询新数据也失败。

       如何实现一致性?

(1)写入主数据库后要将数据同步到从数据库。

(2)写入主数据库后,在向从数据库同步期间要将从数据库锁定,待同步完成后再释放锁,以免在新数据库写入成功后,向从数据库查询到旧的数据。

       分布式一致性的特点:

(1)由于存在数据同步的过程,写操作的相应会有一定延迟。

(2)为了保证数据一致性会对资源暂时锁定,待数据同步完成释放锁定资源。

(3)如果请求数据同步失败的节点则会返回错误信息,一定不会返回旧信息。

 

1.2 A – 可用性

       可用性是指任何事务操作都可以得到相应结果,且不会出现响应超时响应错误

       上图中,商品信息的读取要满足可用性就是要实现如下目标:

(1)从数据库接收到查询的请求则立即能够响应数据查询结果。

(2)从数据库查询不允许出现响应超时或者响应错误。

 

       如何实现可用性?

(1)写入主数据库要将数据同步到从数据库。

(2)由于要保证从数据库的可用性,不可将从数据库中的资源锁定。

(3)即时数据还没有同步过来,从数据库也要返回要查询的数据,哪怕是旧数据,如果连旧数据也没有则可以按照约定返回一个默认信息,但不能返回错误或相应超时。

       分布式系统可用性的特点:

(1)所有请求都有响应,且不会出现响应超时或者响应错误。

 

1.3 P – 分区容忍性

       通常分布式系统的各个节点部署在不同的子网,这就是网络分区,不可避免的会出现由于网络问题而导致节点之间通信失败,此时仍可对外提供服务,这叫分区容忍性

       上图中,商品信息读写要满足分区容忍性就是要实现如下目标:

(1)主数据向从数据库同步数据失败不影响读写操作。

(2)一个节点挂掉不影响另一个节点对外提供服务。

       如何实现分区容忍性?

(1)尽量使用异步取代同步操作,例如使用异步方式将数据从主数据库同步到从数据库,这样节点之间有效的实现松耦合。

(2)添加从数据库节点,其中一个节点挂掉其它节点提供服务。

       分布式分区容忍性的特点:

(1)分区容忍性是分布式系统具备的基本能力。


二、CAP组合方式

       在所有的分布式事务场景中不会同时具备CAP三个特性,因为在具备了P的前提下C和A是不能共存的。

       下图满足了P即表示实现了分区容忍性:

       分区容忍的含义:

(1)主数据库通过网络向从数据库同步数据,可以认为主从数据库部署在不同的分区上,通过网络进行交互。

(2)当主数据库和从数据库之间的网络出现问题不影响主数据库和从数据库对外提供服务。

(3)其一个节点挂掉不影响另一个节点对外提供服务。

       如果要实现C则必须保证数据一致性,在数据同步的时候为防止向从数据库查询的不一致则需要从数据库锁定,待完成同步之后解锁,如果同步失败从数据库要返回错误信息或超时信息。

       如果要实现A则必须保证数据可用性,不管任何时候都可以向从数据库进行查询数据,并且不能够返回错误信息或者超时信息

       通过分析在满足P的前提下,CA存在矛盾

所以在生产中对分布式事务处理时需要根据需求来确定满足CAP的哪两个方面。

 


1.1 CA组合

       CA组合就是保证一致性和可用性放弃分区容忍性,即不进行分区,不考虑由于网络不通或节点挂掉的问题。那么系统将不是一个标准的分布式系统,我们最常用的关系型数据库就满足了CA。

 

1.2 CP组合

       CP组合就是保证一致性和分区容忍性放弃可用性Zookerper就是追求强一致性,放弃了可用性,还有跨行转账,一次转账请求要等待双方银行系统都完成整个事务才能完成。

1.3 AP组合

       AP组合就是保证可用性和分区容忍性放弃一致性。这是分布式系统设计时的选择。

 

三、小结

       通过上面我们学习了CAP的基础理论知识,CAP是一个已经证实的理论:一个分布式系统做多只能满足CAP中的两项,为达到良好的响应性能来提高用户体验,因此一般会做出如下选择:保证A和P,舍弃C强一致性,保证最终一致性


分布式事务解决方案「手写代码」:http://t.cn/AieNUirK


点击阅读原文,快人一步,快速学习分布式事务!