vlambda博客
学习文章列表

详解分布式事务之 Seata-Client 原理及流程

点击蓝色“程序猿DD”关注我哟

加个“星标”,不忘签到哦

来源:阿里巴巴中间件

在分布式系统中,分布式事务是一个必须要解决的问题,目前使用较多的是最终一致性方案。自年初阿里开源了Fescar(四月初更名为Seata)后,该项目受到了极大的关注,目前已接近 8000 Star。Seata 以高性能和零侵入的特性为目标解决微服务领域的分布式事务难题,目前正处于快速迭代中,近期小目标是生产可用的 Mysql 版本。

本文主要基于 spring cloud + spring jpa + spring cloud alibaba fescar + mysql + seata 的结构,搭建一个分布式系统的 demo,通过 seata 的 debug 日志和源代码,从 client 端(RM、TM)的角度分析其工作流程及原理。

示例项目:

https://github.com/fescar-group/fescar-samples/tree/master/springcloud-jpa-seata

为了更好地理解全文,我们来熟悉一下相关概念:

  • XID:全局事务的唯一标识,由 ip:port:sequence 组成;

  • Transaction Coordinator (TC):事务协调器,维护全局事务的运行状态,负责协调并驱动全局事务的提交或回滚;

  • Transaction Manager (TM ):控制全局事务的边界,负责开启一个全局事务,并最终发起全局提交或全局回滚的决议;

  • Resource Manager (RM):控制分支事务,负责分支注册、状态汇报,并接收事务协调器的指令,驱动分支(本地)事务的提交和回滚;

提示:文中代码是基于 fescar-0.4.1 版本,由于项目刚更名为 seata 不久,其中一些包名、类名、jar包等名称还没统一更换过来,故下文中仍使用 fescar 进行表述。

分布式框架支持


Fescar 使用 XID 表示一个分布式事务,XID 需要在一次分布式事务请求所涉的系统中进行传递,从而向 feacar-server 发送分支事务的处理情况,以及接收 feacar-server 的 commit、rollback 指令。Fescar 官方已支持全版本的 dubbo 协议,而对于 spring cloud(spring-boot)的分布式项目社区也提供了相应的实现。

 
   
   
 

  1. <dependency>



  2. <groupId>org.springframework.cloud</groupId>



  3. <artifactId>spring-cloud-alibaba-fescar</artifactId>



  4. <version>2.1.0.BUILD-SNAPSHOT</version>



  5. </dependency>


该组件实现了基于 RestTemplate、Feign 通信时的 XID 传递功能。

业务逻辑


业务逻辑是经典的下订单、扣余额、减库存流程。根据模块划分为三个独立的服务,且分别连接对应的数据库:

  • 订单:order-server

  • 账户:account-server

  • 库存:storage-server

另外还有发起分布式事务的业务系统:

  • 业务:business-server

项目结构如下图:

正常业务:

  1. business发起购买请求

  2. storage扣减库存

  3. order创建订单

  4. account扣减余额

异常业务:

  1. business发起购买请求

  2. storage扣减库存

  3. order创建订单

  4. account 扣减余额异常

正常流程下 2、3、4 步的数据正常更新全局 commit,异常流程下的数据则由于第 4 步的异常报错全局回滚。

配置文件


fescar 的配置入口文件是 registry.conf, 查看代码 ConfigurationFactory 得知目前还不能指定该配置文件,所以配置文件名称只能为 registry.conf。

 
   
   
 

  1. private static final String REGISTRY_CONF = "registry.conf";



  2. public static final Configuration FILE_INSTANCE = new FileConfiguration(REGISTRY_CONF);


registry 中可以指定具体配置的形式,默认使用 file 类型,在 file.conf 中有 3 部分配置内容:

1.  transport transport 部分的配置对应 NettyServerConfig 类,用于定义 Netty 相关的参数,TM、RM 与 fescar-server 之间使用 Netty 进行通信。

2.  service

详解分布式事务之 Seata-Client 原理及流程


3.  client

详解分布式事务之 Seata-Client 原理及流程


数据源 Proxy


除了前面的配置文件,fescar 在 AT 模式下稍微有点代码量的地方就是对数据源的代理指定,且目前只能基于 DruidDataSource的代理。(注:在最新发布的 0.4.2 版本中已支持任意数据源类型)

 
   
   
 

  1. @Bean



  2. @ConfigurationProperties(prefix = "spring.datasource")



  3. public DruidDataSource druidDataSource() {



  4. DruidDataSource druidDataSource = new DruidDataSource();



  5. return druidDataSource;



  6. }




  7. @Primary



  8. @Bean("dataSource")



  9. public DataSourceProxy dataSource(DruidDataSource druidDataSource) {



  10. return new DataSourceProxy(druidDataSource);



  11. }


使用 DataSourceProxy 的目的是为了引入 ConnectionProxy ,fescar 无侵入的一方面就体现在 ConnectionProxy 的实现上,即分支事务加入全局事务的切入点是在本地事务的 commit 阶段,这样设计可以保证业务数据与 undo_log 是在一个本地事务中。

undo_log 是需要在业务库上创建的一个表,fescar 依赖该表记录每笔分支事务的状态及二阶段 rollback 的回放数据。不用担心该表的数据量过大形成单点问题,在全局事务 commit 的场景下事务对应的 undo_log 会异步删除。

 
   
   
 

  1. CREATE TABLE `undo_log` (



  2. `id` bigint(20) NOT NULL AUTO_INCREMENT,



  3. `branch_id` bigint(20) NOT NULL,



  4. `xid` varchar(100) NOT NULL,



  5. `rollback_info` longblob NOT NULL,



  6. `log_status` int(11) NOT NULL,



  7. `log_created` datetime NOT NULL,



  8. `log_modified` datetime NOT NULL,



  9. `ext` varchar(100) DEFAULT NULL,



  10. PRIMARY KEY (`id`),



  11. UNIQUE KEY `ux_undo_log` (`xid`,`branch_id`)



  12. ) ENGINE=InnoDB AUTO_INCREMENT=1 DEFAULT CHARSET=utf8;


启动 Server


前往https://github.com/seata/seata/releases 下载与 Client 版本对应的 fescar-server,避免由于版本的不同导致的协议不一致问题 进入解压之后的 bin 目录,执行:

 
   
   
 

  1. ./fescar-server.sh 8091 ../data


启动成功输出:

 
   
   
 

  1. 2019-04-09 20:27:24.637 INFO [main]c.a.fescar.core.rpc.netty.AbstractRpcRemotingServer.start:152 -Server started ...


启动 Client


fescar 的加载入口类位于 GlobalTransactionAutoConfiguration,对基于 spring boot 的项目能够自动加载,当然也可以通过其他方式示例化 GlobalTransactionScanner

 
   
   
 

  1. @Configuration



  2. @EnableConfigurationProperties({FescarProperties.class})



  3. public class GlobalTransactionAutoConfiguration {



  4. private final ApplicationContext applicationContext;



  5. private final FescarProperties fescarProperties;




  6. public GlobalTransactionAutoConfiguration(ApplicationContext applicationContext, FescarProperties fescarProperties) {



  7. this.applicationContext = applicationContext;



  8. this.fescarProperties = fescarProperties;



  9. }




  10. /**



  11. * 示例化GlobalTransactionScanner



  12. * scanner为client初始化的发起类



  13. */



  14. @Bean



  15. public GlobalTransactionScanner globalTransactionScanner() {



  16. String applicationName = this.applicationContext.getEnvironment().getProperty("spring.application.name");



  17. String txServiceGroup = this.fescarProperties.getTxServiceGroup();



  18. if (StringUtils.isEmpty(txServiceGroup)) {



  19. txServiceGroup = applicationName + "-fescar-service-group";



  20. this.fescarProperties.setTxServiceGroup(txServiceGroup);



  21. }




  22. return new GlobalTransactionScanner(applicationName, txServiceGroup);



  23. }



  24. }


可以看到支持一个配置项FescarProperties,用于配置事务分组名称:

 
   
   
 

  1. spring.cloud.alibaba.fescar.tx-service-group=my_test_tx_group


如果不指定服务组,则默认使用spring.application.name+ -fescar-service-group生成名称,所以不指定spring.application.name启动会报错。

 
   
   
 

  1. @ConfigurationProperties("spring.cloud.alibaba.fescar")



  2. public class FescarProperties {



  3. private String txServiceGroup;




  4. public FescarProperties() {



  5. }




  6. public String getTxServiceGroup() {



  7. return this.txServiceGroup;



  8. }




  9. public void setTxServiceGroup(String txServiceGroup) {



  10. this.txServiceGroup = txServiceGroup;



  11. }



  12. }


获取 applicationId 和 txServiceGroup 后,创建 GlobalTransactionScanner 对象,主要看类中 initClient 方法。

 
   
   
 

  1. private void initClient() {



  2. if (StringUtils.isNullOrEmpty(applicationId) || StringUtils.isNullOrEmpty(txServiceGroup)) {



  3. throw new IllegalArgumentException(



  4. "applicationId: " + applicationId + ", txServiceGroup: " + txServiceGroup);



  5. }



  6. //init TM



  7. TMClient.init(applicationId, txServiceGroup);




  8. //init RM



  9. RMClient.init(applicationId, txServiceGroup);




  10. }


方法中可以看到初始化了 TMClientRMClient,对于一个服务既可以是TM角色也可以是RM角色,至于什么时候是 TM 或者 RM 则要看在一次全局事务中 @GlobalTransactional 注解标注在哪。Client 创建的结果是与 TC 的一个 Netty 连接,所以在启动日志中可以看到两个 Netty Channel,其中标明了 transactionRole 分别为 TMROLERMROLE

 
   
   
 

  1. 2019-04-09 13:42:57.417 INFO 93715 --- [imeoutChecker_1] c.a.f.c.rpc.netty.NettyPoolableFactory   : NettyPool create channel to {"address":"127.0.0.1:8091","message":{"applicationId":"business-service","byteBuffer":{"char":"","direct":false,"double":0.0,"float":0.0,"int":0,"long":0,"readOnly":false,"short":0},"transactionServiceGroup":"my_test_tx_group","typeCode":101,"version":"0.4.1"},"transactionRole":"TMROLE"}



  2. 2019-04-09 13:42:57.505 INFO 93715 --- [imeoutChecker_1] c.a.f.c.rpc.netty.NettyPoolableFactory   : NettyPool create channel to {"address":"127.0.0.1:8091","message":{"applicationId":"business-service","byteBuffer":{"char":"","direct":false,"double":0.0,"float":0.0,"int":0,"long":0,"readOnly":false,"short":0},"transactionServiceGroup":"my_test_tx_group","typeCode":103,"version":"0.4.1"},"transactionRole":"RMROLE"}



  3. 2019-04-09 13:42:57.629 DEBUG 93715 --- [lector_TMROLE_1] c.a.f.c.rpc.netty.MessageCodecHandler    : Send:RegisterTMRequest{applicationId='business-service', transactionServiceGroup='my_test_tx_group'}



  4. 2019-04-09 13:42:57.629 DEBUG 93715 --- [lector_RMROLE_1] c.a.f.c.rpc.netty.MessageCodecHandler    : Send:RegisterRMRequest{resourceIds='null', applicationId='business-service', transactionServiceGroup='my_test_tx_group'}



  5. 2019-04-09 13:42:57.699 DEBUG 93715 --- [lector_RMROLE_1] c.a.f.c.rpc.netty.MessageCodecHandler    : Receive:version=0.4.1,extraData=null,identified=true,resultCode=null,msg=null,messageId:1



  6. 2019-04-09 13:42:57.699 DEBUG 93715 --- [lector_TMROLE_1] c.a.f.c.rpc.netty.MessageCodecHandler    : Receive:version=0.4.1,extraData=null,identified=true,resultCode=null,msg=null,messageId:2



  7. 2019-04-09 13:42:57.701 DEBUG 93715 --- [lector_RMROLE_1] c.a.f.c.rpc.netty.AbstractRpcRemoting    : com.alibaba.fescar.core.rpc.netty.RmRpcClient@3b06d101 msgId:1, future :com.alibaba.fescar.core.protocol.MessageFuture@28bb1abd, body:version=0.4.1,extraData=null,identified=true,resultCode=null,msg=null



  8. 2019-04-09 13:42:57.701 DEBUG 93715 --- [lector_TMROLE_1] c.a.f.c.rpc.netty.AbstractRpcRemoting    : com.alibaba.fescar.core.rpc.netty.TmRpcClient@65fc3fb7 msgId:2, future :com.alibaba.fescar.core.protocol.MessageFuture@9a1e3df, body:version=0.4.1,extraData=null,identified=true,resultCode=null,msg=null



  9. 2019-04-09 13:42:57.710 INFO 93715 --- [imeoutChecker_1] c.a.fescar.core.rpc.netty.RmRpcClient    : register RM success. server version:0.4.1,channel:[id: 0xe6468995, L:/127.0.0.1:57397 - R:/127.0.0.1:8091]



  10. 2019-04-09 13:42:57.710 INFO 93715 --- [imeoutChecker_1] c.a.f.c.rpc.netty.NettyPoolableFactory   : register success, cost 114 ms, version:0.4.1,role:TMROLE,channel:[id: 0xd22fe0c5, L:/127.0.0.1:57398 - R:/127.0.0.1:8091]



  11. 2019-04-09 13:42:57.711 INFO 93715 --- [imeoutChecker_1] c.a.f.c.rpc.netty.NettyPoolableFactory   : register success, cost 125 ms, version:0.4.1,role:RMROLE,channel:[id: 0xe6468995, L:/127.0.0.1:57397 - R:/127.0.0.1:8091]


日志中可以看到:

  1. 创建Netty连接

  2. 发送注册请求

  3. 得到响应结果

  4. RmRpcClient、 TmRpcClient 成功实例化

TM 处理流程


在本例中,TM 的角色是 business-service, BusinessService 的 purchase 方法标注了 @GlobalTransactional 注解:

 
   
   
 

  1. @Service



  2. public class BusinessService {




  3. @Autowired



  4. private StorageFeignClient storageFeignClient;



  5. @Autowired



  6. private OrderFeignClient orderFeignClient;




  7. @GlobalTransactional



  8. public void purchase(String userId, String commodityCode, int orderCount){



  9. storageFeignClient.deduct(commodityCode, orderCount);




  10. orderFeignClient.create(userId, commodityCode, orderCount);



  11. }



  12. }


方法调用后将会创建一个全局事务,首先关注 @GlobalTransactional 注解的作用,在 GlobalTransactionalInterceptor 中被拦截处理。

 
   
   
 

  1. /**



  2. * AOP拦截方法调用



  3. */



  4. @Override



  5. public Object invoke(final MethodInvocation methodInvocation) throws Throwable {



  6. Class<?> targetClass = (methodInvocation.getThis() != null ? AopUtils.getTargetClass(methodInvocation.getThis()) : null);



  7. Method specificMethod = ClassUtils.getMostSpecificMethod(methodInvocation.getMethod(), targetClass);



  8. final Method method = BridgeMethodResolver.findBridgedMethod(specificMethod);




  9. //获取方法GlobalTransactional注解



  10. final GlobalTransactional globalTransactionalAnnotation = getAnnotation(method, GlobalTransactional.class);



  11. final GlobalLock globalLockAnnotation = getAnnotation(method, GlobalLock.class);




  12. //如果方法有GlobalTransactional注解,则拦截到相应方法处理



  13. if (globalTransactionalAnnotation != null) {



  14. return handleGlobalTransaction(methodInvocation, globalTransactionalAnnotation);



  15. } else if (globalLockAnnotation != null) {



  16. return handleGlobalLock(methodInvocation);



  17. } else {



  18. return methodInvocation.proceed();



  19. }



  20. }


handleGlobalTransaction 方法中对 TransactionalTemplate 的 execute 进行了调用,从类名可以看到这是一个标准的模版方法,它定义了 TM 对全局事务处理的标准步骤,注释已经比较清楚了。

 
   
   
 

  1. public Object execute(TransactionalExecutor business) throws TransactionalExecutor.ExecutionException {



  2. // 1. get or create a transaction



  3. GlobalTransaction tx = GlobalTransactionContext.getCurrentOrCreate();




  4. try {



  5. // 2. begin transaction



  6. try {



  7. triggerBeforeBegin();



  8. tx.begin(business.timeout(), business.name());



  9. triggerAfterBegin();



  10. } catch (TransactionException txe) {



  11. throw new TransactionalExecutor.ExecutionException(tx, txe,



  12. TransactionalExecutor.Code.BeginFailure);



  13. }



  14. Object rs = null;



  15. try {



  16. // Do Your Business



  17. rs = business.execute();



  18. } catch (Throwable ex) {



  19. // 3. any business exception, rollback.



  20. try {



  21. triggerBeforeRollback();



  22. tx.rollback();



  23. triggerAfterRollback();



  24. // 3.1 Successfully rolled back



  25. throw new TransactionalExecutor.ExecutionException(tx, TransactionalExecutor.Code.RollbackDone, ex);



  26. } catch (TransactionException txe) {



  27. // 3.2 Failed to rollback



  28. throw new TransactionalExecutor.ExecutionException(tx, txe,



  29. TransactionalExecutor.Code.RollbackFailure, ex);



  30. }



  31. }



  32. // 4. everything is fine, commit.



  33. try {



  34. triggerBeforeCommit();



  35. tx.commit();



  36. triggerAfterCommit();



  37. } catch (TransactionException txe) {



  38. // 4.1 Failed to commit



  39. throw new TransactionalExecutor.ExecutionException(tx, txe,



  40. TransactionalExecutor.Code.CommitFailure);



  41. }



  42. return rs;



  43. } finally {



  44. //5. clear



  45. triggerAfterCompletion();



  46. cleanUp();



  47. }



  48. }


通过 DefaultGlobalTransaction 的 begin 方法开启全局事务。

 
   
   
 

  1. public void begin(int timeout, String name) throws TransactionException {



  2. if (role != GlobalTransactionRole.Launcher) {



  3. check();



  4. if (LOGGER.isDebugEnabled()) {



  5. LOGGER.debug("Ignore Begin(): just involved in global transaction [" + xid + "]");



  6. }



  7. return;



  8. }



  9. if (xid != null) {



  10. throw new IllegalStateException();



  11. }



  12. if (RootContext.getXID() != null) {



  13. throw new IllegalStateException();



  14. }



  15. //具体开启事务的方法,获取TC返回的XID



  16. xid = transactionManager.begin(null, null, name, timeout);



  17. status = GlobalStatus.Begin;



  18. RootContext.bind(xid);



  19. if (LOGGER.isDebugEnabled()) {



  20. LOGGER.debug("Begin a NEW global transaction [" + xid + "]");



  21. }



  22. }


方法开头处 if(role!=GlobalTransactionRole.Launcher)对 role 的判断有关键的作用,表明当前是全局事务的发起者(Launcher)还是参与者(Participant)。如果在分布式事务的下游系统方法中也加上 @GlobalTransactional注解,那么它的角色就是 Participant,会忽略后面的 begin 直接 return,而判断是 Launcher 还是 Participant 是根据当前上下文是否已存在 XID 来判断,没有 XID 的就是 Launcher,已经存在 XID的就是 Participant。由此可见,全局事务的创建只能由 Launcher 执行,而一次分布式事务中也只有一个Launcher 存在。

DefaultTransactionManager负责 TM 与 TC 通讯,发送 begin、commit、rollback 指令。

 
   
   
 

  1. @Override



  2. public String begin(String applicationId, String transactionServiceGroup, String name, int timeout)



  3. throws TransactionException {



  4. GlobalBeginRequest request = new GlobalBeginRequest();



  5. request.setTransactionName(name);



  6. request.setTimeout(timeout);



  7. GlobalBeginResponse response = (GlobalBeginResponse)syncCall(request);



  8. return response.getXid();



  9. }


至此拿到 fescar-server 返回的 XID 表示一个全局事务创建成功,日志中也反应了上述流程。

 
   
   
 

  1. 2019-04-09 13:46:57.417 DEBUG 31326 --- [nio-8084-exec-1] c.a.f.c.rpc.netty.AbstractRpcRemoting    : offer message: timeout=60000,transactionName=purchase(java.lang.String,java.lang.String,int)



  2. 2019-04-09 13:46:57.417 DEBUG 31326 --- [geSend_TMROLE_1] c.a.f.c.rpc.netty.AbstractRpcRemoting    : write message:FescarMergeMessage timeout=60000,transactionName=purchase(java.lang.String,java.lang.String,int), channel:[id: 0xa148545e, L:/127.0.0.1:56120 - R:/127.0.0.1:8091],active?true,writable?true,isopen?true



  3. 2019-04-09 13:46:57.418 DEBUG 31326 --- [lector_TMROLE_1] c.a.f.c.rpc.netty.MessageCodecHandler    : Send:FescarMergeMessage timeout=60000,transactionName=purchase(java.lang.String,java.lang.String,int)



  4. 2019-04-09 13:46:57.421 DEBUG 31326 --- [lector_TMROLE_1] c.a.f.c.rpc.netty.MessageCodecHandler    : Receive:MergeResultMessage com.alibaba.fescar.core.protocol.transaction.GlobalBeginResponse@2dc480dc,messageId:1196



  5. 2019-04-09 13:46:57.421 DEBUG 31326 --- [nio-8084-exec-1] c.a.fescar.core.context.RootContext      : bind 192.168.224.93:8091:2008502699



  6. 2019-04-09 13:46:57.421 DEBUG 31326 --- [nio-8084-exec-1] c.a.f.tm.api.DefaultGlobalTransaction    : Begin a NEW global transaction [192.168.224.93:8091:2008502699]


全局事务创建后,就开始执行 business.execute(),即业务代码 storageFeignClient.deduct(commodityCode,orderCount)进入 RM 处理流程,此处的业务逻辑为调用 storage-service 的扣减库存接口。

RM 处理流程



 
   
   
 
  1. @GetMapping(path = "/deduct")



  2. public Boolean deduct(String commodityCode, Integer count){



  3. storageService.deduct(commodityCode,count);



  4. return true;



  5. }




  6. @Transactional



  7. public void deduct(String commodityCode, int count){



  8. Storage storage = storageDAO.findByCommodityCode(commodityCode);



  9. storage.setCount(storage.getCount()-count);




  10. storageDAO.save(storage);



  11. }



storage 的接口和 service 方法并未出现 fescar 相关的代码和注解,体现了 fescar 的无侵入。那它是如何加入到这次全局事务中的呢?答案在ConnectionProxy中,这也是前面说为什么必须要使用 DataSourceProxy的原因,通过 DataSourceProxy 才能在业务代码的本地事务提交时,fescar 通过该切入点,向 TC 注册分支事务并发送 RM 的处理结果。

由于业务代码本身的事务提交被 ConnectionProxy代理实现,所以在提交本地事务时,实际执行的是ConnectionProxy 的 commit 方法。

 
   
   
 

  1. public void commit() throws SQLException {



  2. //如果当前是全局事务,则执行全局事务的提交



  3. //判断是不是全局事务,就是看当前上下文是否存在XID



  4. if (context.inGlobalTransaction()) {



  5. processGlobalTransactionCommit();



  6. } else if (context.isGlobalLockRequire()) {



  7. processLocalCommitWithGlobalLocks();



  8. } else {



  9. targetConnection.commit();



  10. }



  11. }




  12. private void processGlobalTransactionCommit() throws SQLException {



  13. try {



  14. //首先是向TC注册RM,拿到TC分配的branchId



  15. register();



  16. } catch (TransactionException e) {



  17. recognizeLockKeyConflictException(e);



  18. }




  19. try {



  20. if (context.hasUndoLog()) {



  21. //写入undolog



  22. UndoLogManager.flushUndoLogs(this);



  23. }




  24. //提交本地事务,写入undo_log和业务数据在同一个本地事务中



  25. targetConnection.commit();



  26. } catch (Throwable ex) {



  27. //向TC发送RM的事务处理失败的通知



  28. report(false);



  29. if (ex instanceof SQLException) {



  30. throw new SQLException(ex);



  31. }



  32. }



  33. //向TC发送RM的事务处理成功的通知



  34. report(true);



  35. context.reset();



  36. }




  37. private void register() throws TransactionException {



  38. //注册RM,构建request通过netty向TC发送注册指令



  39. Long branchId = DefaultResourceManager.get().branchRegister(BranchType.AT, getDataSourceProxy().getResourceId(),



  40. null, context.getXid(), null, context.buildLockKeys());



  41. //将返回的branchId存在上下文中



  42. context.setBranchId(branchId);



  43. }


通过日志印证一下上面的流程。

 
   
   
 

  1. 2019-04-09 21:57:48.341 DEBUG 38933 --- [nio-8081-exec-1] o.s.c.a.f.web.FescarHandlerInterceptor   : xid in RootContext null xid in RpcContext 192.168.0.2:8091:2008546211



  2. 2019-04-09 21:57:48.341 DEBUG 38933 --- [nio-8081-exec-1] c.a.fescar.core.context.RootContext      : bind 192.168.0.2:8091:2008546211



  3. 2019-04-09 21:57:48.341 DEBUG 38933 --- [nio-8081-exec-1] o.s.c.a.f.web.FescarHandlerInterceptor   : bind 192.168.0.2:8091:2008546211 to RootContext



  4. 2019-04-09 21:57:48.386 INFO 38933 --- [nio-8081-exec-1] o.h.h.i.QueryTranslatorFactoryInitiator  : HHH000397: Using ASTQueryTranslatorFactory



  5. Hibernateselect storage0_.id as id1_0_, storage0_.commodity_code as commodit2_0_, storage0_.count as count3_0_ from storage_tbl storage0_ where storage0_.commodity_code=?



  6. Hibernate: update storage_tbl set count=? where id=?



  7. 2019-04-09 21:57:48.673 INFO 38933 --- [nio-8081-exec-1] c.a.fescar.core.rpc.netty.RmRpcClient    : will connect to 192.168.0.2:8091



  8. 2019-04-09 21:57:48.673 INFO 38933 --- [nio-8081-exec-1] c.a.fescar.core.rpc.netty.RmRpcClient    : RM will register :jdbc:mysql://127.0.0.1:3306/db_storage?useSSL=false



  9. 2019-04-09 21:57:48.673 INFO 38933 --- [nio-8081-exec-1] c.a.f.c.rpc.netty.NettyPoolableFactory   : NettyPool create channel to {"address":"192.168.0.2:8091","message":{"applicationId":"storage-service","byteBuffer":{"char":"","direct":false,"double":0.0,"float":0.0,"int":0,"long":0,"readOnly":false,"short":0},"resourceIds":"jdbc:mysql://127.0.0.1:3306/db_storage?useSSL=false","transactionServiceGroup":"hello-service-fescar-service-group","typeCode":103,"version":"0.4.0"},"transactionRole":"RMROLE"}



  10. 2019-04-09 21:57:48.677 DEBUG 38933 --- [lector_RMROLE_1] c.a.f.c.rpc.netty.MessageCodecHandler    : Send:RegisterRMRequest{resourceIds='jdbc:mysql://127.0.0.1:3306/db_storage?useSSL=false', applicationId='storage-service', transactionServiceGroup='hello-service-fescar-service-group'}



  11. 2019-04-09 21:57:48.680 DEBUG 38933 --- [lector_RMROLE_1] c.a.f.c.rpc.netty.MessageCodecHandler    : Receive:version=0.4.1,extraData=null,identified=true,resultCode=null,msg=null,messageId:9



  12. 2019-04-09 21:57:48.680 DEBUG 38933 --- [lector_RMROLE_1] c.a.f.c.rpc.netty.AbstractRpcRemoting    : com.alibaba.fescar.core.rpc.netty.RmRpcClient@7d61f5d4 msgId:9, future :com.alibaba.fescar.core.protocol.MessageFuture@186cd3e0, body:version=0.4.1,extraData=null,identified=true,resultCode=null,msg=null



  13. 2019-04-09 21:57:48.680 INFO 38933 --- [nio-8081-exec-1] c.a.fescar.core.rpc.netty.RmRpcClient    : register RM success. server version:0.4.1,channel:[id: 0xd40718e3, L:/192.168.0.2:62607 - R:/192.168.0.2:8091]



  14. 2019-04-09 21:57:48.680 INFO 38933 --- [nio-8081-exec-1] c.a.f.c.rpc.netty.NettyPoolableFactory   : register success, cost 3 ms, version:0.4.1,role:RMROLE,channel:[id: 0xd40718e3, L:/192.168.0.2:62607 - R:/192.168.0.2:8091]



  15. 2019-04-09 21:57:48.680 DEBUG 38933 --- [nio-8081-exec-1] c.a.f.c.rpc.netty.AbstractRpcRemoting    : offer message: transactionId=2008546211,branchType=AT,resourceId=jdbc:mysql://127.0.0.1:3306/db_storage?useSSL=false,lockKey=storage_tbl:1



  16. 2019-04-09 21:57:48.681 DEBUG 38933 --- [geSend_RMROLE_1] c.a.f.c.rpc.netty.AbstractRpcRemoting    : write message:FescarMergeMessage transactionId=2008546211,branchType=AT,resourceId=jdbc:mysql://127.0.0.1:3306/db_storage?useSSL=false,lockKey=storage_tbl:1, channel:[id: 0xd40718e3, L:/192.168.0.2:62607 - R:/192.168.0.2:8091],active?true,writable?true,isopen?true



  17. 2019-04-09 21:57:48.681 DEBUG 38933 --- [lector_RMROLE_1] c.a.f.c.rpc.netty.MessageCodecHandler    : Send:FescarMergeMessage transactionId=2008546211,branchType=AT,resourceId=jdbc:mysql://127.0.0.1:3306/db_storage?useSSL=false,lockKey=storage_tbl:1



  18. 2019-04-09 21:57:48.687 DEBUG 38933 --- [lector_RMROLE_1] c.a.f.c.rpc.netty.MessageCodecHandler    : Receive:MergeResultMessage BranchRegisterResponse: transactionId=2008546211,branchId=2008546212,result code =Success,getMsg =null,messageId:11



  19. 2019-04-09 21:57:48.702 DEBUG 38933 --- [nio-8081-exec-1] c.a.f.rm.datasource.undo.UndoLogManager  : Flushing UNDO LOG: {"branchId":2008546212,"sqlUndoLogs":[{"afterImage":{"rows":[{"fields":[{"keyType":"PrimaryKey","name":"id","type":4,"value":1},{"keyType":"NULL","name":"count","type":4,"value":993}]}],"tableName":"storage_tbl"},"beforeImage":{"rows":[{"fields":[{"keyType":"PrimaryKey","name":"id","type":4,"value":1},{"keyType":"NULL","name":"count","type":4,"value":994}]}],"tableName":"storage_tbl"},"sqlType":"UPDATE","tableName":"storage_tbl"}],"xid":"192.168.0.2:8091:2008546211"}



  20. 2019-04-09 21:57:48.755 DEBUG 38933 --- [nio-8081-exec-1] c.a.f.c.rpc.netty.AbstractRpcRemoting    : offer message: transactionId=2008546211,branchId=2008546212,resourceId=null,status=PhaseOne_Done,applicationData=null



  21. 2019-04-09 21:57:48.755 DEBUG 38933 --- [geSend_RMROLE_1] c.a.f.c.rpc.netty.AbstractRpcRemoting    : write message:FescarMergeMessage transactionId=2008546211,branchId=2008546212,resourceId=null,status=PhaseOne_Done,applicationData=null, channel:[id: 0xd40718e3, L:/192.168.0.2:62607 - R:/192.168.0.2:8091],active?true,writable?true,isopen?true



  22. 2019-04-09 21:57:48.756 DEBUG 38933 --- [lector_RMROLE_1] c.a.f.c.rpc.netty.MessageCodecHandler    : Send:FescarMergeMessage transactionId=2008546211,branchId=2008546212,resourceId=null,status=PhaseOne_Done,applicationData=null



  23. 2019-04-09 21:57:48.758 DEBUG 38933 --- [lector_RMROLE_1] c.a.f.c.rpc.netty.MessageCodecHandler    : Receive:MergeResultMessage com.alibaba.fescar.core.protocol.transaction.BranchReportResponse@582a08cf,messageId:13



  24. 2019-04-09 21:57:48.799 DEBUG 38933 --- [nio-8081-exec-1] c.a.fescar.core.context.RootContext      : unbind 192.168.0.2:8091:2008546211



  25. 2019-04-09 21:57:48.799 DEBUG 38933 --- [nio-8081-exec-1] o.s.c.a.f.web.FescarHandlerInterceptor   : unbind 192.168.0.2:8091:2008546211 from RootContext


  1. 获取business-service传来的XID

  2. 绑定XID到当前上下文中

  3. 执行业务逻辑sql

  4. 向TC创建本次RM的Netty连接

  5. 向TC发送分支事务的相关信息

  6. 获得TC返回的branchId

  7. 记录Undo Log数据

  8. 向TC发送本次事务PhaseOne阶段的处理结果

  9. 从当前上下文中解绑XID

其中第 1 步和第 9 步,是在FescarHandlerInterceptor中完成的,该类并不属于 fescar,是前面提到的 spring-cloud-alibaba-fescar,它实现了基于 feign、rest 通信时将 xid bind 和 unbind 到当前请求上下文中。到这里 RM 完成了 PhaseOne 阶段的工作,接着看 PhaseTwo 阶段的处理逻辑。

事务提交


各分支事务执行完成后,TC 对各 RM 的汇报结果进行汇总,给各 RM 发送 commit 或 rollback 的指令。

 
   
   
 

  1. 2019-04-09 21:57:49.813 DEBUG 38933 --- [lector_RMROLE_1] c.a.f.c.rpc.netty.MessageCodecHandler    : Receive:xid=192.168.0.2:8091:2008546211,branchId=2008546212,branchType=AT,resourceId=jdbc:mysql://127.0.0.1:3306/db_storage?useSSL=false,applicationData=null,messageId:1



  2. 2019-04-09 21:57:49.813 DEBUG 38933 --- [lector_RMROLE_1] c.a.f.c.rpc.netty.AbstractRpcRemoting    : com.alibaba.fescar.core.rpc.netty.RmRpcClient@7d61f5d4 msgId:1, body:xid=192.168.0.2:8091:2008546211,branchId=2008546212,branchType=AT,resourceId=jdbc:mysql://127.0.0.1:3306/db_storage?useSSL=false,applicationData=null



  3. 2019-04-09 21:57:49.814 INFO 38933 --- [atch_RMROLE_1_8] c.a.f.core.rpc.netty.RmMessageListener   : onMessage:xid=192.168.0.2:8091:2008546211,branchId=2008546212,branchType=AT,resourceId=jdbc:mysql://127.0.0.1:3306/db_storage?useSSL=false,applicationData=null



  4. 2019-04-09 21:57:49.816 INFO 38933 --- [atch_RMROLE_1_8] com.alibaba.fescar.rm.AbstractRMHandler  : Branch committing: 192.168.0.2:8091:2008546211 2008546212 jdbc:mysql://127.0.0.1:3306/db_storage?useSSL=false null



  5. 2019-04-09 21:57:49.816 INFO 38933 --- [atch_RMROLE_1_8] com.alibaba.fescar.rm.AbstractRMHandler  : Branch commit result: PhaseTwo_Committed



  6. 2019-04-09 21:57:49.817 INFO 38933 --- [atch_RMROLE_1_8] c.a.fescar.core.rpc.netty.RmRpcClient    : RmRpcClient sendResponse branchStatus=PhaseTwo_Committed,result code =Success,getMsg =null



  7. 2019-04-09 21:57:49.817 DEBUG 38933 --- [atch_RMROLE_1_8] c.a.f.c.rpc.netty.AbstractRpcRemoting    : send response:branchStatus=PhaseTwo_Committed,result code =Success,getMsg =null,channel:[id: 0xd40718e3, L:/192.168.0.2:62607 - R:/192.168.0.2:8091]



  8. 2019-04-09 21:57:49.817 DEBUG 38933 --- [lector_RMROLE_1] c.a.f.c.rpc.netty.MessageCodecHandler    : Send:branchStatus=PhaseTwo_Committed,result code =Success,getMsg =null


从日志中可以看到

  1. RM 收到 XID=192.168.0.2:8091:2008546211,branchId=2008546212 的 commit 通知;

  2. 执行 commit 动作;

  3. 将 commit 结果发送给 TC,branchStatus 为 PhaseTwo_Committed;

具体看下二阶段 commit 的执行过程,在AbstractRMHandler类的 doBranchCommit 方法:

 
   
   
 

  1. /**



  2. * 拿到通知的xid、branchId等关键参数



  3. * 然后调用RM的branchCommit



  4. */



  5. protected void doBranchCommit(BranchCommitRequest request, BranchCommitResponse response) throws TransactionException {



  6. String xid = request.getXid();



  7. long branchId = request.getBranchId();



  8. String resourceId = request.getResourceId();



  9. String applicationData = request.getApplicationData();



  10. LOGGER.info("Branch committing: " + xid + " " + branchId + " " + resourceId + " " + applicationData);



  11. BranchStatus status = getResourceManager().branchCommit(request.getBranchType(), xid, branchId, resourceId, applicationData);



  12. response.setBranchStatus(status);



  13. LOGGER.info("Branch commit result: " + status);



  14. }


最终会将 branchCommit 的请求调用到AsyncWorker的 branchCommit 方法。AsyncWorker 的处理方式是fescar 架构的一个关键部分,因为大部分事务都是会正常提交的,所以在 PhaseOne 阶段就已经结束了,这样就可以将锁最快的释放。PhaseTwo 阶段接收 commit 的指令后,异步处理即可。将 PhaseTwo 的时间消耗排除在一次分布式事务之外。

 
   
   
 

  1. private static final List<Phase2Context> ASYNC_COMMIT_BUFFER = Collections.synchronizedList( new ArrayList<Phase2Context>());




  2. /**



  3. * 将需要提交的XID加入list



  4. */



  5. @Override



  6. public BranchStatus branchCommit(BranchType branchType, String xid, long branchId, String resourceId, String applicationData) throws TransactionException {



  7. if (ASYNC_COMMIT_BUFFER.size() < ASYNC_COMMIT_BUFFER_LIMIT) {



  8. ASYNC_COMMIT_BUFFER.add(new Phase2Context(branchType, xid, branchId, resourceId, applicationData));



  9. } else {



  10. LOGGER.warn("Async commit buffer is FULL. Rejected branch [" + branchId + "/" + xid + "] will be handled by housekeeping later.");



  11. }



  12. return BranchStatus.PhaseTwo_Committed;



  13. }




  14. /**



  15. * 通过定时任务消费list中的XID



  16. */



  17. public synchronized void init() {



  18. LOGGER.info("Async Commit Buffer Limit: " + ASYNC_COMMIT_BUFFER_LIMIT);



  19. timerExecutor = new ScheduledThreadPoolExecutor(1,



  20. new NamedThreadFactory("AsyncWorker", 1, true));



  21. timerExecutor.scheduleAtFixedRate(new Runnable() {



  22. @Override



  23. public void run() {



  24. try {



  25. doBranchCommits();



  26. } catch (Throwable e) {



  27. LOGGER.info("Failed at async committing ... " + e.getMessage());



  28. }



  29. }



  30. }, 10, 1000 * 1, TimeUnit.MILLISECONDS);



  31. }




  32. private void doBranchCommits() {



  33. if (ASYNC_COMMIT_BUFFER.size() == 0) {



  34. return;



  35. }



  36. Map<String, List<Phase2Context>> mappedContexts = new HashMap<>();



  37. Iterator<Phase2Context> iterator = ASYNC_COMMIT_BUFFER.iterator();




  38. //一次定时循环取出ASYNC_COMMIT_BUFFER中的所有待办数据



  39. //以resourceId作为key分组待commit数据,resourceId是一个数据库的连接url



  40. //在前面的日志中可以看到,目的是为了覆盖应用的多数据源创建



  41. while (iterator.hasNext()) {



  42. Phase2Context commitContext = iterator.next();



  43. List<Phase2Context> contextsGroupedByResourceId = mappedContexts.get(commitContext.resourceId);



  44. if (contextsGroupedByResourceId == null) {



  45. contextsGroupedByResourceId = new ArrayList<>();



  46. mappedContexts.put(commitContext.resourceId, contextsGroupedByResourceId);



  47. }



  48. contextsGroupedByResourceId.add(commitContext);




  49. iterator.remove();




  50. }




  51. for (Map.Entry<String, List<Phase2Context>> entry : mappedContexts.entrySet()) {



  52. Connection conn = null;



  53. try {



  54. try {



  55. //根据resourceId获取数据源以及连接



  56. DataSourceProxy dataSourceProxy = DataSourceManager.get().get(entry.getKey());



  57. conn = dataSourceProxy.getPlainConnection();



  58. } catch (SQLException sqle) {



  59. LOGGER.warn("Failed to get connection for async committing on " + entry.getKey(), sqle);



  60. continue;



  61. }



  62. List<Phase2Context> contextsGroupedByResourceId = entry.getValue();



  63. for (Phase2Context commitContext : contextsGroupedByResourceId) {



  64. try {



  65. //执行undolog的处理,即删除xid、branchId对应的记录



  66. UndoLogManager.deleteUndoLog(commitContext.xid, commitContext.branchId, conn);



  67. } catch (Exception ex) {



  68. LOGGER.warn(



  69. "Failed to delete undo log [" + commitContext.branchId + "/" + commitContext.xid + "]", ex);



  70. }



  71. }




  72. } finally {



  73. if (conn != null) {



  74. try {



  75. conn.close();



  76. } catch (SQLException closeEx) {



  77. LOGGER.warn("Failed to close JDBC resource while deleting undo_log ", closeEx);



  78. }



  79. }



  80. }



  81. }



  82. }


所以对于commit动作的处理,RM只需删除xid、branchId对应的undo_log即可。

事务回滚


对于 rollback 场景的触发有两种情况:

  1. 分支事务处理异常,即ConnectionProxy中 report(false)的情况。

  2. TM捕获到下游系统上抛的异常,即发起全局事务标有 @GlobalTransactional注解的方法捕获到的异常。在前面TransactionalTemplate类的execute模版方法中,对business.execute()的调用进行了catch,catch后会调用rollback,由TM通知TC对应XID需要回滚事务。

 
   
   
 

  1. public void rollback() throws TransactionException {



  2. //只有Launcher能发起这个rollback



  3. if (role == GlobalTransactionRole.Participant) {



  4. // Participant has no responsibility of committing



  5. if (LOGGER.isDebugEnabled()) {



  6. LOGGER.debug("Ignore Rollback(): just involved in global transaction [" + xid + "]");



  7. }



  8. return;



  9. }



  10. if (xid == null) {



  11. throw new IllegalStateException();



  12. }




  13. status = transactionManager.rollback(xid);



  14. if (RootContext.getXID() != null) {



  15. if (xid.equals(RootContext.getXID())) {



  16. RootContext.unbind();



  17. }



  18. }



  19. }


TC 汇总后向参与者发送 rollback 指令,RM 在AbstractRMHandler类的 doBranchRollback 方法中接收这个rollback 的通知。

 
   
   
 

  1. protected void doBranchRollback(BranchRollbackRequest request, BranchRollbackResponse response) throws TransactionException {



  2. String xid = request.getXid();



  3. long branchId = request.getBranchId();



  4. String resourceId = request.getResourceId();



  5. String applicationData = request.getApplicationData();



  6. LOGGER.info("Branch rolling back: " + xid + " " + branchId + " " + resourceId);



  7. BranchStatus status = getResourceManager().branchRollback(request.getBranchType(), xid, branchId, resourceId, applicationData);



  8. response.setBranchStatus(status);



  9. LOGGER.info("Branch rollback result: " + status);



  10. }


然后将 rollback 请求传递到 DataSourceManager类的 branchRollback 方法。

 
   
   
 

  1. public BranchStatus branchRollback(BranchType branchType, String xid, long branchId, String resourceId, String applicationData) throws TransactionException {



  2. //根据resourceId获取对应的数据源



  3. DataSourceProxy dataSourceProxy = get(resourceId);



  4. if (dataSourceProxy == null) {



  5. throw new ShouldNeverHappenException();



  6. }



  7. try {



  8. UndoLogManager.undo(dataSourceProxy, xid, branchId);



  9. } catch (TransactionException te) {



  10. if (te.getCode() == TransactionExceptionCode.BranchRollbackFailed_Unretriable) {



  11. return BranchStatus.PhaseTwo_RollbackFailed_Unretryable;



  12. } else {



  13. return BranchStatus.PhaseTwo_RollbackFailed_Retryable;



  14. }



  15. }



  16. return BranchStatus.PhaseTwo_Rollbacked;



  17. }


最终会执行 UndoLogManager 类的 undo 方法,因为是纯 jdbc 操作代码比较长就不贴出来了,可以通过连接到github 查看源码,说一下 undo 的具体流程:

  1. 根据 xid 和 branchId 查找 PhaseOne 阶段提交的 undo_log;

  2. 如果找到了就根据 undo_log 中记录的数据生成回放 sql 并执行,即还原 PhaseOne 阶段修改的数据;

  3. 第 2 步处理完后,删除该条 undo_log 数据;

  4. 如果第 1 步没有找到对应的 undolog,就插入一条状态为 GlobalFinished的 undolog。出现没找到的原因可能是 PhaseOne 阶段的本地事务异常了,导致没有正常写入。因为 xid 和 branchId 是唯一索引,所以第 4步的插入,可以防止 PhaseOne 阶段恢复后的成功写入,那么 PhaseOne 阶段就会异常,这样一来业务数据也就不会提交成功,数据达到了最终回滚了的效果。

总结


本地结合分布式业务场景,分析了 fescar client 侧的主要处理流程,对 TM 和 RM 角色的主要源码进行了解析,希望能对大家理解 fescar 的工作原理有所帮助。

随着 fescar 的快速迭代以及后期 Roadmap 规划的不断完善,假以时日,相信 fescar 能够成为开源分布式事务的标杆解决方案。


方良圣

某互联网金融公司资深研发工程师,有多年Java服务端开发经验,一直从事金融领域相关研发及管理工作,长期关注分布式中间件及分布式系统领域。


推荐阅读




号外:最近整理了之前编写的一系列内容做成了PDF,关注我并回复相应口令获取:

001领取《Spring Boot基础教程》

002领取《Spring Cloud基础教程》



自律到极致 - 人生才精致:第4期”正在筹备中

关注我,加个星标,不忘签到哦~


2019

与大家聊聊技术人的斜杠生活