vlambda博客
学习文章列表

降级特技之使用Hystrix实现降级和熔断—《亿级流量网站架构核心技术》

本文节选自《亿级流量网站架构核心技术》第五章 降级特技  使用Hystrix实现降级和熔断部分。


使用Hystrix实现降级

通过配置中心可以人工进行降级,而我们也需要根据服务的超时时间进行自动降级,本部分将演示使用Hystrix实现超时自动降级。Hystrix介绍请参考“第3章 隔离术”中的Hystrix简介部分。


public class GetStockServiceCommand extends HystrixCommand<String> {

    private StockService stockService;

    public GetStockServiceCommand(StockService stockService) {

        super(setter());

        this.stockService= stockService;

    }

    private static Setter setter() {

        //服务分组

        HystrixCommandGroupKey groupKey = HystrixCommandGroupKey.Factory. asKey("stock");

……

        //命令配置

        HystrixCommandProperties.Setter commandProperties = HystrixCommandProperties.Setter()

……

               .withExecutionIsolationStrategy(HystrixCommandProperties.ExecutionIsolationStrategy.THREAD)

               .withFallbackEnabled(true)//默认true

               .withFallbackIsolationSemaphoreMaxConcurrentRequests(100)//默认10

               .withExecutionIsolationThreadInterruptOnFutureCancel(true) //默认false

               .withExecutionIsolationThreadInterruptOnTimeout(true)//默认true

               .withExecutionTimeoutEnabled(true) //默认true

               .withExecutionTimeoutInMilliseconds(1000)//默认1000

               ;

 

        return HystrixCommand.Setter

                       .withGroupKey(groupKey)

                       .andCommandPropertiesDefaults(commandProperties);

    }

 

   @Override

    protectedString run() throws Exception {

        return stockService.getStock();//可以通过抛出异常,或Thread.sleep模拟超时

    }

    @Override

    protected String getFallback() {//降级方法

       return "有货";

    }

}

整体执行流程如下图所示。

首先,Command会调用run方法,如果run方法超时或者抛出异常,如果启用了降级处理,则调用getFallback方法进行降级。


而降级处理主要进行两部分处理:HystrixCommandProperties配置和getFallback降级处理方法。首先,我们看下HystrixCommandProperties配置。

withFallbackEnabled:是否启用降级处理,如果启用了,则在超时或异常时调用getFallback进行降级处理,默认开启。

withFallbackIsolationSemaphoreMaxConcurrentRequests:fallback方法的信号量配置,配置getFallback方法并发请求的信号量,如果请求超过了并发信号量限制,则不再尝试调用getFallback方法,而是快速失败,默认信号量为10。

withExecutionIsolationThreadInterruptOnFutureCancel:当隔离策略为THREAD时,当执行线程执行超时时,是否进行中断处理,即Future#cancel(true)处理,默认为false。

withExecutionIsolationThreadInterruptOnTimeout:当隔离策略为THREAD时,当执行线程执行超时时,是否进行中断处理,默认为true。

withExecutionTimeoutEnabled:是否启用执行超时机制,默认为true;

withExecutionTimeoutInMilliseconds:执行超时时间,默认为1000毫秒,如果命令是线程隔离,且配置了executionIsolationThreadInterruptOnTimeout=true,则执行线程将执行中断处理。如果命令是信号量隔离,则进行终止操作,因为信号量隔离与主线程是在一个线程中执行,其不会中断线程处理,所以要根据实际情况来决定是否采用信号量隔离,尤其涉及网络访问的情况。


当开启了降级处理,run方法超时或者异常时将会调用getFallback处理,getFallback需要注意以下几点。

●     其最大并发数受fallbackIsolationSemaphoreMaxConcurrentRequests控制,因此,如果失败率非常高,则要重新配置该参数,如果最大并发数超了该配置,则不会再执行getFallback,而是快速失败,抛出如“HystrixRuntimeException: GetStockServiceCommand fallback executionrejected”类似的异常。

●     该方法不能进行网络调用,应该只是缓存的数据,或者静态数据(如我们的库存方法返回有货)。

●     如果必须走网络调用,则应该在getFallback方法中调用另一个Command实现,通过Command可以有降级和熔断机制保护应用,而getFallback只有fallbackIsolationSemaphoreMaxConcurrentRequests参数控制最大并发数。


在使用Command的业务代码处,可以使用如下方法获取执行的状态。

isResponseTimedOut:是否响应超时了。

isFailedExecution:是否执行失败了,如抛出了异常。

getFailedExecutionException:获取失败后的执行异常,即run方法抛出的异常。

isResponseFromFallback:是否是getFallback返回的响应。

 

熔断机制实现

Hystrix提供了熔断实现,熔断后会自动降级处理,如下图所示。

降级特技之使用Hystrix实现降级和熔断—《亿级流量网站架构核心技术》

Command首先调用HystrixCircuitBreaker#allowRequest判断是否熔断了,如果没有熔断,则执行Command#run方法正常处理,如果熔断了,则直接调用降级方法Command#getFallback方法降级处理。


接下来,我们先看下HystrixCircuitBreakerImpl#allowRequest方法实现。

public boolean allowRequest() {

    //1、如果熔断开关强制打开,则熔断降级处理

    if (properties.circuitBreakerForceOpen().get()){

        return false;

    }

    //如果熔断开关强制闭合,则正常处理

    if (properties.circuitBreakerForceClosed().get()){

        //还是需要调用isOpen方法进行采样处理

        isOpen();

        return true;

    }

    //正常判断

    return !isOpen() || allowSingleTest();

}

//允许在一个时间窗口内进行单次访问测试

public boolean allowSingleTest() {

    //熔断开关打开时,最后一次测试时间

    long timeCircuitOpenedOrWasLastTested= circuitOpenedOrLastTestedTime.get();

    //如果熔断开关处于打开状态,且在一个时间窗口内(circuitBreakerSleepWindowInMilliseconds),则允许一次访问进行测试

    if (circuitOpen.get() &&System.currentTimeMillis() > timeCircuitOpenedOrWasLastTested+properties.circuitBreakerSleepWindowInMilliseconds().get()){

        if(circuitOpenedOrLastTestedTime.compareAndSet(timeCircuitOpenedOrWasLastTested,System.currentTimeMillis())) {

           return true;

        }

    }

    return false;

}

 

@Override

public boolean isOpen() {

    //如果熔断开关处于打开状态,则熔断降级处理  

    if (circuitOpen.get()){

        return true;

    }

 

    //熔断开关当前处于闭合状态,需要根据采样判断当前是否需要熔断

    HealthCounts health = metrics.getHealthCounts();

    //如果当前采样的总请求数小于circuitBreakerRequestVolumeThreshold阀值,则不进行熔断

    if (health.getTotalRequests() < properties.circuitBreakerRequestVolumeThreshold().get()) {

        return false;

    }

    //如果当前采样的错误率小于circuitBreakerErrorThresholdPercentage阀值,则不进行熔断

   //errorPercentage = errorCount / totalCount * 100

    if (health.getErrorPercentage()< properties. circuitBreakerErrorThresholdPercentage().get()) {

       return false;

    } else {

        //当前失败率超过了阀值,进行熔断降级处理

        if (circuitOpen.compareAndSet(false,true)) {

           circuitOpenedOrLastTestedTime.set(System.currentTimeMillis());

            return true;

        } else{

           return true;

        }

    }

}


当我们的熔断开关处于打开状态时,此时是不允许任何请求处理的,而是直接降级处理,但是提供了markSuccess方法,当请求处理成功时进行熔断开关闭合。

public void markSuccess() {

    if (circuitOpen.get()){

        if(circuitOpen.compareAndSet(true, false)) {

            //重置health采样,不影响其他采用

           metrics.resetStream();

        }

    }

}

通过circuitBreakerSleepWindowInMilliseconds可以控制一个时间窗口内可进行一次请求测试,如果测试成功,则闭合熔断开关,否则还是打开状态,从而实现了快速失败和快速恢复。


关于熔断开关需要知道如下几个概念。

闭合(Closed):如果配置了熔断开关强制闭合,或者当前请求失败率没有超过失败率阀值,则熔断开关处于闭合状态,不启动熔断机制,即不进行降级处理。

打开(Open):如果配置了熔断开关强制打开,或者当前失败率超过失败率阀值,则熔断开关打开,启动熔断机制,根据配置调用降级处理方法getFallback进行降级处理。

半打开(Half-Open):当熔断处于打开状态后,不能一直熔断下去,需要在一个时间窗口后进行重试,这种状态就是半打开。Hystrix允许在circuit BreakerSleepWindowInMilliseconds窗口内进行一次重试,重试成功则闭合熔断开关,否则熔断开关还是处于打开状态。


那什么样的请求被认为是错误呢,HealthCounts在统计错误数量时使用如下方法。

public HealthCounts plus(long[] eventTypeCounts) {

    long updatedTotalCount= totalCount;

    long updatedErrorCount= errorCount;

 

    long successCount =eventTypeCounts[HystrixEventType.SUCCESS. ordinal()];

    long failureCount =eventTypeCounts[HystrixEventType.FAILURE. ordinal()];

    long timeoutCount =eventTypeCounts[HystrixEventType.TIMEOUT. ordinal()];

    long threadPoolRejectedCount= eventTypeCounts[HystrixEventType. THREAD_POOL_REJECTED.ordinal()];

    long semaphoreRejectedCount= eventTypeCounts[HystrixEventType. SEMAPHORE_REJECTED.ordinal()];

 

   updatedTotalCount += (successCount + failureCount + timeoutCount +threadPoolRejectedCount + semaphoreRejectedCount);

    updatedErrorCount += (failureCount+ timeoutCount + threadPoolRejectedCount + semaphoreRejectedCount);

    return new HealthCounts(updatedTotalCount, updatedErrorCount);

}


即失败(如异常)、超时、线程池拒绝、信号量拒绝数量总和是失败总数。

配置示例

下面是HystrixCommandProperties的熔断参数配置。

HystrixCommandProperties.Setter commandProperties =HystrixCommandProperties. Setter()

        ……

       .withCircuitBreakerEnabled(true)//默认为true

        .withCircuitBreakerForceClosed(false)//默认为false

        .withCircuitBreakerForceOpen(false)//默认为false

        .withCircuitBreakerErrorThresholdPercentage(50)//默认为50%

        .withCircuitBreakerRequestVolumeThreshold(20) //默认为20

        .withCircuitBreakerSleepWindowInMilliseconds(5000)//默认为为5s


具体配置含义如下所示。

withCircuitBreakerEnabled:是否开启熔断机制,默认为true。

withCircuitBreakerForceClosed:是否强制关闭熔断开关,如果强制关闭了熔断开关,则请求不会被降级,一些特殊场景可以动态配置该开关,默认为false。

withCircuitBreakerForceOpen:是否强制打开熔断开关,如果强制打开可熔断开关,则请求强制降级调用getFallback处理,可以通过动态配置来打开该开关实现一些特殊需求,默认为false。

withCircuitBreakerErrorThresholdPercentage:如果在一个采样时间窗口内,失败率超过该配置,则自动打开熔断开关实现降级处理,即快速失败。默认配置下采样周期为10s,失败率为50%。

withCircuitBreakerRequestVolumeThreshold:在熔断开关闭合情况下,在进行失败率判断之前,一个采样周期内必须进行至少N个请求才能进行采样统计,目的是有足够的采样使得失败率计算正确,默认为20。

withCircuitBreakerSleepWindowInMilliseconds:熔断后的重试时间窗口,且在该时间窗口内只允许一次重试。即在熔断开关打开后,在该时间窗口允许有一次重试,如果重试成功,则将重置Health采样统计并闭合熔断开关实现快速恢复,否则熔断开关还是打开状态,执行快速失败。


熔断后将降级调用getFallback进行处理(fallbackEnabled=true),通过Command如下方法可以判断是否熔断了。

isCircuitBreakerOpen:熔断开关是否打开了,通过“circuitBreakerForceOpen().get()|| (!circuitBreakerForceClosed().get() && circuitBreaker.isOpen())”判断。

isResponseShortCircuited:isCircuitBreakerOpen=true,且调用getFallback时返回true。


采样统计

Hystrix在内存中存储采样数据,支持如下两种采样。

BucketedCounterStream:计数统计,比如记录一定时间窗口内的失败、超时、线程池拒绝、信号量拒绝数量,记录N组。写入数据时写到第N组,统计时使用前N-1组数据,因为第N个刚开始统计时是随时变化的。然后基于时间滚转采样分组即可。

降级特技之使用Hystrix实现降级和熔断—《亿级流量网站架构核心技术》


采样统计滚转时间窗口为10s,每秒1个分组(桶),即每秒采样一次,每个分组记录着当前桶的成功、失败、超时、线程拒绝统计数量。


RollingConcurrencyStream:最大并发数统计,如Command/ThreadPool的最大并发数。


RollingDistributionStream:延时百分比统计,同HystrixRollingNumber类似,差别在于其是百分位数的统计。比如每组记录P(比如100)个数值,统计时使用前N-1组数据,将分组内数据按从小到大排序,然后累加,处于第p%位置的数值就是p百分位数,通过它可以实现P50、P99、P999,Hystrix用来统计时延的分布情况。最新版本Hystrix使用HdrHistogram库来实现统计。


3.1 Command、ThreadPool计数/最大并发采样统计

HystrixThreadPoolProperties.Setter threadPoolProperties = HystrixThreadPoolProperties.Setter()

        …… 

       .withMetricsRollingStatisticalWindowInMilliseconds(1000)

       .withMetricsRollingStatisticalWindowBuckets(10);

 

 

HystrixCommandProperties.Setter commandProperties =HystrixCommandProperties. Setter()

        ……

       .withMetricsRollingStatisticalWindowInMilliseconds(10000)

       .withMetricsRollingStatisticalWindowBuckets(10);

 

withMetricsRollingStatisticalWindowInMilliseconds:配置采样统计滚转时间窗口,默认为10s。

withMetricsRollingStatisticalWindowBuckets:配置采用统计滚转时间窗口内的桶的总数量,默认为10,比如时间窗口为10000,桶数量为10,则采样统计间隔为每秒一个桶统计。


3.2 Command健康度采样统计

HystrixCommandProperties.Setter commandProperties =HystrixCommandProperties. Setter()

        ……

       .withMetricsRollingStatisticalWindowInMilliseconds(10000)

       .withMetricsHealthSnapshotIntervalInMilliseconds(500);


withMetricsRollingStatisticalWindowInMilliseconds:同上所示。

withMetricsHealthSnapshotIntervalInMilliseconds:记录健康采用统计的快照频率,默认为500ms,即500ms一个采样统计间隔,那么桶的数量为10000/500=20个。


该统计在熔断机制中使用,如果计算熔断的频率非常高,则要控制好采样的频率,如果太频繁,那么将造成CPU计算密集,如10ms一个周期,因为会对前N-1个桶进行统计,计算累加时会耗费CPU。所以选择Hystrix要注意此处的性能消耗和调优。如果此处是性能瓶颈,则可以废掉统计,或者按照Hystrix思路实现自己的降级组件。


3.3 Command时延分布采样统计

HystrixCommandProperties.Setter commandProperties = HystrixCommandProperties.Setter()

        ……

       .withMetricsRollingPercentileWindowInMilliseconds(60000)

       .withMetricsRollingPercentileWindowBuckets(6);

同withMetricsRollingStatisticalWindowInMilliseconds和withMetricsRollingStatisticalWindowBuckets,默认采样滚转时间窗口为60s,总共6个桶,即采样统计间隔为每10秒一个桶统计。


4.统计结果

可以调用Command#getMetrics获取采样统计,然后通过HystrixCommandMetrics相关方法获取统计数据。

getExecutionTimePercentile(50);//P50

getExecutionTimePercentile(99);//P99

getExecutionTimePercentile(999);//P999

 

也可以订阅HystrixDashboardStream.getInstance()进行统计。Hystrix提供了hystrix-dashboard进行图形化展示。

接下来我们通过turbine + hystrix-dashboard实现集群化的统计可视化。

降级特技之使用Hystrix实现降级和熔断—《亿级流量网站架构核心技术》

首先,Hystrix应用会暴露统计接口,然后Turbine会聚合这些统计数据,Hystrix Dashboard会拉取聚合后的统计信息展示到仪表盘上。


5.Hystrix客户端添加暴露统计信息Servlet

@Bean

public ServletRegistrationBean servletRegistrationBean() {

    returnnew ServletRegistrationBean(new HystrixMetricsStreamServlet(), "/hystrix.stream");

}

在我们Hystrix客户端添加如上spring-boot代码配置,然后就可以访问如获取到统计数据。


6.部署Turbine

下载Turbine WAR包(本文使用的是Turbine 1.0.0),部署到Tomcat中,然后修改WEB-INF/classes/config.properties配置,启动Tomcat。

turbine.ConfigPropertyBasedDiscovery.default.instances=127.0.0.1

turbine.instanceUrlSuffix=:9080/hystrix.stream

配置Hystrix应用的IP和获取统计信息的URL path部分,组合后拉取统计信息。访问如获取聚合后的统计数据。


7.部署Hystrix Dashboard

下载 hystrix-dashboard WAR包(本文使用的是hystrix-dashboard 1.5.6),部署到Tomcat中,然后启动Tomcat。访问如启动仪表盘。


降级特技之使用Hystrix实现降级和熔断—《亿级流量网站架构核心技术》


相关阅读