从源码分析Hystrix工作机制

本文从源码角度分析了Hystrix熔断、隔离、健康统计等核心模块的实现原理，加强对底层原理的理解可以更加便捷的使用它。

在复杂的分布式应用中有着许多的依赖，各个依赖都有难免在某个时刻失败，如果应用不隔离各个依赖，降低外部的风险，那容易拖垮整个应用。

举个电商场景中常见的例子，比如订单服务调用了库存服务、商品服务、积分服务、支付服务，系统均正常情况下，订单模块正常运行。

但是当积分服务发生异常时且会阻塞30s时，订单服务就有有部分请求失败，且工作线程阻塞在调用积分服务上。

流量高峰时，问题会更加严重，订单服务的所有请求都会阻塞在调用积分服务上，工作线程全部挂起，导致机器资源耗尽，订单服务也不可用，造成级联影响，整个集群宕机，这种称为雪崩效应。

所以需要一种机制，使得单个服务出现故障时，整个集群可用性不受到影响。Hystrix就是实现这种机制的框架，下面我们分析一下Hystrix整体的工作机制。

【入口】Hystrix的执行入口是HystrixCommand或HystrixObservableCommand对象，通常在Spring应用中会通过注解和AOP来实现对象的构造，以降低对业务代码的侵入性；

【缓存】HystrixCommand对象实际开始执行后，首先是否开启缓存，若开启缓存且命中，则直接返回；

【熔断】若熔断器打开，则执行短路，直接走降级逻辑；若熔断器关闭，继续下一步，进入隔离逻辑。熔断器的状态主要基于窗口期内执行失败率，若失败率过高，则熔断器自动打开；

【隔离】用户可配置走线程池隔离或信号量隔离，判断线程池任务已满（或信号量），则进入降级逻辑；否则继续下一步，实际由线程池任务线程执行业务调用；

【执行】实际开始执行业务调用，若执行失败或异常，则进入降级逻辑；若执行成功，则正常返回；

【超时】通过定时器延时任务检测业务调用执行是否超时，若超时则取消业务执行的线程，进入降级逻辑；若未超时，则正常返回。线程池、信号量两种策略均隔离方式支持超时配置（信号量策略存在缺陷）；

【降级】进入降级逻辑后，当业务实现了HystrixCommand.getFallback() 方法，则返回降级处理的数据；当未实现时，则返回异常；

【统计】业务调用执行结果成功、失败、超时等均会进入统计模块，通过健康统计结果来决定熔断器打开或关闭。

都说源码里没有秘密，下面我们来分析下核心功能源码，看看Hystrix如何实现整体的工作机制。

家用电路中都有保险丝，保险丝的作用场景是，当电路发生故障或异常时，伴随着电流不断升高，并且升高的电流有可能损坏电路中的某些重要器件或贵重器件，也有可能烧毁电路甚至造成火灾。

若电路中正确地安置了保险丝，那么保险丝就会在电流异常升高到一定的高度和一定的时候，自身熔断切断电流，从而起到保护电路安全运行的作用。Hystrix提供的熔断器就有类似功能，应用调用某个服务提供者，当一定时间内请求总数超过配置的阈值，且窗口期内错误率过高，那Hystrix就会对调用请求熔断，后续的请求直接短路，直接进入降级逻辑，执行本地的降级策略。

Hystrix具有自我调节的能力，熔断器打开在一定时间后，会尝试通过一个请求，并根据执行结果调整熔断器状态，让熔断器在closed,open,half-open三种状态之间自动切换。

【HystrixCircuitBreaker】boolean attemptExecution()：每次HystrixCommand执行，都要调用这个方法，判断是否可以继续执行，若熔断器状态为打开且超过休眠窗口，更新熔断器状态为half-open；通过CAS原子变更熔断器状态来保证只放过一条业务请求实际调用提供方，并根据执行结果调整状态。

【HystrixCircuitBreaker】void markSuccess()：HystrixCommand执行成功后调用，当熔断器状态为half-open，更新熔断器状态为closed。此种情况为熔断器原本为open，放过单条请求实际调用服务提供者，并且后续执行成功，Hystrix自动调节熔断器为closed。

【HystrixCircuitBreaker】void markNonSuccess()：HystrixCommand执行成功后调用，若熔断器状态为half-open，更新熔断器状态为open。此种情况为熔断器原本为open，放过单条请求实际调用服务提供者，并且后续执行失败，Hystrix继续保持熔断器打开，并把此次请求作为休眠窗口期开始时间。

【HystrixCircuitBreaker】void subscribeToStream()：熔断器订阅健康统计结果，若当前请求数据大于一定值且错误率大于阈值，自动更新熔断器状态为opened，后续请求短路，不再实际调用服务提供者，直接进入降级逻辑。

在货船中，为了防止漏水和火灾的扩散，一般会将货仓进行分割，避免了一个货仓出事导致整艘船沉没的悲剧。同样的，在Hystrix中，也采用了这样的舱壁模式，将系统中的服务提供者隔离起来，一个服务提供者延迟升高或者失败，并不会导致整个系统的失败，同时也能够控制调用这些服务的并发度。如下图，订单服务调用下游积分、库存等服务使用不同的线程池，当积分服务故障时，只会把对应线程池打满，而不会影响到其他服务的调用。Hystrix隔离模式支持线程池和信号量两种方式。

信号量模式控制单个服务提供者执行并发度，比如单个CommondKey下正在请求数为N，若N小于maxConcurrentRequests，则继续执行；若大于等于maxConcurrentRequests，则直接拒绝，进入降级逻辑。信号量模式使用请求线程本身执行，没有线程上下文切换，开销较小，但超时机制失效。

【AbstractCommand】ObservableapplyHystrixSemantics(finalAbstractCommand _cmd)：尝试获取信号量，若能获取到，则继续调用服务提供者；若不能获取到，则进入降级策略。

【AbstractCommand】TryableSemaphore getExecutionSemaphore()：获取信号量实例，若当前隔离模式为信号量，则根据commandKey获取信号量，不存在时初始化并缓存；若当前隔离模式为线程池，则使用默认信号量TryableSemaphoreNoOp.DEFAULT，全部请求可通过。

线程池模式控制单个服务提供者执行并发度，代码上都会先走获取信号量，只是使用默认信号量，全部请求可通过，然后实际调用线程池逻辑。线程池模式下，比如单个CommondKey下正在请求数为N，若N小于maximumPoolSize，会先从 Hystrix 管理的线程池里面获得一个线程，然后将参数传递给任务线程去执行真正调用，如果并发请求数多于线程池线程个数，就有任务需要进入队列排队，但排队队列也有上限，如果排队队列也满，则进去降级逻辑。线程池模式可以支持异步调用，支持超时调用，存在线程切换，开销大。

【AbstractCommand】ObservableexecuteCommandWithSpecifiedIsolation(final AbstractCommand _cmd)：从线程池中获取线程，并执行，过程中记录线程状态。

【HystrixThreadPool】Subscription schedule(final Action0 action)：HystrixContextScheduler是Hystrix对rx中Scheduler调度器的重写，主要为了实现在Observable未被订阅时，不执行命令，以及支持在命令执行过程中能够打断运行。在rx中，Scheduler将生成对应的Worker给Observable用于执行命令，由Worker具体负责相关执行线程的调度，ThreadPoolWorker是Hystrix自行实现的Worker，执行调度的核心方法。

Hystrix超时机制降低了第三方依赖项延迟过高对调用方的影响，使请求快速失败。主要通过延迟任务机制实现，包括注册延时任务过程和执行延时任务过程。

当隔离策略为线程池时，主线程订阅执行结果，线程池中任务线程调用提供者服务端，同时会有定时器线程在一定时间后检测任务是否完成，若未完成则表示任务超时，抛出超时异常，并且后续任务线程的执行结果也会跳过不再发布；若已完成则表示任务在超时时间内完成执行完成，定时器检测任务结束。

当隔离策略为信号量时，主线程订阅执行结果并实际调用提供者服务端（没有任务线程），当超出指定时间，主线程仍然会执行完业务调用，然后抛出超时异常。信号量模式下超时配置有一定缺陷，不能取消在执行的调用，并不能限制主线程返回时间。

【AbstractCommand】ObservableexecuteCommandAndObserve(finalAbstractCommand _cmd)：超时检测入口，执行lift(new HystrixObservableTimeoutOperator(_cmd))关联超时检测任务。

【HystrixObservableTimeoutOperator】Subscriber<? super R> call(final Subscriber<? super R> child)：创建检测任务，并关联延迟任务；若检测任务执行时仍未执行完成，则抛出超时异常；若已执行完成或异常，则清除检测任务。

【HystrixTimer】ReferenceaddTimerListener(finalTimerListener listener)：addTimerListener通过java的定时任务服务scheduleAtFixedRate在延迟超时时间后执行。

public Reference addTimerListener(final TimerListener listener) {//初始化xianstartThreadIfNeeded();//构造检测任务Runnable r = new Runnable() {

Hystrix降级逻辑作为兜底的策略，当出现业务执行异常、线程池或信号量已满、执行超时等情况时，会进入降级逻辑。降级逻辑中应从内存或静态逻辑获取通用返回，尽量不依赖依赖网络调用，如果未实现降级方法或降级方法中也出现异常，则业务线程中会引发异常。

【AbstractCommand】Observable getFallbackOrThrowException(finalAbstractCommand _cmd, final HystrixEventType eventType, final FailureType failureType, final String message, final Exception originalException)：首先判断是否为不可恢复异常，若是则不走降级逻辑，直接异常返回；其次判断是否能获取到降级信号量，然后走降级逻辑；当降级逻辑中也发生异常或者没有降级方法实现时，则异常返回。

【HystrixCommand】R getFallback()：HystrixCommand默认抛出操作不支持异常，需要子类覆写getFalBack方法实现降级逻辑。

Hystrix基于通过滑动窗口的数据统计判定服务失败占比选择性熔断，能够实现快速失败并走降级逻辑。步骤如下：

AbstractCommand执行完成后调⽤ handleCommandEnd⽅法将执行结果HystrixCommandCompletion事件发布到事件流中；

事件流通过 Observable.window()⽅法将事件按时间分组，并通过 flatMap()⽅法将事件按类型（成功、失败等）聚合成桶，形成桶流；

再将各个桶使⽤Observable.window()按窗口内桶数量聚合成滑动窗⼝数据；

将滑动窗口数据聚合成数据对象（如健康数据流、累计数据等）；

熔断器CircuitBreaker初始化时订阅健康数据流，根据健康情况修改熔断器的开关。

【AbstractCommand】void handleCommandEnd(boolean commandExecutionStarted)：在业务执行完毕后，会调用handleCommandEnd方法，在此方法中，上报执行结果executionResult，这也是健康统计的入口。

【BucketedRollingCounterStream】BucketedRollingCounterStream(HystrixEventStream stream, final int numBuckets, int bucketSizeInMs,final Func2<Bucket, Event, Bucket> appendRawEventToBucket,final Func2<Output, Bucket, Output> re-duceBucket)

健康统计类HealthCountsStream的滑动窗口实现主要是在父类BucketedRollingCounterStream，首先父类BucketedCounterStream将事件流处理成桶流，BucketedRollingCounterStream处理成滑动窗口，然后由HealthCountsStream传入的reduceBucket函数处理成健康统计信息.

【HealthCounts】HealthCounts plus(long[] eventTypeCounts)：对桶内数据按事件类型累计，生成统计数据HealthCounts；

在分布式环境中，不可避免地会有许多服务的依赖项中有的失败。Hystrix作为一个库，可通过添加熔断、隔离、降级等逻辑来帮助用户控制分布式服务之间的交互，以提高系统的整体弹性。主要功能如下：

保护系统，控制来自访问第三方依赖项（通常是通过网络）的延迟和失败

阻止复杂分布式系统中的级联故障

快速失败并快速恢复

平滑降级

近乎实时的监控，警报和控制

Hystrix使用过程中，有一些要注意的点：

覆写的getFallback()方法，尽量不要有网络依赖。如果有网络依赖，建议采用多次降级，即在getFallback()内实例化 HystrixCommand，并执行Command。getFallback()尽量保证高性能返回，快速降级。

HystrixCommand 建议采用的是线程隔离策略。

hystrix.threadpool.default.allowMaximumSizeToDivergeFromCoreSize设置为true时，hystrix.threadpool.default.maximumSize才会生效。最大线程数需要根据业务自身情况和性能测试结果来考量，尽量初始时设置小一些，支持动态调整大小，因为它是减少负载并防止资源在延迟发生时被阻塞的主要工具。

信号隔离策略下，执行业务逻辑时，使用的是应用服务的父级线程（如Tomcat容器线程）。所以，一定要设置好并发量，有网络开销的调用，不建议使用该策略，容易导致容器线程排队堵塞，从而影响整个应用服务。

另外Hystrix高度依赖RxJava这个响应式函数编程框架，简单了解RxJava的使用方式，有利于理解源码逻辑。

Hystrix Github仓库：https://github.com/Netflix/Hystrix

分享 vivo 互联网技术干货与沙龙活动，推荐最新行业动态与热门会议。

从源码分析Hystrix工作机制

继续阅读

Kafka：Topic概念与API介绍

ZooKeeper ： Curator框架之分布式屏障DistributedDoubleBarrier

RabbitMQ：交换机（fanout exchange）

Doris SQL 原理解析

ZooKeeper ： Curator框架之分布式锁InterProcessMutex

基于jdk1.8的Vector源码分析

阿里巴巴分布式服务框架 Dubbo 团队成员梁飞专访

数据迁移方法数据迁移原则数据迁移之双写方案数据迁移之级联同步方案

微服务-性能压测\缓存redis和分布式锁redisson和SpringCache

Nacos 2.0 升级前后性能对比压测

Spring数据和Redis

redis集群数据一致性_RedisRaft为Redis集群带来强大的数据一致性

Centos7 下 Hadoop 2.6.4 分布式集群环境搭建摘要集群准备安装JDK 安装 Hadoop 2.6.4 部署 slaver1-slaver4 启动 hadoop 集群成功了

celery使用入门

MapReduce的几个企业级经典面试案例MapReduce的几个企业级经典面试案例