一. 分布式系统面临的问题
复杂分布式体系结构中的应用程序有数十个依赖关系,每个依赖关系在某些时候将不可避免地损失的。
服务雪崩
多个微服务之间调用的时候,假设微服务A调用微服务B和微服务C,微服务B和微服务C又调用其它的微服务,这就是所谓的"扇出"。
如果扇出的链路上某个微服务的调用响应时间过长或者不可用,对微服务A的调用就会占用越来越多的系统资源,进而引起系统崩溃,所谓的“雪崩效应”.
对于高流量的应用来说,单-的后端依赖可能会导致所有服务器上的所有资源都在几秒钟内饱和。比失败更糟糕的是,这些应用程序还可能导致服务之间的延迟增加,备份队列,线程和其他系统资源紧张,导致整个系统发生更多的级联故障。这些都表示需要对故障和延迟进行隔离和管理,以便单个依赖关系的失败,不能取消整个应用程序或系统。
所以,通常当你发现一个模块下的某个实例失败后,这时候这个模块依然还会接收流量,然后这个有问题的模块还调用了其他的模块,这样就会发生级联故障,或者叫雪崩。
二. Hystrix是什么?
Hystrix是一个用于处理分布式系统的延迟和容错的开源库, 在分布式系统里,许多依赖不可避免的会调用失败,比如超时、异常等
Hystrix能够保证在一个依赖出问题的情况下,不会导致整体服务失败,避免级联故障,以提高分布式系统的弹性。
“断路器”本身是一种开关装置,当某个服务单元发生故障之后,通过断路器的故障监控(类似熔断保险丝),向调用方返回一个符合预期的、可处理的备选响应(FallBack) ,而不是长时间的等待或者抛出调用方无法处理的异常,这样就保证了服务调用方的线程不会被长时间、不必要地占用,从而避免了故障在分布式系统中的蔓延,乃至雪崩。
但是停更了…,不影响先学一波,毕竟设计理论与思想最重要嘛,大家都是抄作业,像阿里的sentinel…
总结一下:
Hystrix主要有三个功能:
- 服务降级
- 服务熔断
- 服务限流
其中服务降级和服务熔断最为突出,这里对于服务降级和服务熔断做一个简单说明:
服务降级:例如我们访问一个网站时,有时由于网络/并发高,此时网站会给我们响应一个服务器忙请稍后再试。此时因为网络或某些原因,网站的后台暂时处理不过来,为了不让用户等太长时间,此时就会直接返回一个服务降级页面给用户。
![]()
springcloud组件入门使用——Hystrix 服务熔断:这里相当于一个保险丝,当保险丝断了的时候就会利用服务降级给客户提示,并直接拒绝访问服务,当保险丝再某段时间修好了就会自动又恢复功能。熔断相对于降级是一个更高压力和网站错误出现的情况,而服务降级更多是网络/高访问的情况触发的保护系统其他功能的实现。
服务熔断不等于服务降级,服务熔断错误程度大于服务降级,服务熔断通过服务降级通知用户不可用,当服务可用时会自动恢复。
那么此时怎么使用Hystrix进行服务降级、熔断处理?
一、服务降级:
1、当要在提供者服务做服务降级:
pom:
<!--hystrix--> <dependency> <groupId>org.springframework.cloud</groupId> <artifactId>spring-cloud-starter-netflix-hystrix</artifactId> </dependency>
启动类加上:@EnableHystrix注解
在相应处理服务降级的方法/接口上编写,这里改造了一个接口
(超过3秒就触发降级方法paymentInfoTimeOutHandler,这里我睡眠了4秒)
http://localhost:8001/payment/lb@HystrixCommand(fallbackMethod = "paymentInfoTimeOutHandler",commandProperties = { @HystrixProperty(name = "execution.isolation.thread.timeoutInMilliseconds",value = "3000") }) @GetMapping("/payment/lb") public String getPaymentLB() throws InterruptedException { Thread.sleep(4000); return serverPort; } public String paymentInfoTimeOutHandler(){ return "程序运行繁忙或报错,请稍后再试*****"+"当前线程: "+Thread.currentThread().getName()+id+"\t "+"orz!"; }
如果我想应用到整个controller类的所有接口:![]()
springcloud组件入门使用——Hystrix @DefaultProperties(defaultFallback = "payment_Global_FallbackMethod") @RestController @Slf4j public class PaymentController { @Resource private PaymentService paymentService; @Value("${server.port}") private String serverPort; // @HystrixCommand(fallbackMethod = "paymentInfoTimeOutHandler",commandProperties = { // @HystrixProperty(name = "execution.isolation.thread.timeoutInMilliseconds",value = "3000") // }) @HystrixCommand //将之前的注释掉,如果没注释掉还是会走自己方法上定义的规则 @GetMapping("/payment/lb") public String getPaymentLB() throws InterruptedException { int i =10/0; return serverPort; } public String paymentInfoTimeOutHandler(){ return "程序运行繁忙或报错,请稍后再试*****"+"当前线程: "+Thread.currentThread().getName()+"\t "+"orz!"; } public String payment_Global_FallbackMethod(){ return "Global异常处理信息,请稍后再试: orz~"; } }
![]()
springcloud组件入门使用——Hystrix 注意如果用消费者去掉提供者,其中提供者有两个服务集群,其中一个出错了,另一个没出错,此时会去调用没出错的提供者。
2、消费者实现降级(如果提供者有做降级处理,则调用出错返回提供者降级结果,如是消费者自己出错/提供者没做降级处理则返回自己的那个降级结果)
pom:
yml:(提供者不用)<dependency> <groupId>org.springframework.cloud</groupId> <artifactId>spring-cloud-starter-netflix-hystrix</artifactId> </dependency>
在feign接口上:其中PaymentHystrixServiceImpl是降级处理类#yml添加配置,开启 hystrix feign: hystrix: enabled: true
编写降级处理类:(实现feign接口)@FeignClient(value = "cloud-payment-service",fallback = PaymentHystrixServiceImpl.class)//调用的服务名 @Component public interface PaymentFeignService { @GetMapping(value = "/payment/get/{id}") public CommonResult getPaymentById(@PathVariable("id") Long id); @GetMapping(value="/payment/lb") public String getPaymentLB() throws InterruptedException; }
启动类:@Component public class PaymentHystrixServiceImpl implements PaymentFeignService { @Override public CommonResult getPaymentById(Long id) { return null; } @Override public String getPaymentLB() throws InterruptedException { return "程序运行繁忙或报错,请稍后再试*****"+"当前线程: "+Thread.currentThread().getName()+"\t "+"orz!"; } }
controller:@SpringBootApplication @EnableFeignClients @EnableHystrix public class OrderOpenFeignMain80 { public static void main(String[] args) { SpringApplication.run(OrderOpenFeignMain80.class,args); } }
此时远程提供者我们伪造其接口出错:@RestController public class OrderFeignController { @Resource private PaymentFeignService paymentFeignService; @GetMapping(value = "/consumer/payment/get/{id}") public CommonResult getPaymentById(@PathVariable("id") Long id){ CommonResult paymentById = paymentFeignService.getPaymentById(id); return paymentById ; } @GetMapping(value = "/consumer/payment/lb") public String getPaymentB() throws InterruptedException { String paymentLB = paymentFeignService.getPaymentLB(); return paymentLB ; } }
测试:http://localhost/consumer/payment/lb@GetMapping("/payment/lb") public String getPaymentLB() throws InterruptedException { int i = 10/0; return serverPort; }
![]()
springcloud组件入门使用——Hystrix
至于服务熔断,也是调用服务降级方法,只是我们可以配置服务熔断的条件:
例如:下面表示在10s内,请求10次如果成功低于60则进行熔断@HystrixCommand(fallbackMethod="paymentCircuitBreakerFallback", commandProperties={ @HystrixProperty(name = "circuitBreaker.enabled" ,value = "true"),//是否开启断路器 @HystrixProperty(name = "circuitBreaker.requestVolumeThreshold",value = "10"),// 请求次数 @HystrixProperty(name = "circuitBreaker.sleepWindowInMilliseconds",value = "10000"),//时间窗口期 " @HystrixProperty(name = "circuitBreaker.errorThresholdPercentage",value = "60")//失败率达到多少后跳闸 }) public String paymentCircuitBreaker(@PathVariable("id") Integer id){ if (id<0){ throw new RuntimeException(); } String serialNumber = IdUtil.simpleUUID(); return Thread.currentThread().getName()+"\t "+"调用成功,流水号: "+serialNumber; } public String paymentCircuitBreakerFallback(@PathVariable("id") Integer id){ return "id不能为负数,请稍后再试~ id: "+ id; }
![]()
springcloud组件入门使用——Hystrix 这里就不作测试了
总结
设计熔断的三个参数
熔断打开
请求不再进行调用当前服务,内部设置时钟一般为MTTR (平均故障处理时间),当打开时长达到所设时钟则进入半熔断状态
熔断关闭
熔断关闭不会对服务进行熔断
熔断半开
部分请求根据规则调用当前服务,如果请求成功且符合规则则认为当前服务恢复正常,关闭熔断
![]()
springcloud组件入门使用——Hystrix 就是这哥三~
涉汲到断路器的三个重要参数:快照时间窗、请求总数阀值、错误百分比阀值。
- 1:快照时间窗:断路器确定是否打开需要统计一些请求和错误数据,而统计的时间范围就是快照时间窗,默认为最近的10秒。
- 2:请求总数阀值:在快照时间窗内,必须满足请求总数阀值才有资格熔断。默认为20, 意味着在10秒内,如果该hystrix命令的调用次数不足20次,即使所有的请求都超时或其他原因失败,断路器都不会打开。
- 3:错误百分比阀值:当请求总数在快照时间窗内超过了阀值,比如发生了30次调用,如果在这30次调用中,有15次发生了超时异常,也就是超过50%的错误百分比,在默认设定50%阀值情况下,这时候就会将断路器打开。
原来的主逻辑要如何恢复呢?
对于这一-问题,hystrix也为我们实现了自动恢复功能。
- 当断路器打开,对主逻辑进行熔断之后,hystrix会启动一个休眠时间窗在这个时间窗内,降级逻辑是临时的成为主逻辑,
- 当休眠时间窗到期,断路器将进入半开状态,释放一次请求到原来的主逻辑上,如果此次请求正常返回,那么断路器将继续闭合,
- 主逻辑恢复,如果这次请求依然有问题,断路器继续进入打开状态,休眠时间窗重新计时。
断路器开启/关闭条件
![]()
springcloud组件入门使用——Hystrix Hystrix 全部配置一览
此部分内容,可参考官方文档:https://github.com/Netflix/Hystrix/wiki/Configuration#execution.isolation.strategy@HystrixCommand(fallbackMethod = "str_fallbackMethod", groupKey = "strGroupCommand", commandKey = "strCommand", threadPoolKey = "strThreadPool", commandProperties = { //设置执行隔离策略,THREAD 表示线程池 SEMAPHORE:信号量隔离 默认为THREAD线程池 @HystrixProperty(name = "execution.isolation.strategy", value = "THREAD"), // 当隔离策略选择信号池隔离的时候,用来设置信号池的大小(最大并发数) @HystrixProperty(name = "execution.isolation.semaphore.maxConcurrentRequests", value = "10"), // 配置命令执行的超时时间 @HystrixProperty(name = "execution.isolation.thread.timeoutinMilliseconds", value = "10"), // 是否启用超时时间 @HystrixProperty(name = "execution.timeout.enabled", value = "true"), // 执行超时的时候是否中断 @HystrixProperty(name = "execution.isolation.thread.interruptOnTimeout", value = "true"), // 执行被取消的时候是否中断 @HystrixProperty(name = "execution.isolation.thread.interruptOnCancel", value = "true"), // 允许回调方法执行的最大并发数 @HystrixProperty(name = "fallback.isolation.semaphore.maxConcurrentRequests", value = "10"), // 服务降级是否启用,是否执行回调函数 @HystrixProperty(name = "fallback.enabled", value = "true"), // 设置断路器是否起作用。 @HystrixProperty(name = "circuitBreaker.enabled", value = "true"), // 该属性用来设置在滚动时间窗中,断路器熔断的最小请求数。例如,默认该值为 20 的时候, // 如果滚动时间窗(默认10s)内仅收到了19个请求,及时这19个请求都失败了,断路也不会打开。 @HystrixProperty(name = "circuitBreaker.requestVolumeThreshold", value = "20"), // 该属性用来设置在滚动时间窗中,表示在滚动时间窗中,在请求数量超过 circuitBreaker.requestVolumeThreshold 的情况下, // 如果错误请求数的百分比超过 50,就把断路器设置为"打开"状态,否则就设置为"关闭"状态 @HystrixProperty(name = "circuitBreaker.errorThresholdPercentage", value = "50"), // 该属性用来设置当断路器打开之后的休眠时间窗。休眠时间窗结束之后,会将断路器置为"半开"状态, // 尝试熔断的请求命令,如果依然失败就将断路器继续设置为"打开"状态,如果成功就设置为"关闭"状态 @HystrixProperty(name = "circuitBreaker.sleepWindowinMilliseconds", value = "5000"), // 断路器强制打开 @HystrixProperty(name = "circuitBreaker.forceOpen", value = "false"), // 断路器强制关闭 @HystrixProperty(name = "circuitBreaker.forceClosed", value = "false"), // 滚动时间窗设置,该时间用于断路器判断健康度时,需要收集信息的持续时间 @HystrixProperty(name = "metrics.rollingStats.timeinMilliseconds", value = "10000"), // 该属性用来设置滚动时间窗统计指标信息时,划分"桶"的数量,断路器在手机指标信息的时候会根据设置的时间窗长度拆分成多个"桶"来累计各度量值,每个 // "桶"记录了一段时间内的采集指标。比如 10 秒内拆分成 10 个"桶'收集这样,所以 timeinMilliseconds 必须能被 numBuckets 整除。否则会抛异常 @HystrixProperty(name = "metrics.rollingStats.numBuckets", value = "10"), // 该属性用来设置对命令执行的延迟是否采用百分位数来跟踪和计算。如果设置为 false,name所有的概要统计都将返回-1 @HystrixProperty(name = "metrics.rollingPercentile.enabled", value = "false"), // 该属性用来设置百分位统计的滚动窗口的持续时间,单位为毫秒 @HystrixProperty(name = "metrics.rollingPercentile.timeInMilliseconds", value = "60000"), // 该属性用来设置百分位统计滚动窗口中使用 "桶" 的数量 @HystrixProperty(name = "metrics.rollingPercentile.numBuckets", value = "60000"), // 该属性用来设置在执行过程中每个"桶"中保留的最大执行次数。如果在滚动时间窗内发生超过该设定值的执行次数 // 就从最初的位置开始重写。例如,将该值设置为100,滚动窗口为10秒,若在10秒内一个"桶"中发生了500次执行, // 那么该"桶"中只保留最后的100次执行的统计。另外,增加该值的大小将会增加内存量的消耗,并增加排序百分位数所需的计算时间 @HystrixProperty(name = "metrics.rollingPercentile.bucketSize", value = "100"), // 该属性用来设置采集意向断路器状态的健康快照(请求的成功、错误百分比)的间隔等待时间 @HystrixProperty(name = "metrics.healthSnapshot.intervalinMilliseconds", value = "500"), // 是否开启请求缓存 @HystrixProperty(name = "requestCache.enabled", value = "true"), // HystrixCommand 的执行和事件是否打印日志到 HystrixRequestLog 中 @HystrixProperty(name = "requestLog.enabled", value = "true") }, threadPoolProperties = { // 该参数用来设置执行命令线程池的核心线程数,该值也就是命令执行的最大并发量 @HystrixProperty(name = "coreSize", value = "10"), // 该参数用来设置线程池的最大队列大小。当设置为 -1 时,线程池将使用 SynchronousQueue 实现的队列,否则将使用 LinkedBlockingQueue 实现的队列 @HystrixProperty(name = "maxQueueSize", value = "-1"), // 该参数用来为队列设置拒绝阈值。通过该参数,即使队列没有达到最大值也能拒绝请求。该参数主要是对 LinkedBlockingQueue 队列的补充,因为LinkedBlockingQueue // 队列不能动态修改它的对象大小,而通过该属性就可以调整拒绝请求的队列大小了 @HystrixProperty(name = "queueSizeRejectionThreshold", value = "5") } )
Hystrix DashBoard 图形化界面搭建
这里就不多说了,因为我也没建成功,后面再去实现一下
还有Hystrix的限流就不讲了现在都是用sentinel。Hystrix虽然已经不行了但是其设计思想和解决方案是非常不错的,
eureka、hystrix虽然不太行了,但面试经常问,所以之后会对hystrix的原理写一些分析分析。
(eureka、Hystrix、gateway、ribbon、openfign、nacos、Sentinel、seata都会对其原理做分析)