SpringCould中的Hystrix

2020 年 10 月 12 日
筆記
Spring Cloud

一、簡介

源碼地址://gitee.com/xiaocheng0902/my-cloud.git

1，定義

　　Hystrix是一個用於處理分佈式系統的延遲和容錯的開源庫，在分佈式系統里，許多依賴不可避免的會調用失敗，比如超時、異常等。Hystrix能夠保證在一個依賴出問題的情況下，不會導致整體服務失敗，避免級聯故障，以提高分佈式系統的彈性。

　　”斷路器”本身是一種開關裝置，當某個服務單元發生故障之後，通過斷路器的故障監控（類似熔斷保險絲），向調用方返回一個符合預期的、可處理的備選響應（FallBack），而不是長時間的等待或者拋出調用方無法處理的異常，這樣就保證了服務調用方的線程不會被長時間的、不必要地佔用，從而避免了故障在分佈式系統中的蔓延，乃至雪崩。

2，作用

　a)服務降級

　　服務降級是從整個系統的負荷情況出發和考慮的，對某些負荷會比較高的情況，為了預防某些功能（業務場景）出現負荷過載或者響應慢的情況，在其內部暫時捨棄對一些非核心的接口和數據的請求，而直接返回一個提前準備好的fallback（退路）錯誤處理信息。這樣，雖然提供的是一個有損的服務，但卻保證了整個系統的穩定性和可用性

　b)服務熔斷

　　服務熔斷的作用類似於我們家用的保險絲，當某服務出現不可用或響應超時的情況時，為了防止整個系統出現雪崩，暫時停止對該服務的調用。

　c)熔斷vs降級

3，使用依賴

<!--新增hystrix-->
<dependency>
   <groupId>org.springframework.cloud</groupId>
   <artifactId>spring-cloud-starter-netflix-hystrix</artifactId>
   <version>2.2.1.RELEASE</version>
</dependency>

二、服務降級

1，服務提供者(自身)

對應源碼:cloud-provider-hystrix-payment8001

　　在主啟動類Application上註解

@EnableCircuitBreaker

　　在service的方法中加入

//主方法
@HystrixCommand(fallbackMethod = "paymentInfo_TimeOutHandler",commandProperties = { //出現超時,異常調用fallbackMethod方法
        @HystrixProperty(name = "execution.isolation.thread.timeoutInMilliseconds",value = "3000")  //3秒鐘以內就是正常的業務邏輯
})
public String paymentInfo_TimeOut(Integer id){
    int timeNumber = 5;  //1 的時候為正常執行當前方法
    //throw new RuntimeException();  //異常情況會直接跳過進入paymentInfo_TimeOutHandler
    try { TimeUnit.SECONDS.sleep(timeNumber); }catch (Exception e) {e.printStackTrace();}
    return "線程池："+Thread.currentThread().getName()+"   paymentInfo_TimeOut,id：  "+id+"\t"+"嗚嗚嗚"+" 耗時(秒)"+timeNumber;
}

//備選方法
public String paymentInfo_TimeOutHandler(Integer id){
    return "線程池："+Thread.currentThread().getName()+"   系統繁忙, 請稍候再試  ,id：  "+id+"\t"+"哭了哇嗚";
}

2，服務調用者(fegin消費者)

對應源碼:cloud-consumer-feign-hystrix-order80

　　yaml文件中添加配置

feign:
  hystrix:
    enabled: true #如果處理自身的容錯就開啟。開啟方式與生產端不一樣。
  client:
    config:
      default:
        connectTimeout: 5000 # feign 的超時設置
        readTimeout: 5000 #同時配置一下feign的讀取 超時
#超時時間配置，此處全局超時配置時間大於@HystrixProperty配置時間後，@HystrixProperty註解中的超時才生效
hystrix:
  command:
    default:
      execution:
        isolation:
          thread:
            timeoutInMilliseconds: 10000

　　主啟動類Application上加上註解

@EnableHystrix

　　業務類controller中加入

//主方法
@GetMapping("/consumer/payment/hystrix/timeout/{id}")
@HystrixCommand(fallbackMethod = "paymentTimeOutFallbackMethod",commandProperties = {
        @HystrixProperty(name="execution.isolation.thread.timeoutInMilliseconds", value="1500")//1.5秒鐘以內就是正常的業務邏輯
})
public String paymentInfo_TimeOut(@PathVariable("id") Integer id){
    String result = paymentHystrixService.paymentInfo_TimeOut(id);
    return result;
}

//備用方法
public String paymentTimeOutFallbackMethod(@PathVariable("id") Integer id){
    return "我是消費者80，對付支付系統繁忙請10秒鐘後再試或者自己運行出錯請檢查自己,(┬＿┬)";
}

3，全局服務降級(feign消費端)

對應源碼:cloud-consumer-feign-hystrix-order80

　　解決主方法一個備用方法的代碼冗餘。(源碼同上)

　　yaml文件中添加配置

feign:
  hystrix:
    enabled: true #如果處理自身的容錯就開啟。開啟方式與生產端不一樣。
  client:
    config:
      default:
        connectTimeout: 5000 # feign 的超時設置
        readTimeout: 5000 #同時配置一下feign的讀取 超時
#超時時間配置，此處全局超時配置時間大於@HystrixProperty配置時間後，@HystrixProperty註解中的超時才生效
hystrix:
  command:
    default:
      execution:
        isolation:
          thread:
            timeoutInMilliseconds: 10000

　　主啟動類Application上加上註解

@EnableHystrix

　　業務類controller中編碼

@RestController
@DefaultProperties(defaultFallback="paymentGobalFallbackMethod", commandProperties = {
        //如果commandProperties沒有對應的內容就會走默認的HystrixCommandProperties中的配置
        @HystrixProperty(name = "execution.isolation.thread.timeoutInMilliseconds", value = "1500")})
public class OrderHystrixController {

    @Resource
    private PaymentHystrixService paymentHystrixService;

    //主方法
    @GetMapping("/consumer/payment/hystrix/timeout/{id}")
    @HystrixCommand //標識走全局的備用策略
    public String paymentInfo_TimeOut(@PathVariable("id") Integer id) {
        String result = paymentHystrixService.paymentInfo_TimeOut(id);
        return result;
    }

    //全局備用方法
    public String paymentGobalFallbackMethod() {
        return "Gobal全局備選方法，對象系統繁忙或者已經down機了，請稍後再試";
    }

}

4，降級分離(feign消費端)

對應源碼:cloud-consumer-feign-hystrix-order80

　　yaml文件配置

feign:
  hystrix:
    enabled: true #如果處理自身的容錯就開啟。開啟方式與生產端不一樣

　　feign調用的接口

@Component
@FeignClient(value = "CLOUD-PROVIDER-HYSTRIX-PAYMENT",fallback = PaymentHystrixFallbackServiceImpl.class) //配置對應的fallback的類
public interface PaymentHystrixFallbackService {
    @GetMapping("/payment/hystrix/ok/{id}")
    public String paymentInfo_OK(@PathVariable("id") Integer id);

    @GetMapping("/payment/hystrix/timeout/{id}")
    public String paymentInfo_TimeOut(@PathVariable("id") Integer id);
}

　　feign調用接口的實現類

/**
 * fallback類，用於承載整個類的降級處理
 */
@Component
public class PaymentHystrixFallbackServiceImpl implements PaymentHystrixFallbackService {
    @Override
    public String paymentInfo_OK(Integer id) {
        return "-----PaymentFallbackService fall back-paymentInfo_OK , (┬＿┬)";
    }

    @Override
    public String paymentInfo_TimeOut(Integer id) {
        return "-----PaymentFallbackService fall back-paymentInfo_TimeOut , (┬＿┬)";
    }
}

　　controller中正常調用即可

@Slf4j
@RestController
public class OrderHystrixControllerFallbackClass {

    @Resource
    private PaymentHystrixFallbackService paymentHystrixFallbackService;

    @Value("${server.port}")
    private String serverPort;

    @GetMapping("/consumer_all/payment/hystrix/ok/{id}")
    public String paymentInfo_OK(@PathVariable("id") Integer id) {
        String result = paymentHystrixFallbackService.paymentInfo_OK(id);
        log.info("*******result:" + result);
        return result;
    }

    @GetMapping("/consumer_all/payment/hystrix/timeout/{id}")
    public String paymentInfo_TimeOut(@PathVariable("id") Integer id) {
        String result = paymentHystrixFallbackService.paymentInfo_TimeOut(id);
        return result;
    }
}

三、服務熔斷

　　熔斷機制是應對雪崩效應的一種微服務鏈路保護機制。當扇出鏈路的某個微服務出錯不可用或者響應時間太長時，會進行服務的降級，進而熔斷該節點微服務的調用，快速返回錯誤的響應信息。當檢測到該節點微服務調用響應正常後，恢復調用鏈路。

1，實例(提供端)

源碼:cloud-provider-hystrix-payment8001

　　啟動類

@EnableCircuitBreaker //啟動熔斷
@EnableEurekaClient
@SpringBootApplication
public class CloudHystrixPaymentApplicaiton8001{...}

　　service

@Service
public class PaymentCircutBreakerService {
    //服務熔斷
    @HystrixCommand(fallbackMethod = "paymentCircuitBreaker_fallback",commandProperties = {
            @HystrixProperty(name = "circuitBreaker.enabled",value = "true"),  //是否開啟斷路器
            @HystrixProperty(name = "circuitBreaker.requestVolumeThreshold",value = "10"),   //請求次數
            @HystrixProperty(name = "circuitBreaker.sleepWindowInMilliseconds",value = "10000"),  //時間範圍
            @HystrixProperty(name = "circuitBreaker.errorThresholdPercentage",value = "60"), //失敗率達到多少後跳閘
    })
    public String paymentCircuitBreaker(Integer id){
        if (id < 0){
            throw new RuntimeException("*****id 不能負數");
        }
        String serialNumber = IdUtil.simpleUUID();

        return Thread.currentThread().getName()+"\t"+"調用成功,流水號："+serialNumber;
    }
    public String paymentCircuitBreaker_fallback(@PathVariable("id") Integer id){
        return "id 不能負數，請稍候再試,(┬＿┬)/~~     id: " +id;
    }
}

　　controller

//===服務熔斷
@GetMapping("/payment/circuit/{id}")
public String paymentCircuitBreaker(@PathVariable("id") Integer id){
    String result = paymentCircutBreakerService.paymentCircuitBreaker(id);
    log.info("*******result:"+result);
    return result;
}

　　測試

http://localhost:8001/payment/circuit/-1  //多次調用報錯就會開啟熔斷，此時再調用正確發現不會立馬返回正確結果
http://localhost:8001/payment/circuit/1

2，服務熔斷原理

a)熔斷類型

　　熔斷打開：請求不在進行調用當前服務，內部設置始終一般為MTTR(平均故障處理時間)，當打開時長達到所設時鐘則進入熔斷狀態。

　　熔斷關閉：熔斷關閉不會對服務進行熔斷。

　　熔斷半開：部分請求根據規則調用當前服務，如果請求成功且符合規則則認為當前服務恢復正常，關閉熔斷。

b）斷路器開啟條件

@HystrixCommand(fallbackMethod = "paymentCircuitBreaker_fallback",commandProperties = {
      @HystrixProperty(name = "circuitBreaker.enabled",value = "true"),  //是否開啟斷路器
      @HystrixProperty(name = "circuitBreaker.requestVolumeThreshold",value = "10"),   //請求次數
      @HystrixProperty(name = "circuitBreaker.sleepWindowInMilliseconds",value = "10000"),  //時間範圍
      @HystrixProperty(name = "circuitBreaker.errorThresholdPercentage",value = "60"), //失敗率達到多少後跳閘
})

涉及到斷路器的是哪個重要參數:快照時間窗口、請求總數閾值、錯誤百分比閾值。
1)快照時間:斷路器確定是否打開需要統計一些請求和錯誤數據，而統計的時間範圍就是快照時間窗，默認為最近的10秒。
2)請求總數閾值:在快照時間窗內，必須滿足請求總數閾值才有資格熔斷。默認為20，意味着在10秒內，如果該hystrix命令的調用總次數不足20次，即使所有的請求都超時或其他原因失敗，斷路器都不會打開。
3)錯誤百分比閾值:當請求總數在快照時間窗內超過閾值，比如發生了30次調用，如果在這30次調用中，有15次發生了超時異常，也就是超過50%的錯誤百分比，在默認設定50%閾值情況下，這時候就會將斷路器打開。

c)斷路器開啟後續

　　1，再有請求調用的時候，將不會調用主邏輯，而是直接調用降級fallback。通過斷路器，實現了自動地發現錯誤並將降級邏輯切換為主邏輯，減少響應延遲的效果。

　　2，原來的主邏輯如何恢復：當斷路器打開，對主邏輯進行熔斷之後，hystrix會啟動一個休眠時間窗，在這個窗內，降級邏輯是臨時的成為主邏輯；當休眠時間窗到期，斷路器會進入半開狀態，釋放一次請求到原來的主邏輯上，如果此時請求正常返回，那麼斷路器將繼續閉合，主邏輯恢復，如果這次請求依然有問題，斷路器繼續進入打開狀態，休眠時間窗重新計時。

d)各種參數

HystrixCommand:

commandKey：用來標識一個 Hystrix 命令，默認會取被註解的方法名。需要注意：Hystrix 里同一個鍵的唯一標識並不包括 groupKey，建議取一個獨一二無的名字，防止多個方法之間因為鍵重複而互相影響。
groupKey：一組 Hystrix 命令的集合， 用來統計、報告，默認取類名，可不配置。
threadPoolKey：用來標識一個線程池，如果沒設置的話會取 groupKey，很多情況下都是同一個類內的方法在共用同一個線程池，如果兩個共用同一線程池的方法上配置了同樣的屬性，在第一個方法被執行後線程池的屬性就固定了，所以屬性會以第一個被執行的方法上的配置為準。
commandProperties：與此命令相關的屬性。
threadPoolProperties：與線程池相關的屬性，
observableExecutionMode：當 Hystrix 命令被包裝成 RxJava 的 Observer 異步執行時，此配置指定了 Observable 被執行的模式，默認是 ObservableExecutionMode.EAGER，Observable 會在被創建後立刻執行，而 ObservableExecutionMode.EAGER模式下，則會產生一個 Observable 被 subscribe 後執行。我們常見的命令都是同步執行的，此配置項可以不配置。
ignoreExceptions：默認 Hystrix 在執行方法時捕獲到異常時執行回退，並統計失敗率以修改熔斷器的狀態，而被忽略的異常則會直接拋到外層，不會執行回退方法，也不會影響熔斷器的狀態。
raiseHystrixExceptions：當配置項包括 HystrixRuntimeException 時，所有的未被忽略的異常都會被包裝成 HystrixRuntimeException，配置其他種類的異常好像並沒有什麼影響。
fallbackMethod：方法執行時熔斷、錯誤、超時時會執行的回退方法，需要保持此方法與 Hystrix 方法的簽名和返回值一致。
defaultFallback：默認回退方法，當配置 fallbackMethod 項時此項沒有意義，另外，默認回退方法不能有參數，返回值要與 Hystrix方法的返回值相同。

commandProperties:

線程隔離(Isolation)
execution.isolation.strategy： 配置請求隔離的方式，有 threadPool（線程池，默認）和 semaphore（信號量）兩種，信號量方式高效但配置不靈活，我們一般採用 Java 里常用的線程池方式。
execution.timeout.enabled：是否給方法執行設置超時，默認為 true。
execution.isolation.thread.timeoutInMilliseconds：方法執行超時時間，默認值是 1000，即 1秒，此值根據業務場景配置。
execution.isolation.thread.interruptOnTimeout： execution.isolation.thread.interruptOnCancel：是否在方法執行超時/被取消時中斷方法。需要注意在 JVM 中我們無法強制中斷一個線程，如果 Hystrix 方法里沒有處理中斷信號的邏輯，那麼中斷會被忽略。
execution.isolation.semaphore.maxConcurrentRequests：默認值是 10，此配置項要在 execution.isolation.strategy 配置為 semaphore 時才會生效，它指定了一個 Hystrix 方法使用信號量隔離時的最大並發數，超過此並發數的請求會被拒絕。信號量隔離的配置就這麼一個，也是前文說信號量隔離配置不靈活的原因。

統計器(Metrics)
metrics.rollingStats.timeInMilliseconds：此配置項指定了窗口的大小，單位是 ms，默認值是 1000，即一個滑動窗口默認統計的是 1s 內的請求數據。
metrics.healthSnapshot.intervalInMilliseconds：它指定了健康數據統計器（影響 Hystrix 熔斷）中每個桶的大小，默認是 500ms，在進行統計時，Hystrix 通過 metrics.rollingStats.timeInMilliseconds / metrics.healthSnapshot.intervalInMilliseconds 計算出桶數，在窗口滑動時，每滑過一個桶的時間間隔時就統計一次當前窗口內請求的失敗率。
metrics.rollingStats.numBuckets：Hystrix 會將命令執行的結果類型都統計匯總到一塊，給上層應用使用或生成統計圖表，此配置項即指定了，生成統計數據流時滑動窗口應該拆分的桶數。此配置項最易跟上面的 metrics.healthSnapshot.intervalInMilliseconds 搞混，認為此項影響健康數據流的桶數。 此項默認是 10，並且需要保持此值能被 metrics.rollingStats.timeInMilliseconds 整除。
metrics.rollingPercentile.enabled：是否統計方法響應時間百分比，默認為 true 時，Hystrix 會統計方法執行的 1%,10%,50%,90%,99% 等比例請求的平均耗時用以生成統計圖表。
metrics.rollingPercentile.timeInMilliseconds：統計響應時間百分比時的窗口大小，默認為 60000，即一分鐘。
metrics.rollingPercentile.numBuckets：統計響應時間百分比時滑動窗口要劃分的桶用，默認為6，需要保持能被metrics.rollingPercentile.timeInMilliseconds 整除。
metrics.rollingPercentile.bucketSize：統計響應時間百分比時，每個滑動窗口的桶內要保留的請求數，桶內的請求超出這個值後，會覆蓋最前面保存的數據。默認值為 100，在統計響應百分比配置全為默認的情況下，每個桶的時間長度為 10s = 60000ms / 6，但這 10s 內只保留最近的 100 條請求的數據。

熔斷器(Circuit Breaker)
circuitBreaker.enabled：是否啟用熔斷器，默認為 true;
circuitBreaker.forceOpen： circuitBreaker.forceClosed：是否強制啟用/關閉熔斷器，強制啟用關閉都想不到什麼應用的場景，保持默認值，不配置即可。
circuitBreaker.requestVolumeThreshold：啟用熔斷器功能窗口時間內的最小請求數。試想如果沒有這麼一個限制，我們配置了 50% 的請求失敗會打開熔斷器，窗口時間內只有 3 條請求，恰巧兩條都失敗了，那麼熔斷器就被打開了，5s 內的請求都被快速失敗。此配置項的值需要根據接口的 QPS 進行計算，值太小會有誤打開熔斷器的可能，值太大超出了時間窗口內的總請求數，則熔斷永遠也不會被觸發。建議設置為 QPS * 窗口秒數 * 60%。
circuitBreaker.errorThresholdPercentage：在通過滑動窗口獲取到當前時間段內 Hystrix 方法執行的失敗率後，就需要根據此配置來判斷是否要將熔斷器打開了。 此配置項默認值是 50，即窗口時間內超過 50% 的請求失敗後會打開熔斷器將後續請求快速失敗。
circuitBreaker.sleepWindowInMilliseconds：熔斷器打開後，所有的請求都會快速失敗，但何時服務恢復正常就是下一個要面對的問題。熔斷器打開時，Hystrix 會在經過一段時間後就放行一條請求，如果這條請求執行成功了，說明此時服務很可能已經恢復了正常，那麼會將熔斷器關閉，如果此請求執行失敗，則認為服務依然不可用，熔斷器繼續保持打開狀態。此配置項指定了熔斷器打開後經過多長時間允許一次請求嘗試執行，默認值是 5000。

其他(Context/Fallback)
requestCache.enabled：是否啟用請求結果緩存。默認是 true，但它並不意味着我們的每個請求都會被緩存。緩存請求結果和從緩存中獲取結果都需要我們配置 cacheKey，並且在方法上使用 @CacheResult 註解聲明一個緩存上下文。
requestLog.enabled：是否啟用請求日誌，默認為 true。
fallback.enabled：是否啟用方法回退，默認為 true 即可。
fallback.isolation.semaphore.maxConcurrentRequests：回退方法執行時的最大並發數，默認是10，如果大量請求的回退方法被執行時，超出此並發數的請求會拋出 REJECTED_SEMAPHORE_FALLBACK 異常。

threadPoolProperties:

coreSize：核心線程池的大小，默認值是 10，一般根據 QPS * 99% cost + redundancy count 計算得出。
allowMaximumSizeToDivergeFromCoreSize：是否允許線程池擴展到最大線程池數量，默認為 false;
maximumSize：線程池中線程的最大數量，默認值是 10，此配置項單獨配置時並不會生效，需要啟用 allowMaximumSizeToDivergeFromCoreSize 項。
maxQueueSize：作業隊列的最大值，默認值為 -1，設置為此值時，隊列會使用 SynchronousQueue，此時其 size 為0，Hystrix 不會向隊列內存放作業。如果此值設置為一個正的 int 型，隊列會使用一個固定 size 的 LinkedBlockingQueue，此時在核心線程池內的線程都在忙碌時，會將作業暫時存放在此隊列內，但超出此隊列的請求依然會被拒絕。
queueSizeRejectionThreshold：由於 maxQueueSize 值在線程池被創建後就固定了大小，如果需要動態修改隊列長度的話可以設置此值，即使隊列未滿，隊列內作業達到此值時同樣會拒絕請求。此值默認是 5，所以有時候只設置了 maxQueueSize 也不會起作用。
keepAliveTimeMinutes：由上面的 maximumSize，我們知道，線程池內核心線程數目都在忙碌，再有新的請求到達時，線程池容量可以被擴充為到最大數量，等到線程池空閑後，多於核心數量的線程還會被回收，此值指定了線程被回收前的存活時間，默認為 2，即兩分鐘。

四、Hystrix dashboard

源碼:cloud-consumer-hystrix-dashboard9001

1，yaml文件

#指定端口號即可
server:
  port: 9001

2，application啟動類

@SpringBootApplication
@EnableHystrixDashboard
public class HystrixDashboardMain9001 {
    public static void main(String[] args) {
        SpringApplication.run(HystrixDashboardMain9001.class,args);
    }
}

3，被監控類(provider服務)

pom文件

 <dependency>
    <groupId>org.springframework.boot</groupId>
    <artifactId>spring-boot-starter-actuator</artifactId>
</dependency>

application啟動類中添加

//SpringCloud升級方便使用hystrix的dashboard監控
@Bean
public ServletRegistrationBean getServlet(){
    HystrixMetricsStreamServlet streamServlet = new HystrixMetricsStreamServlet();
    ServletRegistrationBean registrationBean = new ServletRegistrationBean(streamServlet);
    registrationBean.setLoadOnStartup(1);
    registrationBean.addUrlMappings("/hystrix.stream");
    registrationBean.setName("HystrixMetricsStreamServlet");
    return registrationBean;
}

4，啟動並使用

訪問地址://localhost:9001/hystrix

應用說明

Tags: Spring Cloud