SpringCould中的Hystrix

一、簡介

源碼地址://gitee.com/xiaocheng0902/my-cloud.git

1,定義

  Hystrix是一個用於處理分佈式系統的延遲和容錯的開源庫,在分佈式系統里,許多依賴不可避免的會調用失敗,比如超時、異常等。Hystrix能夠保證在一個依賴出問題的情況下,不會導致整體服務失敗,避免級聯故障,以提高分佈式系統的彈性。

  ”斷路器”本身是一種開關裝置,當某個服務單元發生故障之後,通過斷路器的故障監控(類似熔斷保險絲),向調用方返回一個符合預期的、可處理的備選響應FallBack),而不是長時間的等待或者拋出調用方無法處理的異常,這樣就保證了服務調用方的線程不會被長時間的、不必要地佔用,從而避免了故障在分佈式系統中的蔓延,乃至雪崩。

2,作用

 a)服務降級

  服務降級是從整個系統的負荷情況出發和考慮的,對某些負荷會比較高的情況,為了預防某些功能(業務場景)出現負荷過載或者響應慢的情況,在其內部暫時捨棄對一些非核心的接口和數據的請求,而直接返回一個提前準備好的fallback(退路)錯誤處理信息。這樣,雖然提供的是一個有損的服務,但卻保證了整個系統的穩定性和可用性

 b)服務熔斷

  服務熔斷的作用類似於我們家用的保險絲,當某服務出現不可用或響應超時的情況時,為了防止整個系統出現雪崩,暫時停止對該服務的調用。

 c)熔斷vs降級

3,使用依賴

<!--新增hystrix-->
<dependency>
   <groupId>org.springframework.cloud</groupId>
   <artifactId>spring-cloud-starter-netflix-hystrix</artifactId>
   <version>2.2.1.RELEASE</version>
</dependency>

二、服務降級

1,服務提供者(自身)

對應源碼:cloud-provider-hystrix-payment8001

  在主啟動類Application上註解

@EnableCircuitBreaker

  在service的方法中加入

//主方法
@HystrixCommand(fallbackMethod = "paymentInfo_TimeOutHandler",commandProperties = { //出現超時,異常調用fallbackMethod方法
        @HystrixProperty(name = "execution.isolation.thread.timeoutInMilliseconds",value = "3000")  //3秒鐘以內就是正常的業務邏輯
})
public String paymentInfo_TimeOut(Integer id){
    int timeNumber = 5;  //1 的時候為正常執行當前方法
    //throw new RuntimeException();  //異常情況會直接跳過進入paymentInfo_TimeOutHandler
    try { TimeUnit.SECONDS.sleep(timeNumber); }catch (Exception e) {e.printStackTrace();}
    return "線程池:"+Thread.currentThread().getName()+"   paymentInfo_TimeOut,id:  "+id+"\t"+"嗚嗚嗚"+" 耗時(秒)"+timeNumber;
}

//備選方法
public String paymentInfo_TimeOutHandler(Integer id){
    return "線程池:"+Thread.currentThread().getName()+"   系統繁忙, 請稍候再試  ,id:  "+id+"\t"+"哭了哇嗚";
}

2,服務調用者(fegin消費者)

對應源碼:cloud-consumer-feign-hystrix-order80

  yaml文件中添加配置

feign:
  hystrix:
    enabled: true #如果處理自身的容錯就開啟。開啟方式與生產端不一樣。
  client:
    config:
      default:
        connectTimeout: 5000 # feign 的超時設置
        readTimeout: 5000 #同時配置一下feign的讀取 超時
#超時時間配置,此處全局超時配置時間大於@HystrixProperty配置時間後,@HystrixProperty註解中的超時才生效
hystrix:
  command:
    default:
      execution:
        isolation:
          thread:
            timeoutInMilliseconds: 10000

  主啟動類Application上加上註解

@EnableHystrix

  業務類controller中加入

//主方法
@GetMapping("/consumer/payment/hystrix/timeout/{id}")
@HystrixCommand(fallbackMethod = "paymentTimeOutFallbackMethod",commandProperties = {
        @HystrixProperty(name="execution.isolation.thread.timeoutInMilliseconds", value="1500")//1.5秒鐘以內就是正常的業務邏輯
})
public String paymentInfo_TimeOut(@PathVariable("id") Integer id){
    String result = paymentHystrixService.paymentInfo_TimeOut(id);
    return result;
}

//備用方法
public String paymentTimeOutFallbackMethod(@PathVariable("id") Integer id){
    return "我是消費者80,對付支付系統繁忙請10秒鐘後再試或者自己運行出錯請檢查自己,(┬_┬)";
}

3,全局服務降級(feign消費端)

對應源碼:cloud-consumer-feign-hystrix-order80

  解決主方法一個備用方法的代碼冗餘。(源碼同上)

  yaml文件中添加配置

feign:
  hystrix:
    enabled: true #如果處理自身的容錯就開啟。開啟方式與生產端不一樣。
  client:
    config:
      default:
        connectTimeout: 5000 # feign 的超時設置
        readTimeout: 5000 #同時配置一下feign的讀取 超時
#超時時間配置,此處全局超時配置時間大於@HystrixProperty配置時間後,@HystrixProperty註解中的超時才生效
hystrix:
  command:
    default:
      execution:
        isolation:
          thread:
            timeoutInMilliseconds: 10000

  主啟動類Application上加上註解

@EnableHystrix

  業務類controller中編碼

@RestController
@DefaultProperties(defaultFallback="paymentGobalFallbackMethod", commandProperties = { //如果commandProperties沒有對應的內容就會走默認的HystrixCommandProperties中的配置 @HystrixProperty(name = "execution.isolation.thread.timeoutInMilliseconds", value = "1500")}) public class OrderHystrixController {
@Resource
private PaymentHystrixService paymentHystrixService;
//主方法 @GetMapping("/consumer/payment/hystrix/timeout/{id}") @HystrixCommand //標識走全局的備用策略 public String paymentInfo_TimeOut(@PathVariable("id") Integer id) { String result = paymentHystrixService.paymentInfo_TimeOut(id); return result; } //全局備用方法 public String paymentGobalFallbackMethod() { return "Gobal全局備選方法,對象系統繁忙或者已經down機了,請稍後再試"; } }

4,降級分離(feign消費端)

對應源碼:cloud-consumer-feign-hystrix-order80

  yaml文件配置

feign:
  hystrix:
    enabled: true #如果處理自身的容錯就開啟。開啟方式與生產端不一樣

  feign調用的接口

@Component
@FeignClient(value = "CLOUD-PROVIDER-HYSTRIX-PAYMENT",fallback = PaymentHystrixFallbackServiceImpl.class) //配置對應的fallback的類
public interface PaymentHystrixFallbackService {
    @GetMapping("/payment/hystrix/ok/{id}")
    public String paymentInfo_OK(@PathVariable("id") Integer id);

    @GetMapping("/payment/hystrix/timeout/{id}")
    public String paymentInfo_TimeOut(@PathVariable("id") Integer id);
}

  feign調用接口的實現類

/**
 * fallback類,用於承載整個類的降級處理
 */
@Component
public class PaymentHystrixFallbackServiceImpl implements PaymentHystrixFallbackService {
    @Override
    public String paymentInfo_OK(Integer id) {
        return "-----PaymentFallbackService fall back-paymentInfo_OK , (┬_┬)";
    }

    @Override
    public String paymentInfo_TimeOut(Integer id) {
        return "-----PaymentFallbackService fall back-paymentInfo_TimeOut , (┬_┬)";
    }
}

  controller中正常調用即可

@Slf4j
@RestController
public class OrderHystrixControllerFallbackClass {

    @Resource
    private PaymentHystrixFallbackService paymentHystrixFallbackService;

    @Value("${server.port}")
    private String serverPort;

    @GetMapping("/consumer_all/payment/hystrix/ok/{id}")
    public String paymentInfo_OK(@PathVariable("id") Integer id) {
        String result = paymentHystrixFallbackService.paymentInfo_OK(id);
        log.info("*******result:" + result);
        return result;
    }

    @GetMapping("/consumer_all/payment/hystrix/timeout/{id}")
    public String paymentInfo_TimeOut(@PathVariable("id") Integer id) {
        String result = paymentHystrixFallbackService.paymentInfo_TimeOut(id);
        return result;
    }
}

三、服務熔斷

  熔斷機制是應對雪崩效應的一種微服務鏈路保護機制。當扇出鏈路的某個微服務出錯不可用或者響應時間太長時,會進行服務的降級進而熔斷該節點微服務的調用,快速返回錯誤的響應信息。當檢測到該節點微服務調用響應正常後,恢復調用鏈路

1,實例(提供端)

源碼:cloud-provider-hystrix-payment8001

  啟動類

@EnableCircuitBreaker //啟動熔斷
@EnableEurekaClient
@SpringBootApplication
public class CloudHystrixPaymentApplicaiton8001{...}

  service

@Service
public class PaymentCircutBreakerService {
    //服務熔斷
    @HystrixCommand(fallbackMethod = "paymentCircuitBreaker_fallback",commandProperties = {
            @HystrixProperty(name = "circuitBreaker.enabled",value = "true"),  //是否開啟斷路器
            @HystrixProperty(name = "circuitBreaker.requestVolumeThreshold",value = "10"),   //請求次數
            @HystrixProperty(name = "circuitBreaker.sleepWindowInMilliseconds",value = "10000"),  //時間範圍
            @HystrixProperty(name = "circuitBreaker.errorThresholdPercentage",value = "60"), //失敗率達到多少後跳閘
    })
    public String paymentCircuitBreaker(Integer id){
        if (id < 0){
            throw new RuntimeException("*****id 不能負數");
        }
        String serialNumber = IdUtil.simpleUUID();

        return Thread.currentThread().getName()+"\t"+"調用成功,流水號:"+serialNumber;
    }
    public String paymentCircuitBreaker_fallback(@PathVariable("id") Integer id){
        return "id 不能負數,請稍候再試,(┬_┬)/~~     id: " +id;
    }
}

  controller

//===服務熔斷
@GetMapping("/payment/circuit/{id}")
public String paymentCircuitBreaker(@PathVariable("id") Integer id){
    String result = paymentCircutBreakerService.paymentCircuitBreaker(id);
    log.info("*******result:"+result);
    return result;
}

  測試

http://localhost:8001/payment/circuit/-1  //多次調用報錯就會開啟熔斷,此時再調用正確發現不會立馬返回正確結果
http://localhost:8001/payment/circuit/1

2,服務熔斷原理

a)熔斷類型

  熔斷打開:請求不在進行調用當前服務,內部設置始終一般為MTTR(平均故障處理時間),當打開時長達到所設時鐘則進入熔斷狀態。

  熔斷關閉熔斷關閉不會對服務進行熔斷。

  熔斷半開部分請求根據規則調用當前服務,如果請求成功且符合規則則認為當前服務恢復正常,關閉熔斷。

b)斷路器開啟條件

@HystrixCommand(fallbackMethod = "paymentCircuitBreaker_fallback",commandProperties = {
      @HystrixProperty(name = "circuitBreaker.enabled",value = "true"),  //是否開啟斷路器
      @HystrixProperty(name = "circuitBreaker.requestVolumeThreshold",value = "10"),   //請求次數
      @HystrixProperty(name = "circuitBreaker.sleepWindowInMilliseconds",value = "10000"),  //時間範圍
      @HystrixProperty(name = "circuitBreaker.errorThresholdPercentage",value = "60"), //失敗率達到多少後跳閘
})
涉及到斷路器的是哪個重要參數:快照時間窗口、請求總數閾值、錯誤百分比閾值。
1)快照時間:斷路器確定是否打開需要統計一些請求和錯誤數據,而統計的時間範圍就是快照時間窗,默認為最近的10秒。
2)請求總數閾值:在快照時間窗內,必須滿足請求總數閾值才有資格熔斷。默認為20,意味着在10秒內,如果該hystrix命令的調用總次數不足20次,即使所有的請求都超時或其他原因失敗,斷路器都不會打開。
3)錯誤百分比閾值:當請求總數在快照時間窗內超過閾值,比如發生了30次調用,如果在這30次調用中,有15次發生了超時異常,也就是超過50%的錯誤百分比,在默認設定50%閾值情況下,這時候就會將斷路器打開。

c)斷路器開啟後續

  1,再有請求調用的時候,將不會調用主邏輯,而是直接調用降級fallback。通過斷路器,實現了自動地發現錯誤並將降級邏輯切換為主邏輯,減少響應延遲的效果。

  2,原來的主邏輯如何恢復:當斷路器打開,對主邏輯進行熔斷之後,hystrix會啟動一個休眠時間窗,在這個窗內,降級邏輯是臨時的成為主邏輯;當休眠時間窗到期,斷路器會進入半開狀態,釋放一次請求到原來的主邏輯上,如果此時請求正常返回,那麼斷路器將繼續閉合,主邏輯恢復,如果這次請求依然有問題斷路器繼續進入打開狀態,休眠時間窗重新計時。

d)各種參數

HystrixCommand:

commandKey:用來標識一個 Hystrix 命令,默認會取被註解的方法名。需要注意:Hystrix 里同一個鍵的唯一標識並不包括 groupKey,建議取一個獨一二無的名字,防止多個方法之間因為鍵重複而互相影響。
groupKey:一組 Hystrix 命令的集合, 用來統計、報告,默認取類名,可不配置。
threadPoolKey:用來標識一個線程池,如果沒設置的話會取 groupKey,很多情況下都是同一個類內的方法在共用同一個線程池,如果兩個共用同一線程池的方法上配置了同樣的屬性,在第一個方法被執行後線程池的屬性就固定了,所以屬性會以第一個被執行的方法上的配置為準。
commandProperties:與此命令相關的屬性。
threadPoolProperties:與線程池相關的屬性,
observableExecutionMode:當 Hystrix 命令被包裝成 RxJava 的 Observer 異步執行時,此配置指定了 Observable 被執行的模式,默認是 ObservableExecutionMode.EAGER,Observable 會在被創建後立刻執行,而 ObservableExecutionMode.EAGER模式下,則會產生一個 Observable 被 subscribe 後執行。我們常見的命令都是同步執行的,此配置項可以不配置。
ignoreExceptions:默認 Hystrix 在執行方法時捕獲到異常時執行回退,並統計失敗率以修改熔斷器的狀態,而被忽略的異常則會直接拋到外層,不會執行回退方法,也不會影響熔斷器的狀態。
raiseHystrixExceptions:當配置項包括 HystrixRuntimeException 時,所有的未被忽略的異常都會被包裝成 HystrixRuntimeException,配置其他種類的異常好像並沒有什麼影響。
fallbackMethod:方法執行時熔斷、錯誤、超時時會執行的回退方法,需要保持此方法與 Hystrix 方法的簽名和返回值一致。
defaultFallback:默認回退方法,當配置 fallbackMethod 項時此項沒有意義,另外,默認回退方法不能有參數,返回值要與 Hystrix方法的返回值相同。

commandProperties:

線程隔離(Isolation)
execution.isolation.strategy: 配置請求隔離的方式,有 threadPool(線程池,默認)和 semaphore(信號量)兩種,信號量方式高效但配置不靈活,我們一般採用 Java 里常用的線程池方式。
execution.timeout.enabled:是否給方法執行設置超時,默認為 true。
execution.isolation.thread.timeoutInMilliseconds:方法執行超時時間,默認值是 1000,即 1秒,此值根據業務場景配置。
execution.isolation.thread.interruptOnTimeout: execution.isolation.thread.interruptOnCancel:是否在方法執行超時/被取消時中斷方法。需要注意在 JVM 中我們無法強制中斷一個線程,如果 Hystrix 方法里沒有處理中斷信號的邏輯,那麼中斷會被忽略。
execution.isolation.semaphore.maxConcurrentRequests:默認值是 10,此配置項要在 execution.isolation.strategy 配置為 semaphore 時才會生效,它指定了一個 Hystrix 方法使用信號量隔離時的最大並發數,超過此並發數的請求會被拒絕。信號量隔離的配置就這麼一個,也是前文說信號量隔離配置不靈活的原因。
統計器(Metrics)
metrics.rollingStats.timeInMilliseconds:此配置項指定了窗口的大小,單位是 ms,默認值是 1000,即一個滑動窗口默認統計的是 1s 內的請求數據。
metrics.healthSnapshot.intervalInMilliseconds:它指定了健康數據統計器(影響 Hystrix 熔斷)中每個桶的大小,默認是 500ms,在進行統計時,Hystrix 通過 metrics.rollingStats.timeInMilliseconds / metrics.healthSnapshot.intervalInMilliseconds 計算出桶數,在窗口滑動時,每滑過一個桶的時間間隔時就統計一次當前窗口內請求的失敗率。
metrics.rollingStats.numBuckets:Hystrix 會將命令執行的結果類型都統計匯總到一塊,給上層應用使用或生成統計圖表,此配置項即指定了,生成統計數據流時滑動窗口應該拆分的桶數。此配置項最易跟上面的 metrics.healthSnapshot.intervalInMilliseconds 搞混,認為此項影響健康數據流的桶數。 此項默認是 10,並且需要保持此值能被 metrics.rollingStats.timeInMilliseconds 整除。
metrics.rollingPercentile.enabled:是否統計方法響應時間百分比,默認為 true 時,Hystrix 會統計方法執行的 1%,10%,50%,90%,99% 等比例請求的平均耗時用以生成統計圖表。
metrics.rollingPercentile.timeInMilliseconds:統計響應時間百分比時的窗口大小,默認為 60000,即一分鐘。
metrics.rollingPercentile.numBuckets:統計響應時間百分比時滑動窗口要劃分的桶用,默認為6,需要保持能被metrics.rollingPercentile.timeInMilliseconds 整除。
metrics.rollingPercentile.bucketSize:統計響應時間百分比時,每個滑動窗口的桶內要保留的請求數,桶內的請求超出這個值後,會覆蓋最前面保存的數據。默認值為 100,在統計響應百分比配置全為默認的情況下,每個桶的時間長度為 10s = 60000ms / 6,但這 10s 內只保留最近的 100 條請求的數據。
熔斷器(Circuit Breaker)
circuitBreaker.enabled:是否啟用熔斷器,默認為 true;
circuitBreaker.forceOpen: circuitBreaker.forceClosed:是否強制啟用/關閉熔斷器,強制啟用關閉都想不到什麼應用的場景,保持默認值,不配置即可。
circuitBreaker.requestVolumeThreshold:啟用熔斷器功能窗口時間內的最小請求數。試想如果沒有這麼一個限制,我們配置了 50% 的請求失敗會打開熔斷器,窗口時間內只有 3 條請求,恰巧兩條都失敗了,那麼熔斷器就被打開了,5s 內的請求都被快速失敗。此配置項的值需要根據接口的 QPS 進行計算,值太小會有誤打開熔斷器的可能,值太大超出了時間窗口內的總請求數,則熔斷永遠也不會被觸發。建議設置為 QPS * 窗口秒數 * 60%。
circuitBreaker.errorThresholdPercentage:在通過滑動窗口獲取到當前時間段內 Hystrix 方法執行的失敗率後,就需要根據此配置來判斷是否要將熔斷器打開了。 此配置項默認值是 50,即窗口時間內超過 50% 的請求失敗後會打開熔斷器將後續請求快速失敗。
circuitBreaker.sleepWindowInMilliseconds:熔斷器打開後,所有的請求都會快速失敗,但何時服務恢復正常就是下一個要面對的問題。熔斷器打開時,Hystrix 會在經過一段時間後就放行一條請求,如果這條請求執行成功了,說明此時服務很可能已經恢復了正常,那麼會將熔斷器關閉,如果此請求執行失敗,則認為服務依然不可用,熔斷器繼續保持打開狀態。此配置項指定了熔斷器打開後經過多長時間允許一次請求嘗試執行,默認值是 5000
其他(Context/Fallback)
requestCache.enabled:是否啟用請求結果緩存。默認是 true,但它並不意味着我們的每個請求都會被緩存。緩存請求結果和從緩存中獲取結果都需要我們配置 cacheKey,並且在方法上使用 @CacheResult 註解聲明一個緩存上下文。
requestLog.enabled:是否啟用請求日誌,默認為 true。
fallback.enabled:是否啟用方法回退,默認為 true 即可。
fallback.isolation.semaphore.maxConcurrentRequests:回退方法執行時的最大並發數,默認是10,如果大量請求的回退方法被執行時,超出此並發數的請求會拋出 REJECTED_SEMAPHORE_FALLBACK 異常。

threadPoolProperties:

coreSize:核心線程池的大小,默認值是 10,一般根據 QPS * 99% cost + redundancy count 計算得出。
allowMaximumSizeToDivergeFromCoreSize:是否允許線程池擴展到最大線程池數量,默認為 false;
maximumSize:線程池中線程的最大數量,默認值是 10,此配置項單獨配置時並不會生效,需要啟用 allowMaximumSizeToDivergeFromCoreSize 項。
maxQueueSize:作業隊列的最大值,默認值為 -1,設置為此值時,隊列會使用 SynchronousQueue,此時其 size 為0,Hystrix 不會向隊列內存放作業。如果此值設置為一個正的 int 型,隊列會使用一個固定 size 的 LinkedBlockingQueue,此時在核心線程池內的線程都在忙碌時,會將作業暫時存放在此隊列內,但超出此隊列的請求依然會被拒絕。
queueSizeRejectionThreshold:由於 maxQueueSize 值在線程池被創建後就固定了大小,如果需要動態修改隊列長度的話可以設置此值,即使隊列未滿,隊列內作業達到此值時同樣會拒絕請求。此值默認是 5,所以有時候只設置了 maxQueueSize 也不會起作用。
keepAliveTimeMinutes:由上面的 maximumSize,我們知道,線程池內核心線程數目都在忙碌,再有新的請求到達時,線程池容量可以被擴充為到最大數量,等到線程池空閑後,多於核心數量的線程還會被回收,此值指定了線程被回收前的存活時間,默認為 2,即兩分鐘。

四、Hystrix dashboard

源碼:cloud-consumer-hystrix-dashboard9001

1,yaml文件

#指定端口號即可
server:
  port: 9001

2,application啟動類

@SpringBootApplication
@EnableHystrixDashboard
public class HystrixDashboardMain9001 {
    public static void main(String[] args) {
        SpringApplication.run(HystrixDashboardMain9001.class,args);
    }
}

3,被監控類(provider服務)

pom文件

 <dependency>
    <groupId>org.springframework.boot</groupId>
    <artifactId>spring-boot-starter-actuator</artifactId>
</dependency>

application啟動類中添加

//SpringCloud升級方便使用hystrix的dashboard監控
@Bean
public ServletRegistrationBean getServlet(){
    HystrixMetricsStreamServlet streamServlet = new HystrixMetricsStreamServlet();
    ServletRegistrationBean registrationBean = new ServletRegistrationBean(streamServlet);
    registrationBean.setLoadOnStartup(1);
    registrationBean.addUrlMappings("/hystrix.stream");
    registrationBean.setName("HystrixMetricsStreamServlet");
    return registrationBean;
}

4,啟動並使用

訪問地址://localhost:9001/hystrix

    

 

 應用說明