SpringCould中的Hystrix
- 2020 年 10 月 12 日
- 筆記
- Spring Cloud
一、簡介
源碼地址://gitee.com/xiaocheng0902/my-cloud.git
1,定義
Hystrix是一個用於處理分佈式系統的延遲和容錯的開源庫,在分佈式系統里,許多依賴不可避免的會調用失敗,比如超時、異常等。Hystrix能夠保證在一個依賴出問題的情況下,不會導致整體服務失敗,避免級聯故障,以提高分佈式系統的彈性。
”斷路器”本身是一種開關裝置,當某個服務單元發生故障之後,通過斷路器的故障監控(類似熔斷保險絲),向調用方返回一個符合預期的、可處理的備選響應(FallBack),而不是長時間的等待或者拋出調用方無法處理的異常,這樣就保證了服務調用方的線程不會被長時間的、不必要地佔用,從而避免了故障在分佈式系統中的蔓延,乃至雪崩。
2,作用
a)服務降級
服務降級是從整個系統的負荷情況出發和考慮的,對某些負荷會比較高的情況,為了預防某些功能(業務場景)出現負荷過載或者響應慢的情況,在其內部暫時捨棄對一些非核心的接口和數據的請求,而直接返回一個提前準備好的fallback(退路)錯誤處理信息。這樣,雖然提供的是一個有損的服務,但卻保證了整個系統的穩定性和可用性
b)服務熔斷
服務熔斷的作用類似於我們家用的保險絲,當某服務出現不可用或響應超時的情況時,為了防止整個系統出現雪崩,暫時停止對該服務的調用。
c)熔斷vs降級
3,使用依賴
<!--新增hystrix--> <dependency> <groupId>org.springframework.cloud</groupId> <artifactId>spring-cloud-starter-netflix-hystrix</artifactId> <version>2.2.1.RELEASE</version> </dependency>
二、服務降級
1,服務提供者(自身)
對應源碼:cloud-provider-hystrix-payment8001
在主啟動類Application上註解
@EnableCircuitBreaker
在service的方法中加入
//主方法 @HystrixCommand(fallbackMethod = "paymentInfo_TimeOutHandler",commandProperties = { //出現超時,異常調用fallbackMethod方法 @HystrixProperty(name = "execution.isolation.thread.timeoutInMilliseconds",value = "3000") //3秒鐘以內就是正常的業務邏輯 }) public String paymentInfo_TimeOut(Integer id){ int timeNumber = 5; //1 的時候為正常執行當前方法 //throw new RuntimeException(); //異常情況會直接跳過進入paymentInfo_TimeOutHandler try { TimeUnit.SECONDS.sleep(timeNumber); }catch (Exception e) {e.printStackTrace();} return "線程池:"+Thread.currentThread().getName()+" paymentInfo_TimeOut,id: "+id+"\t"+"嗚嗚嗚"+" 耗時(秒)"+timeNumber; } //備選方法 public String paymentInfo_TimeOutHandler(Integer id){ return "線程池:"+Thread.currentThread().getName()+" 系統繁忙, 請稍候再試 ,id: "+id+"\t"+"哭了哇嗚"; }
2,服務調用者(fegin消費者)
對應源碼:cloud-consumer-feign-hystrix-order80
yaml文件中添加配置
feign: hystrix: enabled: true #如果處理自身的容錯就開啟。開啟方式與生產端不一樣。 client: config: default: connectTimeout: 5000 # feign 的超時設置 readTimeout: 5000 #同時配置一下feign的讀取 超時 #超時時間配置,此處全局超時配置時間大於@HystrixProperty配置時間後,@HystrixProperty註解中的超時才生效 hystrix: command: default: execution: isolation: thread: timeoutInMilliseconds: 10000
主啟動類Application上加上註解
@EnableHystrix
業務類controller中加入
//主方法 @GetMapping("/consumer/payment/hystrix/timeout/{id}") @HystrixCommand(fallbackMethod = "paymentTimeOutFallbackMethod",commandProperties = { @HystrixProperty(name="execution.isolation.thread.timeoutInMilliseconds", value="1500")//1.5秒鐘以內就是正常的業務邏輯 }) public String paymentInfo_TimeOut(@PathVariable("id") Integer id){ String result = paymentHystrixService.paymentInfo_TimeOut(id); return result; } //備用方法 public String paymentTimeOutFallbackMethod(@PathVariable("id") Integer id){ return "我是消費者80,對付支付系統繁忙請10秒鐘後再試或者自己運行出錯請檢查自己,(┬_┬)"; }
3,全局服務降級(feign消費端)
對應源碼:cloud-consumer-feign-hystrix-order80
解決主方法一個備用方法的代碼冗餘。(源碼同上)
yaml文件中添加配置
feign:
hystrix:
enabled: true #如果處理自身的容錯就開啟。開啟方式與生產端不一樣。
client:
config:
default:
connectTimeout: 5000 # feign 的超時設置
readTimeout: 5000 #同時配置一下feign的讀取 超時
#超時時間配置,此處全局超時配置時間大於@HystrixProperty配置時間後,@HystrixProperty註解中的超時才生效
hystrix:
command:
default:
execution:
isolation:
thread:
timeoutInMilliseconds: 10000
主啟動類Application上加上註解
@EnableHystrix
業務類controller中編碼
@RestController
@DefaultProperties(defaultFallback="paymentGobalFallbackMethod", commandProperties = { //如果commandProperties沒有對應的內容就會走默認的HystrixCommandProperties中的配置 @HystrixProperty(name = "execution.isolation.thread.timeoutInMilliseconds", value = "1500")}) public class OrderHystrixController {
@Resource private PaymentHystrixService paymentHystrixService;
//主方法 @GetMapping("/consumer/payment/hystrix/timeout/{id}") @HystrixCommand //標識走全局的備用策略 public String paymentInfo_TimeOut(@PathVariable("id") Integer id) { String result = paymentHystrixService.paymentInfo_TimeOut(id); return result; } //全局備用方法 public String paymentGobalFallbackMethod() { return "Gobal全局備選方法,對象系統繁忙或者已經down機了,請稍後再試"; } }
4,降級分離(feign消費端)
對應源碼:cloud-consumer-feign-hystrix-order80
yaml文件配置
feign: hystrix: enabled: true #如果處理自身的容錯就開啟。開啟方式與生產端不一樣
feign調用的接口
@Component @FeignClient(value = "CLOUD-PROVIDER-HYSTRIX-PAYMENT",fallback = PaymentHystrixFallbackServiceImpl.class) //配置對應的fallback的類 public interface PaymentHystrixFallbackService { @GetMapping("/payment/hystrix/ok/{id}") public String paymentInfo_OK(@PathVariable("id") Integer id); @GetMapping("/payment/hystrix/timeout/{id}") public String paymentInfo_TimeOut(@PathVariable("id") Integer id); }
feign調用接口的實現類
/** * fallback類,用於承載整個類的降級處理 */ @Component public class PaymentHystrixFallbackServiceImpl implements PaymentHystrixFallbackService { @Override public String paymentInfo_OK(Integer id) { return "-----PaymentFallbackService fall back-paymentInfo_OK , (┬_┬)"; } @Override public String paymentInfo_TimeOut(Integer id) { return "-----PaymentFallbackService fall back-paymentInfo_TimeOut , (┬_┬)"; } }
controller中正常調用即可
@Slf4j @RestController public class OrderHystrixControllerFallbackClass { @Resource private PaymentHystrixFallbackService paymentHystrixFallbackService; @Value("${server.port}") private String serverPort; @GetMapping("/consumer_all/payment/hystrix/ok/{id}") public String paymentInfo_OK(@PathVariable("id") Integer id) { String result = paymentHystrixFallbackService.paymentInfo_OK(id); log.info("*******result:" + result); return result; } @GetMapping("/consumer_all/payment/hystrix/timeout/{id}") public String paymentInfo_TimeOut(@PathVariable("id") Integer id) { String result = paymentHystrixFallbackService.paymentInfo_TimeOut(id); return result; } }
三、服務熔斷
熔斷機制是應對雪崩效應的一種微服務鏈路保護機制。當扇出鏈路的某個微服務出錯不可用或者響應時間太長時,會進行服務的降級,進而熔斷該節點微服務的調用,快速返回錯誤的響應信息。當檢測到該節點微服務調用響應正常後,恢復調用鏈路。
1,實例(提供端)
源碼:cloud-provider-hystrix-payment8001
啟動類
@EnableCircuitBreaker //啟動熔斷 @EnableEurekaClient @SpringBootApplication public class CloudHystrixPaymentApplicaiton8001{...}
service
@Service public class PaymentCircutBreakerService { //服務熔斷 @HystrixCommand(fallbackMethod = "paymentCircuitBreaker_fallback",commandProperties = { @HystrixProperty(name = "circuitBreaker.enabled",value = "true"), //是否開啟斷路器 @HystrixProperty(name = "circuitBreaker.requestVolumeThreshold",value = "10"), //請求次數 @HystrixProperty(name = "circuitBreaker.sleepWindowInMilliseconds",value = "10000"), //時間範圍 @HystrixProperty(name = "circuitBreaker.errorThresholdPercentage",value = "60"), //失敗率達到多少後跳閘 }) public String paymentCircuitBreaker(Integer id){ if (id < 0){ throw new RuntimeException("*****id 不能負數"); } String serialNumber = IdUtil.simpleUUID(); return Thread.currentThread().getName()+"\t"+"調用成功,流水號:"+serialNumber; } public String paymentCircuitBreaker_fallback(@PathVariable("id") Integer id){ return "id 不能負數,請稍候再試,(┬_┬)/~~ id: " +id; } }
controller
//===服務熔斷 @GetMapping("/payment/circuit/{id}") public String paymentCircuitBreaker(@PathVariable("id") Integer id){ String result = paymentCircutBreakerService.paymentCircuitBreaker(id); log.info("*******result:"+result); return result; }
測試
http://localhost:8001/payment/circuit/-1 //多次調用報錯就會開啟熔斷,此時再調用正確發現不會立馬返回正確結果 http://localhost:8001/payment/circuit/1
2,服務熔斷原理
a)熔斷類型
熔斷打開:請求不在進行調用當前服務,內部設置始終一般為MTTR(平均故障處理時間),當打開時長達到所設時鐘則進入熔斷狀態。
熔斷關閉:熔斷關閉不會對服務進行熔斷。
熔斷半開:部分請求根據規則調用當前服務,如果請求成功且符合規則則認為當前服務恢復正常,關閉熔斷。
b)斷路器開啟條件
@HystrixCommand(fallbackMethod = "paymentCircuitBreaker_fallback",commandProperties = { @HystrixProperty(name = "circuitBreaker.enabled",value = "true"), //是否開啟斷路器 @HystrixProperty(name = "circuitBreaker.requestVolumeThreshold",value = "10"), //請求次數 @HystrixProperty(name = "circuitBreaker.sleepWindowInMilliseconds",value = "10000"), //時間範圍 @HystrixProperty(name = "circuitBreaker.errorThresholdPercentage",value = "60"), //失敗率達到多少後跳閘 })
涉及到斷路器的是哪個重要參數:快照時間窗口、請求總數閾值、錯誤百分比閾值。 1)快照時間:斷路器確定是否打開需要統計一些請求和錯誤數據,而統計的時間範圍就是快照時間窗,默認為最近的10秒。 2)請求總數閾值:在快照時間窗內,必須滿足請求總數閾值才有資格熔斷。默認為20,意味着在10秒內,如果該hystrix命令的調用總次數不足20次,即使所有的請求都超時或其他原因失敗,斷路器都不會打開。 3)錯誤百分比閾值:當請求總數在快照時間窗內超過閾值,比如發生了30次調用,如果在這30次調用中,有15次發生了超時異常,也就是超過50%的錯誤百分比,在默認設定50%閾值情況下,這時候就會將斷路器打開。
c)斷路器開啟後續
1,再有請求調用的時候,將不會調用主邏輯,而是直接調用降級fallback。通過斷路器,實現了自動地發現錯誤並將降級邏輯切換為主邏輯,減少響應延遲的效果。
2,原來的主邏輯如何恢復:當斷路器打開,對主邏輯進行熔斷之後,hystrix會啟動一個休眠時間窗,在這個窗內,降級邏輯是臨時的成為主邏輯;當休眠時間窗到期,斷路器會進入半開狀態,釋放一次請求到原來的主邏輯上,如果此時請求正常返回,那麼斷路器將繼續閉合,主邏輯恢復,如果這次請求依然有問題,斷路器繼續進入打開狀態,休眠時間窗重新計時。
d)各種參數
HystrixCommand:
commandKey:用來標識一個 Hystrix 命令,默認會取被註解的方法名。需要注意:Hystrix 里同一個鍵的唯一標識並不包括 groupKey,建議取一個獨一二無的名字,防止多個方法之間因為鍵重複而互相影響。
groupKey:一組 Hystrix 命令的集合, 用來統計、報告,默認取類名,可不配置。
threadPoolKey:用來標識一個線程池,如果沒設置的話會取 groupKey,很多情況下都是同一個類內的方法在共用同一個線程池,如果兩個共用同一線程池的方法上配置了同樣的屬性,在第一個方法被執行後線程池的屬性就固定了,所以屬性會以第一個被執行的方法上的配置為準。
commandProperties:與此命令相關的屬性。
threadPoolProperties:與線程池相關的屬性,
observableExecutionMode:當 Hystrix 命令被包裝成 RxJava 的 Observer 異步執行時,此配置指定了 Observable 被執行的模式,默認是 ObservableExecutionMode.EAGER,Observable 會在被創建後立刻執行,而 ObservableExecutionMode.EAGER模式下,則會產生一個 Observable 被 subscribe 後執行。我們常見的命令都是同步執行的,此配置項可以不配置。
ignoreExceptions:默認 Hystrix 在執行方法時捕獲到異常時執行回退,並統計失敗率以修改熔斷器的狀態,而被忽略的異常則會直接拋到外層,不會執行回退方法,也不會影響熔斷器的狀態。
raiseHystrixExceptions:當配置項包括 HystrixRuntimeException 時,所有的未被忽略的異常都會被包裝成 HystrixRuntimeException,配置其他種類的異常好像並沒有什麼影響。
fallbackMethod:方法執行時熔斷、錯誤、超時時會執行的回退方法,需要保持此方法與 Hystrix 方法的簽名和返回值一致。
defaultFallback:默認回退方法,當配置 fallbackMethod 項時此項沒有意義,另外,默認回退方法不能有參數,返回值要與 Hystrix方法的返回值相同。
commandProperties:
線程隔離(Isolation) execution.isolation.strategy: 配置請求隔離的方式,有 threadPool(線程池,默認)和 semaphore(信號量)兩種,信號量方式高效但配置不靈活,我們一般採用 Java 里常用的線程池方式。 execution.timeout.enabled:是否給方法執行設置超時,默認為 true。 execution.isolation.thread.timeoutInMilliseconds:方法執行超時時間,默認值是 1000,即 1秒,此值根據業務場景配置。 execution.isolation.thread.interruptOnTimeout: execution.isolation.thread.interruptOnCancel:是否在方法執行超時/被取消時中斷方法。需要注意在 JVM 中我們無法強制中斷一個線程,如果 Hystrix 方法里沒有處理中斷信號的邏輯,那麼中斷會被忽略。 execution.isolation.semaphore.maxConcurrentRequests:默認值是 10,此配置項要在 execution.isolation.strategy 配置為 semaphore 時才會生效,它指定了一個 Hystrix 方法使用信號量隔離時的最大並發數,超過此並發數的請求會被拒絕。信號量隔離的配置就這麼一個,也是前文說信號量隔離配置不靈活的原因。
統計器(Metrics) metrics.rollingStats.timeInMilliseconds:此配置項指定了窗口的大小,單位是 ms,默認值是 1000,即一個滑動窗口默認統計的是 1s 內的請求數據。 metrics.healthSnapshot.intervalInMilliseconds:它指定了健康數據統計器(影響 Hystrix 熔斷)中每個桶的大小,默認是 500ms,在進行統計時,Hystrix 通過 metrics.rollingStats.timeInMilliseconds / metrics.healthSnapshot.intervalInMilliseconds 計算出桶數,在窗口滑動時,每滑過一個桶的時間間隔時就統計一次當前窗口內請求的失敗率。 metrics.rollingStats.numBuckets:Hystrix 會將命令執行的結果類型都統計匯總到一塊,給上層應用使用或生成統計圖表,此配置項即指定了,生成統計數據流時滑動窗口應該拆分的桶數。此配置項最易跟上面的 metrics.healthSnapshot.intervalInMilliseconds 搞混,認為此項影響健康數據流的桶數。 此項默認是 10,並且需要保持此值能被 metrics.rollingStats.timeInMilliseconds 整除。 metrics.rollingPercentile.enabled:是否統計方法響應時間百分比,默認為 true 時,Hystrix 會統計方法執行的 1%,10%,50%,90%,99% 等比例請求的平均耗時用以生成統計圖表。 metrics.rollingPercentile.timeInMilliseconds:統計響應時間百分比時的窗口大小,默認為 60000,即一分鐘。 metrics.rollingPercentile.numBuckets:統計響應時間百分比時滑動窗口要劃分的桶用,默認為6,需要保持能被metrics.rollingPercentile.timeInMilliseconds 整除。 metrics.rollingPercentile.bucketSize:統計響應時間百分比時,每個滑動窗口的桶內要保留的請求數,桶內的請求超出這個值後,會覆蓋最前面保存的數據。默認值為 100,在統計響應百分比配置全為默認的情況下,每個桶的時間長度為 10s = 60000ms / 6,但這 10s 內只保留最近的 100 條請求的數據。
熔斷器(Circuit Breaker) circuitBreaker.enabled:是否啟用熔斷器,默認為 true; circuitBreaker.forceOpen: circuitBreaker.forceClosed:是否強制啟用/關閉熔斷器,強制啟用關閉都想不到什麼應用的場景,保持默認值,不配置即可。 circuitBreaker.requestVolumeThreshold:啟用熔斷器功能窗口時間內的最小請求數。試想如果沒有這麼一個限制,我們配置了 50% 的請求失敗會打開熔斷器,窗口時間內只有 3 條請求,恰巧兩條都失敗了,那麼熔斷器就被打開了,5s 內的請求都被快速失敗。此配置項的值需要根據接口的 QPS 進行計算,值太小會有誤打開熔斷器的可能,值太大超出了時間窗口內的總請求數,則熔斷永遠也不會被觸發。建議設置為 QPS * 窗口秒數 * 60%。 circuitBreaker.errorThresholdPercentage:在通過滑動窗口獲取到當前時間段內 Hystrix 方法執行的失敗率後,就需要根據此配置來判斷是否要將熔斷器打開了。 此配置項默認值是 50,即窗口時間內超過 50% 的請求失敗後會打開熔斷器將後續請求快速失敗。 circuitBreaker.sleepWindowInMilliseconds:熔斷器打開後,所有的請求都會快速失敗,但何時服務恢復正常就是下一個要面對的問題。熔斷器打開時,Hystrix 會在經過一段時間後就放行一條請求,如果這條請求執行成功了,說明此時服務很可能已經恢復了正常,那麼會將熔斷器關閉,如果此請求執行失敗,則認為服務依然不可用,熔斷器繼續保持打開狀態。此配置項指定了熔斷器打開後經過多長時間允許一次請求嘗試執行,默認值是 5000。
其他(Context/Fallback) requestCache.enabled:是否啟用請求結果緩存。默認是 true,但它並不意味着我們的每個請求都會被緩存。緩存請求結果和從緩存中獲取結果都需要我們配置 cacheKey,並且在方法上使用 @CacheResult 註解聲明一個緩存上下文。 requestLog.enabled:是否啟用請求日誌,默認為 true。 fallback.enabled:是否啟用方法回退,默認為 true 即可。 fallback.isolation.semaphore.maxConcurrentRequests:回退方法執行時的最大並發數,默認是10,如果大量請求的回退方法被執行時,超出此並發數的請求會拋出 REJECTED_SEMAPHORE_FALLBACK 異常。
threadPoolProperties:
coreSize:核心線程池的大小,默認值是 10,一般根據 QPS * 99% cost + redundancy count 計算得出。 allowMaximumSizeToDivergeFromCoreSize:是否允許線程池擴展到最大線程池數量,默認為 false; maximumSize:線程池中線程的最大數量,默認值是 10,此配置項單獨配置時並不會生效,需要啟用 allowMaximumSizeToDivergeFromCoreSize 項。 maxQueueSize:作業隊列的最大值,默認值為 -1,設置為此值時,隊列會使用 SynchronousQueue,此時其 size 為0,Hystrix 不會向隊列內存放作業。如果此值設置為一個正的 int 型,隊列會使用一個固定 size 的 LinkedBlockingQueue,此時在核心線程池內的線程都在忙碌時,會將作業暫時存放在此隊列內,但超出此隊列的請求依然會被拒絕。 queueSizeRejectionThreshold:由於 maxQueueSize 值在線程池被創建後就固定了大小,如果需要動態修改隊列長度的話可以設置此值,即使隊列未滿,隊列內作業達到此值時同樣會拒絕請求。此值默認是 5,所以有時候只設置了 maxQueueSize 也不會起作用。 keepAliveTimeMinutes:由上面的 maximumSize,我們知道,線程池內核心線程數目都在忙碌,再有新的請求到達時,線程池容量可以被擴充為到最大數量,等到線程池空閑後,多於核心數量的線程還會被回收,此值指定了線程被回收前的存活時間,默認為 2,即兩分鐘。
四、Hystrix dashboard
源碼:cloud-consumer-hystrix-dashboard9001
1,yaml文件
#指定端口號即可 server: port: 9001
2,application啟動類
@SpringBootApplication @EnableHystrixDashboard public class HystrixDashboardMain9001 { public static void main(String[] args) { SpringApplication.run(HystrixDashboardMain9001.class,args); } }
3,被監控類(provider服務)
pom文件
<dependency> <groupId>org.springframework.boot</groupId> <artifactId>spring-boot-starter-actuator</artifactId> </dependency>
application啟動類中添加
//SpringCloud升級方便使用hystrix的dashboard監控 @Bean public ServletRegistrationBean getServlet(){ HystrixMetricsStreamServlet streamServlet = new HystrixMetricsStreamServlet(); ServletRegistrationBean registrationBean = new ServletRegistrationBean(streamServlet); registrationBean.setLoadOnStartup(1); registrationBean.addUrlMappings("/hystrix.stream"); registrationBean.setName("HystrixMetricsStreamServlet"); return registrationBean; }
4,啟動並使用
應用說明