0746-5.16.2-Impala中查詢監控狀態檢查告警解析
- 2020 年 3 月 3 日
- 筆記
作者:唐輝
文檔說明
在使用impala 的過程中,在CM頁面經常能看到IMPALA時, 經常看到IMPALA DAEMON 出現如下告警
The health test result for IMPALAD_QUERY_MONITORING_STATUS has become bad: There are 1 error(s) seen monitoring executing queries, and 0 errors(s) seen monitoring completed queries for this role in the previous 5 minute(s). Critical threshold: any.
本文主要講述該告警產生的原因
告警重現和說明
首先我們需要知道這個告警產生的原因,通常該告警是在impala服務比較忙的集群上出現, CM會嘗試鏈接impala 25000埠看網頁是不是可用的,檢查的超時時間默認為5秒,默認報錯的次數是一次。檢查時間為每5分鐘檢查一次。超時時間5秒對於比較忙的集群會比較短,所以會報這個問題。基於在這了解這個的基礎上,由於測試集群的空間有限,所以這裡通過kill 25000 埠進程來進行復現該問題。
通過lsof -i:25000 查找到埠並kill 復現問題後,如果你的瀏覽器首選語言是中文告警如下圖:


相關參數如下:
impala 英文介面中搜索Query Monitoring Timeout

或者impala 中文介面搜索 查詢監控超時

該參數為檢查的超時時間
impala 配置中搜索 impala_query_monitoring_failure_window ,
意外退出監控周期 默認是 5分鐘
意外退出閥值默認是任意值都出現嚴重告警

修改參數如下圖:

重新進行驗證後如下:

被kill 的impala 25000 埠進程會被自動拉起恢復,這裡會出現一個5守護進程意外退出的告警,對於25000 埠超時告警由於被修改過閾值,出現的為一個黃色的警告查詢。
監控狀態檢查出現上述的告警,它並不代表著該節點impala deamon 的服務不可用,多數情況下是埠繁忙訪問超時影響,如果它對你的日常使用造成了困擾,那麼你可以通過修改上述的參數進行合理的調整
Impala守護程式查詢監視狀態文檔參考:
https://docs.cloudera.com/documentation/enterprise/5-16-x/topics/cm_ht_impala_daemon.html#concept_xrf_knn_yk