0746-5.16.2-Impala中查询监控状态检查告警解析
在使用impala 的过程中,在CM页面经常能看到IMPALA时, 经常看到IMPALA DAEMON 出现如下告警
The health test result for IMPALAD_QUERY_MONITORING_STATUS has become bad: There are 1 error(s) seen monitoring executing queries, and 0 errors(s) seen monitoring completed queries for this role in the previous 5 minute(s). Critical threshold: any.
本文主要讲述该告警产生的原因
首先我们需要知道这个告警产生的原因,通常该告警是在impala服务比较忙的集群上出现, CM会尝试链接impala 25000端口看网页是不是可用的,检查的超时时间默认为5秒,默认报错的次数是一次。检查时间为每5分钟检查一次。超时时间5秒对于比较忙的集群会比较短,所以会报这个问题。基于在这了解这个的基础上,由于测试集群的空间有限,所以这里通过kill 25000 端口进程来进行复现该问题。
通过lsof -i:25000 查找到端口并kill 复现问题后,如果你的浏览器首选语言是中文告警如下图:
相关参数如下:
impala 英文界面中搜索Query Monitoring Timeout
或者impala 中文界面搜索 查询监控超时
该参数为检查的超时时间
impala 配置中搜索 impala_query_monitoring_failure_window ,
意外退出监控周期 默认是 5分钟
意外退出阀值默认是任意值都出现严重告警
修改参数如下图:
重新进行验证后如下:
被kill 的impala 25000 端口进程会被自动拉起恢复,这里会出现一个5守护进程意外退出的告警,对于25000 端口超时告警由于被修改过阈值,出现的为一个黄色的警告查询。
监控状态检查出现上述的告警,它并不代表着该节点impala deamon 的服务不可用,多数情况下是端口繁忙访问超时影响,如果它对你的日常使用造成了困扰,那么你可以通过修改上述的参数进行合理的调整
Impala守护程序查询监视状态文档参考:
https://docs.cloudera.com/documentation/enterprise/5-16-x/topics/cm_ht_impala_daemon.html#concept_xrf_knn_yk