vlambda博客
学习文章列表

探索AIOps实践的先行者——国泰君安毛梦非

由ITShare智享会、BMC联合出品的“金融业AIOps运维大脑建设与实践”线上云直播专场活动圆满成功。新网银行副行长李秀生、上海期货交易所国际能源中心CTO、上期信息技术公司董事长郑仕辉、中国光大银行信息科技部副总经理彭晓 、国泰君安数据中心副总经理毛梦非、光大证劵信息技术总部副总经理杨超、民生银行信息科技部总经理助理兼数据中心副总经理彭真山、阳光财产保险信息技术部总经理李瑞、BMC大中华区首席架构师赵成栋等多位嘉宾现身直播间,与线上近百位行业资深专家、企业数字化转型的见证者和实践者等,一起分享探讨金融业AIOps建设与实践的难点痛点。



近年来,金融行业IT运维的压力越来越大。随着AI技术的商用,监管部门鼓励金融机构利用智能化手段进行业务创新和IT运维管理,所以运维体系在经过了脚本化、工具化、自动化之后,逐渐向智能化发展,使得智能运维已经不是金融行业的可选项,而成为发展的必选项。


此次对话座谈直播,我们有幸邀请到了国泰君安数据中心副总经理毛梦非先生,给我们分享一些金融业AIOps建设与实践经验。

 



探索AIOps的初衷


关于AIOps,国泰君安从2018年底也开始做了一些落地的实践工作。包括去年也参与深交所的关于这个方向的课题研究,也有一些落地的成果。


实际上,我们现在的运维人员面临的业务扩张,包括规模扩张的压力是挺大的。因为随着各种系统的快速交互,包括一些业务系统的变更管理的要求,应该说过去传统的运维,高度依赖我们运维管理人员的一些经验知识。当面对越来越复杂大规模的日志数据、大量的告警的信息,通过依赖传统工具化的、运维专家的人工判断,都会面临一些瓶颈。


探索AIOps实践的先行者——国泰君安毛梦非


借助于人工智能的一些手段,实现对告警的提前的预警,包括对告警数据的聚类分析,去实现一个告警的抑制,或者告警的压缩,更上一层可能会通过我们的告警信息的关联分析,去发现它的告警的根因,包括故障的根因。


通过有别于传统的做法,借助现在的数据分析的手段,当然要结合一些具体的业务场景和一些机器学习模型的落地实践,实现从传统的高度依赖于人脑决策运维方式,逐步向智能化的手段做转变。将我们运维人员,从繁琐、易出错的运维工作中解放出来,帮助他们来提高运维的质量和运维的效率。这个应该是我们为什么要去探索AIOps的初衷。

 



深有体会之AIOps使用场景及局限性


现在的使用体验,目前比较实用、相对成熟的主要场景,可能有两个方面。

一方面,监控,和告警。监控可能包括指标的监控、日志的分析。告警主要的一些数据源,也无外乎是指标数据,或者说日志数据。就实际的一些使用的效果上来看,我们也认为目前比较好的落地场景,是通过实现指标的动态阈值,上限的分析,在此基础上来实现一些异常指标的告警。这块应该说目前达到了一定成熟度的。


第二个方面,基于日志的告警。它也解决了我们传统日志要基于规则、关键字来设置告警的现状。现在通过对日志的智能分析,应该提升了很多。运维管理员不再需要去设置固定的、基于经验的一些关键字,就完全可以通过智能分析的手段来达到这一目的。


探索AIOps实践的先行者——国泰君安毛梦非


另外,第三个比较适用的场景,就是AIOps建设需要什么。数据和算法模型是两个比较重要的方面。数据,即指标数据,虽然通常都体现为一些时序数据,另外就是日志数据,这个是目前大家都比较常见的数据。


但要应用得好,跟CMDB的质量是有关联的。如果有较高质量的能体现系统之间的一些图谱关系的应用数据,对发展故障定位与根因分析,会带来直接的帮助。但是这块可能会相比前面的两个场景,实现落地的难度会大很多。

 



如何客观评价AIOps的成果和局限性?

怎么在长期的实践过程当中探索和应用AIOps


关于目前AIOps的当前成果,整体上说,在一些像指标的日常检测,包括基于日志的预警或者告警,落地的效果应该说是比较显著的。


它的局限性在哪儿?实际很多情况下,模型的效果,取决于这个场景数据的一个适配,或者说参数的调优。不同的系统、不同的场景,需要去做不同的数据,或者参数的调优。比如在故障告警的场景里,很多时候不管是通过传统的还是AI的方法,实际上也会碰到告警事件,或者叫风暴,总归会有大量的一些告警信息。


如果能够对运维管理员有所帮助的话,一定是需要做告警的抑制(告警的压缩),否则每天面对几十条,几百条,或者更多的,对运维工作还会起反作用。要实现比较好的告警压缩的效果,既不要丢失告警,同时又要有足够的压缩比。这也跟不同的日志结构、特征,是有关系的。



另外关于如何持续摸索和应用AIOps,一个是需继续积累高质量的运维数据。基于指标、日志,会有相对规范的一些数据。但这些如果要应用到更多的场景,还需要去通过应用系统之间的调用关系、部署关系。类似图谱数据,如果能积累得足够充分的话,在发生故障的时候,做故障的定位、根因分析会有直接的帮助。


第二个,从目前阶段来看,可能会存在一些矛盾。比如算法专家可能很清楚各个算法模型背后的原理,但不一定了解运维的需求。反过来运维管理员对运维系统有很丰富的经验,但可能缺乏算法的、人工智能技术一些背景,对AIOps产生过高的期望。未来还需我们厂商与我们运维人员,通过各自的努力,去弥合这两方面的差距。


随着今后运维数据质量持续的提高,数据种类不断的丰富,算法模型的改进,以及对更多场景的发掘,AIOps还是会大有可为,也一定会为运维质量提升,对运维效率的提高,带来更多的帮助。



文章推荐