平安AIOps的建设与探索
2019年9月,平安证券率先应平安科技AIOps智能运维。平安证券运维管理团队与平安科技AIOps研发团队通力合作,两个月内,覆盖应用、主机、数据库、网络、存储等共六大领域的AI模型建模、数据采集、异常标记,并投产使用,累计检测指标数超200万,AI告警量较传统模式下降59%,故障发现准确率高达85%,在智能运维实践路上迈出重要一步。平安证券应用集团智能运维一站式解决方案致力于让IT运维人员从大量繁琐、耗时、易出错的基础运维工作中解放出来,帮助企业降低运维管理成本、加速数字化转型,实现业务的健康持续增长。
平安运维现状及行业分析
随着集团IT环境的规模日趋扩大、应用日趋复杂,基于传统监控和自动化运维已不能完全支撑第一时间发现异常、快速恢复、主动预防故障。同时,平安集团基于自有的WiseAPM监控体系已实现了对超过数十万台主机,数千个系统的监控管理,累计了丰富的监控数据,监控覆盖真实用户、终端、网络、路由、防火墙、负载均衡、应用、中间件等多领域。强大的监控支持下,既提供了全面、高效的运维监控方式,海量告警也带来了运维工作的严重消耗。统计发现平安运维人眼每天的上班时间仅37%与监控工作相关,而这37%中告警处理仅占18%,依赖人、干扰多、耗时长成了平安运维人亟待解决的问题。
2019年度 Gartner APM 报告宣称,到2020年,将近50%的企业将会在业务和IT运维方面采用AIOps。在APM端到端应用性能管理中,故障的识别不再是唯一目的,应用问题的快速解决和主动防范成为主要关注点,因此通过AIOps提升运维效率、构建更加自动化运维环境也是平安必由之路。
平安科技AIOps实践
基于平安运维现状以及充分市场调研,在平安内落地AIOps成为解决现有痛点的最优解。通过集团运维数据集市搜集整合包括配置数据、监控数据、告警数据、变更数据在内的海量运维数据,平安AIOps梳理确认了如下三大智能场景:
智能检测:
传统的基于故障阈值的异常检测方法,不能适应数据本身规律性变化的特性,往往导致误报率较大或漏报。智能检测在平安的落地是通过时序数据的特征识别,基于周期、偏移度、趋势性判断、数据极值等维度进行归类,获取时序数据关键特性,通过打点标记,拟合多种异常特征,结合分类和无监督学习,持续提升对异常检测的准确率。
智能定位:
智能定位可以被理解为对异常数据的智能根因分析技术即通过AI大数据分析技术实现对海量运维数据的有效区分,对根因进行直接定位。市面上一些根因定位方面的实践,直接采用聚类的方式来处理告警数据,这种方式会带来两个问题:1)无法适应告警关联的动态性,即静态管理的告警准确度不高;2)黑洞效应,直接进行聚类很容易将告警少的监控错误的和告警多的监控进行关联,就像宇宙中吞噬一切物质的黑洞。我们解决动态关联和黑洞效应的方式是首先应用CMDB、应用调用链、链路监控等基础数据,构建出标签化的运维大数据平台,然后利用运营专家总结的静态规则,完善告警的关联关系,使关联更加准确;同时应用AI的相似性分析、面积权重等算法,实时计算,解决告警关联的动态性问题。在具备将告警事件,准确的关联成问题的能力以后,再应用AI智能推断技术,比如决策树、神经网络等等,实现根因分析。
智能预测:
智能预测即通过学习指标特征和故障发生概率的关联规律,提前预警,及时干预,降低系统性异常。运维领域所定义的可预测的异常具备如下特点:a.时间上具有必然概率最终会发生的故障点,比如机能损耗、寿命终止等;b.具备明确定义、数量有限的数据指标;c.有明确的参考值,评判是否发生故障。基于上述必要条件,平安AIOps故障预测聚焦于故障易发、带来的经济损失的领域。以磁盘领域为例,通过搜集包括底层数据读取错误率、负载周期数、CRC接口错误计数等多类监控指标,对监控指标进行多维特征提取、利用包括审计网络、Cusum、决策树等算法定义异常隐患点,通过人工主动干预,有效避免系统异常,减少经济损失。
平安将围绕集团金融+科技战略,加快用人工智能技术赋能IT运维领域,聚焦智能检测、智能定位、智能预测三大场景不断进行提升与改进,践行"科技赋能金融、科技赋能生态、生态反哺金融"的集团战略。