AIOps在故障定位中的应用
传统的运维工作经过不断发展,大致经历了人工、工具和自动化、 平台化和智能运维(AIOps)几个阶段。在监控、服务台、自动化之上,利用大数据和机器学习持续优化,用机器智能扩展人类的能力极限,这就是智能运维的实质含义。
AIOps,能利用大数据和机器学习提高运维的自动化程度和效率,比如将其用于监控告警收敛和合并、故障根因分析、故障关联分析、系统容量评估等运维工作中。
在现实运维工作中,因业务模型复杂而带来的直接影响就是故障定位困难,发现根源问题成本很高,效率很低。在实践中通常用于故障定位的机器学习算法有关联规则和决策树。
故障一般会通过一些事件、错误、症状表现出来,使用关联规则挖掘能够为故障定位提供帮助。关联规则挖掘是一种基于规则的机器学习算法,它的目的是利用一些度量指标来分辨数据集中存在的规则,通常用于知识发现,而非预测,是一种无监督的机器学习算法。
关联规则处理的变量可以分为布尔型和数值型。布尔型关联规则处理的值都是离散的、种类化的,它显示了这些变量之间的关系;而数值型关联规则可以和多维关联或多层关联规则结合起来,对数值型字段进行处理,将其进行动态的分割,或者直接对原始的数据进行处理,当然数值型关联规则中也可以包含种类变量。
基于规则中数据的抽象层次,可以分为单层关联规则和多层关联规则。在单层的关联规则中,所有的变量都没有考虑到现实的数据是具有多个不同的层次的;而在多层的关联规则中,对数据的多层性已经进行了充分的考虑。
关联规则中的数据,可以分为单维的和多维的。在单维的关联规则中,我们只涉及到数据的一个维,如用户购买的物品;而在多维的关联规则中,要处理的数据将会涉及多个维。换成另一句话,单维关联规则是处理单个属性中的一些关系;多维关联规则是处理各个属性之间的某些关系。
和关联规则不同,决策树属于有监督的机器学习方式。在实际应用中,可以通过对数据进行处理,利用归纳算法生成可读的规则和决策树,然后使用决策树对新数据进行分析。
回归到故障分析和诊断问题上,假如对于某类网络故障的处理有了一定的经验,形成了一系列的规则,就可以对这些规则进行总结,当某个网络故障发生时,其判断逻辑就可以取经验值进行判断,判断过程可以绘制成一棵树。
▲决策树
这就是决策树,在每一层都提出了一个问题,然后根据问题的回答走向不同的子树,最终达到叶子节点时做出决策。使用决策树,我们就可以创建出故障诊断的决策树工具。
▲决策树工具
决策树在被用在故障诊断中有下面几个明显优势:
根据人的经验来构建决策树,易于理解和实现;
决策树只需构建一次,就可以反复使用,每一次预测的最大计算次数不超过决策树的深度;
对中间值的缺失不敏感;
数据简单,不需要规范化。
故障诊断和分析是智能运维非常重要的一个领域,高效地进行故障诊断和分析可以提高系统的可用性,一个好的诊断方法能够快速、高效地找到故障根源,加快解决问题,在一定程度上降低了故障的持续时间,减少了因故障带来的损失。
金科信息成立于1993年,成立之际就定位专注于金融科技。1993年成为中国工商银行科技业务合作伙伴,1995年开始为中国人民银行和中国工商银行提供网络服务,2008年成为兴业银行总行指定网络系统集成服务商。金科信息从2003年以来,累计成功交付3576个银行相关项目交付,从未发生任何事故,并全面获得好评。金科信息于2014年挂牌新三板(831107),2017年引入东方富海及和创科技战略股东,目前正启动IPO上市计划。26年以来,主营业务专注于:
银行网络集成和运维服务
银行云计算机房集成和建设服务
银行主机和存储设备集成和运维
云计算运维平台集成服务
智能运维解决方案提供商
何志毅,金科信息创始人,北京大学教授、博士生导师, 北京大学华人企业管理研究中心主任,《北大商业评论》创刊人和执行主编。曾任北京大学光华管理学院院长助理、北京大学管理案例研究中心主任、上海交通大学安泰经济与管理学院副院长(常务)等职。
-END-