AIOps在故障定位中的应用

vlambda
2020-06-25

AIOps在故障定位中的应用

传统的运维工作经过不断发展，大致经历了人工、工具和自动化、平台化和智能运维（AIOps）几个阶段。在监控、服务台、自动化之上，利用大数据和机器学习持续优化，用机器智能扩展人类的能力极限，这就是智能运维的实质含义。

AIOps，能利用大数据和机器学习提高运维的自动化程度和效率，比如将其用于监控告警收敛和合并、故障根因分析、故障关联分析、系统容量评估等运维工作中。

在现实运维工作中，因业务模型复杂而带来的直接影响就是故障定位困难，发现根源问题成本很高，效率很低。在实践中通常用于故障定位的机器学习算法有关联规则和决策树。

故障一般会通过一些事件、错误、症状表现出来，使用关联规则挖掘能够为故障定位提供帮助。关联规则挖掘是一种基于规则的机器学习算法，它的目的是利用一些度量指标来分辨数据集中存在的规则，通常用于知识发现，而非预测，是一种无监督的机器学习算法。

关联规则处理的变量可以分为布尔型和数值型。布尔型关联规则处理的值都是离散的、种类化的，它显示了这些变量之间的关系；而数值型关联规则可以和多维关联或多层关联规则结合起来，对数值型字段进行处理，将其进行动态的分割，或者直接对原始的数据进行处理，当然数值型关联规则中也可以包含种类变量。

基于规则中数据的抽象层次，可以分为单层关联规则和多层关联规则。在单层的关联规则中，所有的变量都没有考虑到现实的数据是具有多个不同的层次的；而在多层的关联规则中，对数据的多层性已经进行了充分的考虑。

关联规则中的数据，可以分为单维的和多维的。在单维的关联规则中，我们只涉及到数据的一个维，如用户购买的物品；而在多维的关联规则中，要处理的数据将会涉及多个维。换成另一句话，单维关联规则是处理单个属性中的一些关系；多维关联规则是处理各个属性之间的某些关系。

和关联规则不同，决策树属于有监督的机器学习方式。在实际应用中，可以通过对数据进行处理，利用归纳算法生成可读的规则和决策树，然后使用决策树对新数据进行分析。

回归到故障分析和诊断问题上，假如对于某类网络故障的处理有了一定的经验，形成了一系列的规则，就可以对这些规则进行总结，当某个网络故障发生时，其判断逻辑就可以取经验值进行判断，判断过程可以绘制成一棵树。

▲决策树

这就是决策树，在每一层都提出了一个问题，然后根据问题的回答走向不同的子树，最终达到叶子节点时做出决策。使用决策树，我们就可以创建出故障诊断的决策树工具。

▲决策树工具

决策树在被用在故障诊断中有下面几个明显优势：

根据人的经验来构建决策树，易于理解和实现；
决策树只需构建一次，就可以反复使用，每一次预测的最大计算次数不超过决策树的深度；
对中间值的缺失不敏感；
数据简单，不需要规范化。

故障诊断和分析是智能运维非常重要的一个领域，高效地进行故障诊断和分析可以提高系统的可用性，一个好的诊断方法能够快速、高效地找到故障根源，加快解决问题，在一定程度上降低了故障的持续时间，减少了因故障带来的损失。

金科信息成立于1993年，成立之际就定位专注于金融科技。1993年成为中国工商银行科技业务合作伙伴，1995年开始为中国人民银行和中国工商银行提供网络服务，2008年成为兴业银行总行指定网络系统集成服务商。金科信息从2003年以来，累计成功交付3576个银行相关项目交付，从未发生任何事故，并全面获得好评。金科信息于2014年挂牌新三板（831107），2017年引入东方富海及和创科技战略股东，目前正启动IPO上市计划。26年以来，主营业务专注于：

银行网络集成和运维服务
银行云计算机房集成和建设服务
银行主机和存储设备集成和运维
云计算运维平台集成服务
智能运维解决方案提供商

何志毅，金科信息创始人，北京大学教授、博士生导师，北京大学华人企业管理研究中心主任，《北大商业评论》创刊人和执行主编。曾任北京大学光华管理学院院长助理、北京大学管理案例研究中心主任、上海交通大学安泰经济与管理学院副院长（常务）等职。

-END-

vlambda博客
学习文章列表