AIOps建设与数据治理
在上一篇《》中,我们明确了AI的能力边界、智能运维能够解决的问题,以及相应的解决方案。
本篇文章我们来谈一谈这些解决方案,应如何落实到实际的运维应用当中去。
01
指 标
在传统运维监控中,运维人员一般会给指标数据配上固定的阈值,为了让其能在紧要关头发挥作用,就需要不断调整阈值大小并配置各种告警规则来避免误报。
周期性波动指标
一个数据中心会有数以万计的指标数据,不同的指标又有不同的趋势周期。对于有上升或下降趋势的指标,管理员需要不断的调整阈值以保障告警准确性;而如果我们想对图中这样一条有周期性波动的指标配置上述规则,往往只能在“高误报”和“高漏报”之间权衡取舍。当管理员面对海量指标时,繁重的配置工作量、后续维护的人力成本,以及告警的高漏报率/高误报率是现阶段运维人员共同面对的普遍性难题,“动态基线算法”呼之欲出。
02
日 志
日志中包含了大量有价值的信息,一个大型的数据中心每天的日志增量能达到TB级规模,如何挖掘这些日志的深层价值,从海量日志中提取有价值的信息,是目前运维领域的另一个挑战。
对于“千人千面”的日志数据,很难做到实时对每一条日志进行分析。目前常用的手段是通过“关键字提取”和“正则表达式匹配”快速获取运维人员所需信息,这需要我们在已知日志“长相”情况下,尽可能完善关键字和正则的信息。而实际的情况是,除了依靠现有的运维人员经验外,往往要在故障发生之后我们才知道如何优化配置规则,更好地监控这些日志。随着软件系统的不断更新和硬件设备的不断升级,已知的日志通常是非常有限的,“智能化日志分析产品”需求迫在眉睫。
总结
完整的AIOps产品在实际运维工作中可以为我们节省大量人力和时间成本,但同时也依赖高标准的运维数据。但这并不意味着两者的建设无法并行。相反,两者并行是一种更高效的选择,部分AIOps场景“初见疗效”的同时,它也在指导我们后续的数据治理工作。
相关阅读:
AIOps落地实践常见问题解读系列(一)