AIOps根因分析最佳实践
nock
读完需要
速读仅需 2 分钟
随着基础架构和软件环境变得越来越复杂,检测性能或可用性问题的根因变得越来越具有挑战性。幸运的是,迎接挑战的是一类新的工具和一种新的策略:AIOps。
1
什么是根因分析?
在 IT 中,根因分析是确定硬件或软件问题的根本问题原因是什么的过程。
根因分析很重要,因为在许多情况下,有多个可能的问题原因,而且从问题本身来看,原因并不明显。例如,如果应用程序开始响应缓慢,则仅凭这些信息就很难知道问题的原因是否是应用程序本身编写的糟糕的代码,还是托管应用程序的操作系统存在的问题,还是文件系统存在问题。应用程序正在使用,应用程序所依赖的网络或存储基础结构出现问题或其他原因。也可能有多个潜在问题在起作用。
2
为什么当前根因分析尤其重要
从前,根因分析相对简单,因为 IT 团队需要管理的硬件和软件层较少。物理基础架构和硬件环境之间也几乎没有抽象。因此,如果监控软件检测到磁盘性能问题,则可以相对确定磁盘本身或用于格式化磁盘的文件系统是根本问题。
但是,今天,我们依赖高度动态的多层软件定义环境。映射这些环境中所有组件之间的关系非常困难,尤其是因为配置不断变化。很难解释在环境的一层中表现出来的问题与其他层之间的关系。
如今,存储性能问题的根因可能不一定是物理磁盘或本地文件系统,还可能是使存储可供远程系统使用的网络或分布式文件系统。也可能是提供存储的虚拟化网络。
3
充分利用 AIOps 进行根因分析
部分原因是由于现代环境中根因分析的困难, AIOps ( https://sweetcode.io/aiops-ebook-ad ) 变得如此重要。通过使用机器学习自动映射和解释复杂的环境和因果关系,AIOps 可以帮助 IT 团队比仅依靠手动分析更快地找到性能或可用性问题的根源。简单地使用 AIOps 工具将大大提高您的根本原因分析能力。
就是说,您可以采取一些步骤来确保充分利用 AIOps 辅助的根本原因分析。它们包括以下内容。
1. 记住,配置快速变更,根因也会随之变更
在瞬息万变的现代环境中进行根因分析的棘手事情之一是,一次构成根本问题的原因可能在下一时刻改变。应用程序性能缓慢的根本原因可能是网络拥塞,但随着网络流量模式和存储系统负载的变化,下一阶段将变为IO瓶颈。
AIOps 工具可以帮助解决这些变化,但是对于人类工程师而言,重要的是要记住根因是可以改变的。不要认为核心问题是一成不变的。
2. 考虑自动响应
AIOps 的另一个关键功能是它使软件工具可以采取自动措施来解决问题。尽管并不是在每种情况下都自动响应是正确的解决方案(例如,您可能希望让人工工程师在进行重大变更之前先进行审查),但对于更简单的问题的自动响应可以有效地帮助确保您不仅识别根因可以快速解决,也可以在最终给用户造成严重问题之前解决它们。
3. 不要假设只有一个根因
如上所述,软件或硬件问题的原因可能是多个问题。停止响应的应用程序可能会这样做,因为代码编写得不好,无法使应用程序从意外的网络错误中恢复;在这种情况下,应用程序代码和网络问题都是此问题的根因。
这里的关键要点是,一方面,在执行根因分析时,您应努力将辅助问题与根因区分开,但您不应排除可能存在两个或多个核心潜在问题的可能性。
4. 力求与环境无关的根本原因分析
理想情况下,根因分析工作流程应对任何类型的基础架构或环境均有效。如果您依赖仅支持特定类型的环境或基础架构的监控或分析工具(例如来自特定云供应商的工具或仅针对一种操作系统设计的工具),则不会发生这种情况。
此处的教训是,您应该寻找 AIOps 工具 ( https://sweetcode.io/aiops-ebook-ad ) ,这些工具 ( https://sweetcode.io/aiops-ebook-ad )可以协助对任何类型的基础结构进行根本原因分析。