AIOps 对报警架构的挑战丨PPT下载
监控报警是故障发现的重要一环,也是百度在 AIOps 方向的第一个切入方向,目前百度 AIOps 在监控报警方面已经孵化出两个应用场景:智能异常检测和智能报警合并。
如何支撑 AIOps 算法在监控告警系统的快速落地并产生业务价值,这对监控告警架构提出了很大的挑战!本次分享将重点介绍百度监控告警系统在落地 AIOps 过程中遇到的架构挑战以及相应的解决方案。
百度监控告警系统主要由异常检测、事件管理、通告发送三个子系统组成:
在异常检测部分,我们将介绍如何支撑 AIOps 算法的离线实验、近线测试、在线运行需求,以及处理多维度异常判断过程中遇到的难点和解决思路;
在事件管理部分,我们将介绍基于状态机的事件管理模型如何能够防止线上故障被遗漏;
在通告发送部分,我们将介绍如何利用智能报警合并算法来应对报警风暴,以及如何保障通告消息的零丢失最后,将总结监控报警系统在落地 AIOps 算法过程中的实践经验,以及我们对 AIOps 的思考。
在 ArchSummit 北京 2019 大会上,周伟讲师与范月林讲师做了《AIOps 对报警架构的挑战》主题演讲,主要内容如下。
点个在看少个 bug👇