vlambda博客
学习文章列表

必示AIOps精准预警银行应用故障




随着通信技术与互联网技术的发展,网络银行、手机银行等电子渠道已经成为银行不可或缺的市场营销与客户服务的主要营销渠道。作为银行数字化营销转型的代表,电子渠道有着分流营业压力、降低营销成本、提升业务效率等诸多优势。随着银行业务规模不断扩大,电子渠道亦呈快速增长趋势。而作为交易量最大、客户体验最直接的电子渠道类系统,其运营效率和稳定性对银行业务发展和客户体验至关重要。



近日,在某大型商业银行实际案例中,日常运行稳定的手机银行业务系统的主要监控指标突然出现轻微异常波动,其响应率从99.99%下降至99.90%附近上下波动,其后一个小时内逐渐下降至接近98%。由于整个过程的降幅非常微小,远未达到传统监控平台95%的阈值而被忽略,并未发出预警。 基于机器学习算法的必示智能运维平台在系统响应率降至99.90%左右并持续波动时即检测到: 这一异常现象与历史趋势有明显差异。 单指标异常检测算法在第一时间准确判断出异常,向运维管理人员发出告警。 此时距离指标恶化、响应率大幅下降约1小时16分钟。

必示AIOps精准预警银行应用故障

接到必示智能运维平台告警通知后,该系统的二线管理员凭借多年的经验敏锐地意识到: 虽然当前系统运行状况尚未受到严重影响,但响应率微小异常趋势的背后很可能隐藏着重大隐患。 于是管理员立刻开始根因排查,并持续关注指标的进一步变化。 经过仔细的排查,管理员发现响应率缓慢下降的直接原因是内存泄漏,并定位到根因是前一天的变更。 此时响应率已经逐渐下降至99.0%附近。

最终,在告警发出1小时16分后,响应率即将跌破70%的关头,二线管理员根据应急预案进行了回退操作,系统在3分钟内全面恢复正常,一场潜在的重大生产事故被轻易化解。


回顾此次故障的处理过程我们可以看到,由于必示智能运维平台单指标异常检测高灵敏度的检测能力和提前告警,管理员可前置性地预判到故障发生风险,为及时准备故障恢复预案和排查异常原因争取到宝贵的时间,使相关管理者可以在业务指标恶化时立刻采取有效应对措施,高效的完成故障处理,挽回大量潜在的交易损失。


在大型数据中心IT运维场景中,系统管理员每天都会面对不同的故障。 因而提前感知风险、预测故障,是在业务系统发生故障时实现“无感处置”的关键前提。 我们必须要帮助IT运维管理者打“有准备之战”。 必示科技的单指标异常检测服务集成了多种领先的独创异常检测算法,可基于机器学习自动识别周期性数据规律,给出指标合理极限范围,生成动态阈值,自动适配整体趋势性变化及合理范围内的突变异常,如节假日数据变动(如春节)、变更导致的指标剧变(如版本上线、配置修改),无需人工调参。 与传统设定的固定阈值相比,由于避免了由于规则局限导致的误报警和漏报警,因此可大幅提高检测和告警准确度,减少冗余告警,提高故障召回率,帮助用户获得更准确、更及时的异常检测结果。

关于必示智能运维平台

“必示智能运维平台”是国内首个IT运维领域跨数据源、融合多项垂直算法的综合分析平台,让大型企业无需繁琐配置,即可在海量监控数据中提前发现系统故障、准确定位故障范围,提高系统可用性和运维效率。必示智能运维平台使用了大量自主研发技术,相关成果发表国际前沿论文数十篇。


必示智能运维平台一经推出,即获得了20多家头部金融和企业客户认可和采购。目前,必示智能运维平台故障发现和定位的准确率达到90%以上,平均故障解决时间减少50%以上,获得大量头部金融客户的采购和认可。