vlambda博客
学习文章列表

AIOps智能化运维:迈向5G新基建的“桥梁”

云计算时代,随着企业数字化水平的不断提高,软件虚拟化和云化使得ICT基础设施网络变得越来越复杂和相互依存,在过去几年中,为了应对数字化转型给企业带来的日益增加的系统复杂性,市场上也出现了很多运维分析平台。

在如今的云计算时代,计算的云化和分布式应用给运维工作带来了很大的挑战,让人海战术在运维面前失灵,所以基于算法和机器学习的智能运维(AIOps)必将是业务运维场景下的大势所趋,AIOps平台利用大数据,现代机器学习和其他高级分析技术,以主动,个性化和动态的见解直接或间接地增强IT操作的功能。

Gartner相关数据指出,全球AIOps平台市场规模每年在3亿美元至5亿美元之间,其迅猛发展使得企业引入AIOps工具从而增强IT功能及业务增长成为必然趋势。


然而,随着5G等网络与业务的发展,带来了高复杂、高质量的运维挑战。运维能力的演进成为电信网络能否持续发挥效能的关键影响因子,运维智能化转型已是大势所趋,云计算之争最终也将是无数厂商基于运维的综合竞争。

华为AIOps:给予运营商需要的“主动性”

当前,电信网络运维作业面临问题发现被动、故障根因定位难等一系列问题,各专业运维支撑系统功能也面临开发周期长,闭环流程自动化程度低的技术瓶颈,运营商无不期望引入AI能力实现智能运维,做到主动维护和故障自愈。

基于10多年来服务行业的经验,华为不断打破云管边端的边界,来适配千行百业纷繁复杂的需求,加速各行业的数字化转型,华为AIOps正是是其中最为代表的方案之一。

其实,传统运维和AIOps是紧密联系的,并且AIOps也依赖传统运维的数据基础、计算处理等,然而,随着云大量的采用,IT环境越来越复杂,运维管理的任务也越来越繁重,运维自动化可以解决一部分问题,但是一直困扰运维的报警收敛,一些更为灵活的配置需求,依靠运维自动化还不能完全解决,而通过AIOps的方法,则可以更深层次的解决这些问题,并且还可以为IT运维决策提供更智能的依据,预测将要发生的一些趋势。

AIOps智能化运维:迈向5G新基建的“桥梁”


具体来看,华为面向业界发布AIOps系列云服务,包括了故障识别根因定位服务、日志异常检测服务、KPI异常检测服务,硬盘异常检测服务等特点,并且支持“开箱即用”,极大限度的“主动性”,使能运营商及企业专网智能化运维的提升。

实际场景中,发现异常或故障之后的定位是运维流程中的难点,目前这些工作主要依赖于专家经验或手工分析,然而受限于分析算力和知识信息,因此效果并不理想。

NAIE AIOps通过AI算法与业务的融合,准确的将多维度的异常、告警等事件进行汇聚,并拓扑和故障传播图等维度的事件汇聚和根因定位,目前已经应用到无线接入网等业务领域,无效上站减少60%,根因识别准确率85%+,运维效率整体提升15%。

在KPI异常检测上,电信网络通过KPI预测和监测网络是最普遍的场景,NAIE AIOps合了电信领域的运维业务特点,提供单指标/多指标检测、异常原因关联分析、模 型的自学习调优等关键能力,快速识别海量KPI异常情况,也已广泛应用在电信网络场景。

在日志异常检测服务与硬盘异常预测上,NAIE AIOps实现日志的自动分类和统计规律发掘,实时监控出系统的异常行为和相关日志,而当磁盘将写入极限或面临故障时,NAIE AIOps可以智能预测14天内的硬盘故障,以采取规避预防措施,以免对业务产生影响。

业务与能力解耦:行业知识与AI技术的“化学反应”

运维工作从早期的人工运维、自动化运维转变为智能运维,在运维支撑系统的演进方向上,AIOps已经成为电信行业运维智能化转型的趋势和共识, 在未来五年内,电信行业市场的运维系统和平台将加速AI能力的升级,成为电信领域AI应用的核心场景,投资占比也将达到60%。

而按照华为对自动驾驶网络的等级定义,运维的智能化目标是要实现全域、全流程的预测性运维,自动监控、定位、自愈。

从本质来看,网络运维系统的AIOps能力构建的趋势是业务与能力解耦,做到AIOps能力的复用、拉通,支持,适配运维场景应用百花齐放和快速上线迭代的需求。


4G改变生活,5G改变社会。无疑,5G的出现驱动行业应用规模商用与千百行业数字化转型,然而,要发挥5G对经济高质量发展支撑作用,在这背后,离不开智能运维的“助攻”。

然而,企业要想实现真正的智能化运维,还离不开算法、行业经验以及高超的工程化水准三大要素。企业级智能运维产品需要方便客户基于使用场景来调整算法和模型,从而匹配业务需求;此外,还必须具备支撑算法高效率运行的平台能力,包括大数据处理能力、机器学习平台能力和流式数据处理能力等。

因此,AIOps要落地,要求相关人才不光要懂大数据和AI技术、还要熟悉运维场景、熟悉业务,企业需要结合行业经验,平台工程化以及合适的算法,突破不同的场景应用。

洞察此痛点,华为AIOps使能服务作为自动驾驶网络AI引擎iMaster NAIE的核心能力,基于NAIE 平台,提供了一系列的电信领域AIOps原子能力以及组合编排能力,并将各专业运维系统的应用与AI能力解耦,采用分层的服务化架构对接共享数据中心,集中提供AIOps能力,即使没有足够的数据与相关的技术能力和人才,也能通过华为AIOps收益,提升智慧运维效率,这也是华为AIOps的核心竞争力。

基于华为电信领域的经验,原子能力将AI算法与电信领域行业知识融合,预制了默认的电信领域模型参数,同时支持现网运行态的调优,解决当前通用算法模型在具体行业落地效果差的难题。

目前,华为AIOps的原子能力库支持流量预测、故障预测、KPI 异常检测、日志异常检测、CHR 异常检测、异常关联分、根因定位等超过20项原子能力。

在组合编排与DevOps能力上,通过组合编排功能,使用者可选择业务场景所需的AIOps原子能力,通过可视化方式完成流程串接,并进行业务泛化参数配置,包括数据接入方式、模型参数、内置电信领域泛化参数、事件通知方式等配置。

此外NAIE的生态服务也提供专业的人员培训赋能,基于NAIE平台训练服务,AIOps的原子能力库支持使用者根据实际业务需求开展算法模型的创新与开发,不断扩展AIOps能力。

值得一提的是,在场景组合服务上,华为AIOps可以围绕运维全流程提供预制典型场景组合应用,快速接入运维流程。

无疑,华为AIOps使能服务作为智能运维AI 能力引擎,融合AI的技术优势与华为在电信领域的专业优势,为运维系统的智能化演进提供AIOps 平台能力支持,助力到各专业运维系统的应用快速上线,让运维专家专注场景应用设计和业务目标达成。

智能运维“搭桥”迈向5G新基建

随着“5G 新基建”的加速实施,数字经济发展迎来新的动能。

从智慧城市到无人工厂、从智慧农业到远程医疗、从金融科技到车联网,新基建与各项技术融合而生的场景将无处不在,不仅推动投资消费的快速成长,还将驱动各行业的数字化转型升级。但随之而来的是网络问题复杂化与业务质量高要求的挑战,运维能力的演进成为电信网络能否持续发挥效能的关键因素。


“欲善新基建,必先利运维”,在ICT平台的复杂度和集成度将继续以指数级增长,而人的能力相对保持不变的背景下,运维能力的演进成为电信网络能否持续发展效能的关键影响因子。

尽管在领域或者单点技术上AIOps获得了一些进展,但AIOps还有很大的空间有待发展,离真正做到无人值守、NoOps还有很大的现实差距。

毋庸置疑,未来的智能运维一定是自洽的,在云原生环境下,基础架构和系统的部件都将是基于标准化的,运维工作可以完全基于自主、自动、智能决策的业务系统来完成,从而形成闭环。

总的来看,运维在中国仍处于起步阶段,然而随着新基建的不断加速推进,我国数字化“版图”也将不断扩大,届时AIOps将像“桥梁”一样去运维数字化系统,加速迈向智能社会的脚步。