vlambda博客
学习文章列表

打通IT运维“任督二脉”,你需要一本“AIOps秘籍”

 


AIOps到底是什么?企业如何使用支持人工智能的IT运维技术来自动监控和管理IT业务?作为CIO必须了解人工智能IT运维的技术、策略和挑战。



云平台、托管服务提供商和进行数字化转型的企业得益于一种新兴的IT趋势:使用支持人工智能的IT运维技术来自动监控和管理IT业务。

这种新出现的技术趋势被称为AIOps,它帮助企业提前解决潜在的停机和性能问题,避免对运维、客户和收益产生负面影响。而更先进的项目开始使用人工智能系统,不仅是为了发现问题,或在问题发生之前预测问题,更是为了通过智能、自动化的缓解措施及时对事件做出反应。

那么,AIOps到底是什么,企业现在是怎样使用它的呢?本文中,我们将深入了解人工智能IT运维的技术、策略和挑战。


什么是AIOps?





AIOps是一种新兴的IT技术趋势,它将人工智能应用到IT运维中,帮助企业智能地管理基础设施、网络和应用程序,以提高性能、弹性、容量、正常运行时间,以及在某些情况下的安全性。通过将传统的、基于阈值的报警和手动过程转移到人工智能和机器学习系统中,企业利用AIOps能够更好地监控IT资产,对负面事件和影响进行事前预测。

Carhartt公司首席信息官John Hill在这家工装制造商的三个主要业务领域中使用了AIOps:服务管理、性能管理和IT自动化。多亏了智能监控,Carhartt现在能够在问题影响用户和客户之前发现问题。

他说:“这是一个监控环境、掌握动态并根据事件指标来采取行动的全过程。以前,你可能会通过停机或者某些地方不工作的迹象来知道什么时候需要进行修理——而在你发现这些迹象之前,所发生的事件早已损害了客户体验。”


AIOps应用情形





AIOps可能已经应用在了企业的IT业务中了,你自己甚至都不知道。先进的CRM和ERP系统通常内置了智能管理功能。大部分主要的云平台也利用了支持机器学习的监控和管理工具。

但是,在单点解决方案中依赖内置功能有其缺点。在一项AIOps交流调查中,65%的IT企业表示,他们仍然依赖于某种监控方法(未必具备智能功能),这些方法要么是孤立的、基于规则的,要么不能满足整个IT环境的需求。此外,根据最近的一项BigPanda调查,42%的IT企业在其IT环境中使用了10多种不同的监控工具。

打通IT运维“任督二脉”,你需要一本“AIOps秘籍”


Carhartt开始时就是这样使用AIOps的。Hill说:“以前,对于不同的环境,我们必须分别进行监控。”为了解决这种复杂性,Hill选择将监控功能结合到两个平台上,首先在AppDynamics上监控应用程序性能,然后添加Turbonomic来监视Carhartt的基础设施。

“黑色星期五”和“网络星期一”购物高峰期间,该公司网站的性能问题迫使公司不得不做出改变。Hill说,当公司看到问题时,客户早就感觉到服务质量下降了。

自Carhartt在2017年秋季部署AppDynamics以来,黑色星期五和网络星期一的高峰期间没有出现停机问题。

他说:“我们的增长创下了记录。我们的增长速度是整个行业的两倍,没有出现我们以前经历过的任何停机和性能下降问题。”

Carhartt在2019年初增加了Turbomency,用于本地和云环境的资源管理。他说,“有了新系统后,利用率从70%提高到了92%。这能为我们节省25%的基础设施成本。”

其会自动处理增加的利用率需求,无需人工干预,但减少容量仍然需要人工批准。

Hill说:“新系统能够发现我们面临的容量问题,并将更改请求发送给ServiceNow。当我们的容量过大时,它会在ServiceNow中创建一个条目,有人会第一时间注意到它。这种查看非常快速——点一下就可以了。目前,我不需要将其进行自动化。”

公司的下一步是自动化业务任务,例如使用文本识别和自然语言处理功能来处理客户订单。


AIOps应用





据Gartner的数据,到2023年,40%的企业将使用AIOps来监控应用程序和基础设施。但市场普遍认为,AIOps的应用仍处于早期阶段。据Loom系统公司在2019年赞助的一项调查,到目前为止,只有5%的企业实施了AIOps。波士顿咨询集团(Boston Consulting Group)总经理兼合伙人Akash Bhatia指出,影响应用的原因之一是,市场上的供应商太多了。“的确太多了。”

据Loom系统公司的报告,有59%的企业还处于试验研究阶段,客户仍然很难确定他们到底能提供什么。Bhatia说,另外,很多供应商只擅长于部分AIOps,例如,应用程序性能监视、基础设施管理以及网络性能监视和诊断等。他补充说,随着技术的成熟,市场出现了整合迹象。

IDC预测,其称之为IT运维分析的AIOps市场将从2018年的29亿美元增长到2023年的45亿美元,其中大部分增长来自“AIOps即服务”。IDC的AIOps分析师兼项目副总裁Stephen Elliot认为,虽然AIOps通常与企业软件平台或者云服务捆绑在一起,但大企业已经开始将AIOps作为独立的预算项目进行投资。

他说:“他们认识到自己身处多云的环境中。而且他们正在进行敏捷转型,他们有DevOps部门,他们意识到自己必须加快步伐,以后会越来越复杂。”


AIOps价值定位





利用AIOps的企业认识到了从执行分析和预测的系统转向自行决策系统的重要性。他们要实施进入自动化。

Elliot说:“他们需要能够收集大量信息、应用分析、减少噪声、加快问题发现和解决速度的工具。”

打通IT运维“任督二脉”,你需要一本“AIOps秘籍”


自动化还要求进一步增强AIOps集成。应用程序性能问题可能是由软件问题、网络问题或者硬件问题引起的。在多云环境中,根本原因有可能在某个云中,也可能在另一个云中,或者是多种因素组合的结果。如果企业的AIOps基础设施是分散的,那么会很难找到问题的根本原因并解决问题。

AIOps供应商ScienceLogic的首席执行官David Link表示:“然后就回到了手工操作,每个部门都有自己的工具。如果每一应用项目都有自己独立的工具,这种方式是不能扩展到整个企业中的。”

与此同时,像Carhartt这样已经部署了AIOps的企业会发现他们的投资得到了回报。据企业管理协会的一项调查,81%使用AIOps的企业报告实现了投资回报。事实上,42%的受访者认为AIOps的价值“显著”超过了成本。

据EMA,AIOps最常见的六种应用情形是跨域应用程序基础架构和性能、容量管理和基础架构优化、DevOps和敏捷、客户/最终用户体验管理和业务调整、成本管理和变更管理。


能够创收的AIOps





Cincinatti Bell的CBTS子公司为企业客户提供通信服务。该公司首席创新官Joe Putnick介绍说,CBTS过去代表着“Cincinnati Bell技术解决方案”,但随着企业拓展到其他地区,现在代表了“咨询建设转型支持”。

他说,转到AIOps对帮助缩短反应时间非常重要,现在已经成为新的商机来源。Putnick说,例如,在企业转向AIOps之前,需要数小时、数天的时间才能将客户设备纳入到CBTS监控、管理和计费系统中,甚至无法纳入其中。

打通IT运维“任督二脉”,你需要一本“AIOps秘籍”

Putnick说:“现在,我已经把配置时间从5小时缩短到了2分钟。所谓配置,我指的是整个IT服务管理和事件管理系统的全面配置。我知道这些统计数字很有说服力。”

该公司还使用AIOps来分析使用模式和自动响应。他说:“我们正在应用AIOps来预测哪里有容量需求,这样,我们能够保持最长的正常运行时间,尽可能让客户满意。”

Putnick说,AIOps帮助CBTS从每月安装不到40个站点增长到每月平均安装500多个站点,而人数几乎相同。

CBTS同时使用了AWS内置的系列工具、ServiceNow自带的自定义编码应用程序、定制机器学习和自适应算法以及ScienceLogic的AIOps工具。下一步:为客户提供增值服务。例如,CBTS为客户提供了客户服务聊天机器人,可以利用其AIOps系统产生的数据、分析和预测结果,使其变得更加智能,响应能力更强。


AIOps和托管服务提供商





如果想要了解AIOps的全部潜力,没有比托管服务提供商(Managed Services Provider,MSP)行业更能说明问题了。

数字服务咨询公司Nerdery的数据科学主管Justin Richie说:“这可能是目前市场上最大的一块。他们肯定在尽可能地投资于算法支持。他们知道,除了硬件,最大的支出是人力资本。”

对于MSP来说,AIOps意味着效率更高、成本更低、解决时间更短——所有这些都是该领域重要的竞争优势。

总部位于圣何塞的MSP NetEnrich公司的战略与运维高级副总裁Raghu Kamath说:“这是我们AIOps价值定位的一半。过去12个月中,我们先是在少数客户中实施,然后逐步扩展到我们的客户群里。现在,50%以上的客户都在AIOps平台上。”

NetEnrich最明显和最直接的一个好处是减少了误报。错误警报会给员工带来不必要的工作,而且减慢了客户的响应时间。

Kamath说:“我们发现和采取行动的响应时间加快了——实施AIOps后,我们的平均修复时间至少缩短了30%。而且随着AIOps变得更加成熟,并且引入了更多的推理模型,其应用会越来越广。”

NetEnrich公司在很多不同的客户环境中使用AIOps,因此,Kamath对这项技术有着独到的见解。首先,他发现环境越同质,AIOps部署起来就越容易。

他介绍说:“当你开始整合所有这些不同的环境时,情况会复杂得多。”

此外,使用公有云基础设施的客户也有优势,因为其环境的一致性更好。不过,让云供应商开放他们的系统有时候也会遇到一些障碍。

他说:“但是,公有云供应商正在改变他们的定位。如果看看两年前到现在能够访问的数据量,这已经好多了。”

Kamath说,在传统应用程序和硬件上应用AIOps是一件棘手的事情。如果没有足够的日志,就很难推断出任何东西。这就是为什么我们鼓励客户加速他们的数字化转型,并使其应用程序现代化的原因。”

作者:Maria Korolov过去20年一直涉足新兴技术和新兴市场。
编译:Charles
原文网址:https://www.cio.com/article/3529772/what-is-aiops-injecting-intelligence-into-it-operations.html
排版审核:焦   旭

想要更多秘籍吗?请关注 计算机世界 ~

越来越优秀的你还可以看看