精彩回顾 | Dynatrace AIOps提高运维效率、加快业务创新
如何提高企业的IT效率和创新速度?AIOps如何帮助企业弥合日益增长的云复杂性和有限的IT资源之间的鸿沟?Dynatrace AIOps如何做到精确的问题判断和自动跟因分析?为什么说Dynatrace AIOps做到了行业最顶级?
答案尽在“Dynatrace AIOps提高运维效率和加快业务创新”网络研讨会!
演讲嘉宾
丁威,Dynatrace 资深云架构师(普通话版)
“Dynatrace AIOps基于Dynatrace全栈的监控技术,利用OneAgent自动化采集全栈技术的监控数据,从用户行为到应用性能,再到基础设施,做到了IT技术栈的全方面覆盖,结合全自动的分析模型SmartScape和智能的因果分析AI引擎,自动发现性能问题,并给出代码级别的根因分析,缩短了从发现问题到解决问题的时间周期,助力企业提高运维效率和加快业务创新。”
余建源,Dynatrace 资深技术顾问(粤语版)
“没有Dynatrace AIOps的时候,很多救火任务要花公司大拿大量时间分析,各IT团队也常常临急抽调人手帮忙分析。有了Dynatrace AIOps后,绝大部分问题可由一般支持人员快速处理解决,而大拿终于能把主要精力聚焦在业务创新上,各团队也能按计划开发和提供服务。”
会议要点
本次研讨会着重讲解了Dynatrace软件智能平台、AIOps使用场景和核心要素,以及Dynatrace AIOps解决方案详细解析。
划重点
01
Dynatrace是谁?
Dynatrace是一家软件智能公司,为企业提供一体化的智能监控平台。它兼具应用性能监控、云基础架构监测、智能运维(AIOps)和数字化体验管理四大功能,已经超越了应用性能管理的范畴,是专为云原生和混合云而设计的软件智能平台。
近日,Dynatrace 再次获评“Gartner应用性能监控魔力象限领导者”,其“前瞻性”和“执行能力”得到 Gartner 应用性能监控魔力象限认可。这已经是Gartner连续第十次将Dynatrace评为“领导者”。(点击“阅读原文”,下载完整报告)
Dynatrace软件智能平台拥有OneAgent、Smartscape以及Dynatrace AI三项核心技术。Dynatrace的OneAgent能自动捕获全栈监控数据,被捕获的数据通过Smartscape转变成能自动识别它们组织架构,或者相互依赖关系的模型,Dynatrace AI则基于形成的模型和相关的依赖关系映射,通过智能的因果关系引擎,自动发现相关性能问题,并快速定位问题根因。
作为全栈式的监控平台,Dynatrace所有的技术都是以AI为核心来做相关分析。除了一体化的监控和自动化建立端到端的依赖关系映射外,Dynatrace还可以兼顾企业级的解决方案,让整个平台更易于扩容,形成可以支持上万台、甚至十万台主机的监控规模。
划重点
02
AIOps的使用场景
AIOps首先要解决的一个问题就是智能告警,即在问题发生时,监控系统不会将同一个原因引发的所有问题都发给IT团队,而是通过智能化的判断问题原因后对一些相关告警进行降噪。
其次是根因分析。随着应用越来越复杂,整个调用环节越来越多,运维人员如何在整个复杂调用链中快速定位到告警的问题,是AIOps能够帮助IT团队实现的另外一个场景。
最后是自动修复。Dynatrace能够发现问题并定位根因,通过与一些自动化的平台集成,还可以自动修复相关的性能问题。
划重点
03
Dynatrace AIOps的四大核心要素
基于多年的实战经验,Dynatrace认为,要实现AIOps必须具备四个核心要素:
全栈式监控——只有获取所有的数据,才能知道问题在哪里。
自动化——想要获取全栈的数据,通过复杂的方式来进行是不可取的,要通过一种非常简单而自动化的方式来获取。
智能——在通过简单自动化的方式获取数据之后,需要一种智能的平台来快速的处理这些数据。
开放——监控平台无法捕获整个IT系统内的所有数据,需要能够把第三方的相关数据集成到自己的AI平台里面,让AI可以对分析来自外部的数据进行分析。
划重点
04
Dynatrace AIOps详细解析
全栈式监控
要做全栈式的监控,就必须能全面覆盖整个应用中端到端的应用交付链路。当一个应用被开放并供终端用户使用,用户可能通过浏览器或移动端访问数据中心的应用。而数据中心可能会涉及到公有云平台、虚拟化的私有云平台等各种技术,也可能会涉及到相关的服务、交易、代码和日志等,这一系列的过程会组成端到端的交付链路。而当性能问题出现时,其根因可以发生在整个交付链路的任何一个环节。只有全栈式的监控,才能保证完整的可视化,消除监控盲点,定位问题根因。
Dynatrace OneAgent的全栈式监控能全面覆盖整个应用中端到端的应用交付链路,支持从用户端、数据中心和底层架构捕获相关性能数据。目前,Dynatrace 已经可以提供行业内最广泛的技术支持。(您可以访问Dynatrace官网,搜索:Supported technologies,获取更多信息。)
自动化
Dynatrace OneAgent能以非常简单的方式从其支持的技术中获取数据。OneAgent支持Windows、Linux、AIX、Solaris四个主流操作系统,只需在主机上执行获取相关软件安装介质和安装命令两步,就可以启用Dynatrace的监控程序。还可以通过自动化平台将OneAgent推送到所有的主机上面,从而自动发现并且监控主机上的Java、.NET、PHP、NodeJS等相关技术。
OneAgent获取相关数据之后,Dynatrace的Smartscape就会把这些数据转变成一个从上到下、从左到右的、全面的相互依赖关系模型,即一个实时的拓扑模型。
以一个真实用户的系统截图为例,可以看到该用户有142个主机被监控,这些主机上面有1万多个进程,对外提供了3000多个服务,监控覆盖了不同类型的服务。在服务的级别方面,服务之间相互调用关系、相互依赖关系也被Dynatrace的OneAgent和Smartscape建模搭建起来。正是有了这种相互依赖关系之后,Dynatrace的AI引擎才能做出相关的根因分析。
智能
Dynatrace AI引擎首先通过 OneAgent实时采集PurePath数据、拓扑数据、用户体验数据,以及来自不同技术的性能指标、日志、相关的代码等数据,并将这些数据推送到整个数据平台。当性能问题发生时,通过事件(Event)来触发Dynatrace AI引擎进行根因分析。Dynatrace AI将按需读取发生事件的监控对象、以及与该监控对象存在相关依赖关系的其他监控对象的数据,并进行因果关系分析,保证业务影响和根因分析的结果准确且快速。
通过一个案例解析Dynatrace AIOps根因分析过程。通过浏览器访问应用程序时,用户体验下降,这时Application(应用)报错并会去访问Webserver,同时对NodeJS微服务发起动态请求。此时Dynatrace已发现应用和NodeJS微服务报错。随后NodeJS微服务去调用Golang服务,Dynatrace检测到Golang服务和进程也存在问题。
这说明Dynatrace能将从前端到后端所有服务或进程中存在的问题都自动检测出来,并且通过它们之间相互的调用关系把它们串联起来,判定这些问题是否属于相同根因。
在以下Smartscape这个真实的案例截图中可以看到,12个服务存在相关的性能问题。通过Dynatrace的根因分析能够知道它们拥有相同的根本原因,智能告警可以对同一根因产生的性能问题进行降噪处理。
Dynatrace的问题告警可以展示出具体的业务影响、指标异常,同时也会分析相关的根因定位。Dynatrace的Smartscape能够把单独发生的事件关联起来,并分析判定这些事件都属于导致一个性能问题的根因。
Dynatrace AI如何自动识别性能异常?
Dynatrace采用多维度自动基线的方式来判断性能问题。例如对前端的用户操作,Dynatrace通过多维度自动基线方式对每一个维度都做一个相关的基线。这样能帮助IT团队快速判断当前用户操作的各项性能指标是否存在问题。不需要人工再去做相关的发掘操作来判断,Dynatrace能自动通过基线方式、对比方式自动学习得出结论。
对后端的服务请求、SQL语句,Dynatrace同样可以做相关的多维度自动基线来对一些核心指标做出自动化的、智能化的性能问题判断。
没有基线或者阀值的指标如何判断异常?
对于没有基线,或者没有设置阀值的指标,Dynatrace会发生异常问题的时候,自动把所有与这个问题存在关联、且存在异常的指标列出来,以供参考。那么Dynatrace是如何判断这些指标是否存在异常呢?
Dynatrace会通过统计学原理寻找变化点。Dynatrace AI会按需读取需要评估的指标,通过Smartscape找到与这个事件相关的监控对象,然后查看这些监控对象的指标,再由Dynatrace AI引擎来判断指标是否存在问题,是否存在相关的重大变化点。
首先Dynatrace AI会把这个指标分为两个样本,通过其中一些数据分布的差异定位出指标值的变化点,再通过指标值变化点的程度来判断是否为异常指标。如果样本差异达到了AI认为的重大变化点,就可以判定它是一个异常指标。也就是说,不需要对所有指标设置阀值,Dynatrace就可以自动识别出任何一个指标是否存在指标异常。
开放
Dynatrace可以通过开放的平台自动捕获自定义的、或是外部的指标和事件。主要通过以下四种方式来实现:
▪ OneAgent插件——可以捕获主机上的其他指标,如打开的网络端口数量,或是物理机的温度。
▪ ActiveGate插件——捕获来自云平台、托管服务的指标。
▪ OneAgent JMX——将自己编写的JMX插件推送到OneAgent,获取自定义JMX指标。
▪ Dynatrace API——把来自其他产品的指标推送到Dynatrace,导入外部指标。
Dynatrace AI能够将开放平台捕获的外部指标和事件的数据自动关联到Smartscape,并且自动识别指标是否异常。首先当有独立的指标数据接入到Dynatrace时,Dynatrace会把这些指标关联到上下文,并绑定到Smartscape的模型。当发生事件时,Dynatrace AI会自动分析与这个事件相关的指标,以及来自外部的、独立的指标数据,并判定这些指标是不是导致性能问题的原因。
总结
Dynatrace的软件智能平台,是通过OneAgent全栈捕获所有监控数据,并通过开放的平台去获取其他外部源的数据,再通过Smartscape技术让这些数据形成端到端依赖关系映射。Dynatrace AI引擎在这些数据和建模的基础上自动发现是否存在问题、自动归类问题根因,并且做出根因定位。
欢迎申请免费Demo演示,更加深入的了解与众不同的Dynatrace AIOps。
欢迎联络我们!
咨询邮箱:[email protected]
北京: 北京市海淀区科学院南路2号融科资讯中心C座南楼1508室
上海: 上海市长宁区江苏路369号兆丰世贸大厦18G单元
关于 Dynatrace
Dynatrace 的软件智能可以让企业云计算化繁为简、加快企业数字化转型。依托人工智能技术和完善的自动化功能,Dynatrace 一体化平台不仅能提供有关应用性能、底层基础设施以及所有用户体验的数据,还能为您找到问题的答案。Dynatrace 因此深受包括财富 100 强中的 72 家企业在内的众多全球顶尖企业的信赖,并帮助这些企业实现企业云运营的现代化和自动化、又快又好地推出软件、提供无与伦比的数字化体验。
我知道你“在看”哟~