精彩回顾 | Dynatrace AIOps提高运维效率、加快业务创新

vlambda
2020-05-02

精彩回顾 | Dynatrace AIOps提高运维效率、加快业务创新

如何提高企业的IT效率和创新速度？AIOps如何帮助企业弥合日益增长的云复杂性和有限的IT资源之间的鸿沟？Dynatrace AIOps如何做到精确的问题判断和自动跟因分析？为什么说Dynatrace AIOps做到了行业最顶级？

答案尽在“Dynatrace AIOps提高运维效率和加快业务创新”网络研讨会！

演讲嘉宾

丁威，Dynatrace 资深云架构师（普通话版）

“Dynatrace AIOps基于Dynatrace全栈的监控技术，利用OneAgent自动化采集全栈技术的监控数据，从用户行为到应用性能，再到基础设施，做到了IT技术栈的全方面覆盖，结合全自动的分析模型SmartScape和智能的因果分析AI引擎，自动发现性能问题，并给出代码级别的根因分析，缩短了从发现问题到解决问题的时间周期，助力企业提高运维效率和加快业务创新。”

余建源，Dynatrace 资深技术顾问（粤语版）

“没有Dynatrace AIOps的时候，很多救火任务要花公司大拿大量时间分析，各IT团队也常常临急抽调人手帮忙分析。有了Dynatrace AIOps后，绝大部分问题可由一般支持人员快速处理解决，而大拿终于能把主要精力聚焦在业务创新上，各团队也能按计划开发和提供服务。”

会议要点

本次研讨会着重讲解了Dynatrace软件智能平台、AIOps使用场景和核心要素，以及Dynatrace AIOps解决方案详细解析。

划重点

Dynatrace是谁？

Dynatrace是一家软件智能公司，为企业提供一体化的智能监控平台。它兼具应用性能监控、云基础架构监测、智能运维（AIOps）和数字化体验管理四大功能，已经超越了应用性能管理的范畴，是专为云原生和混合云而设计的软件智能平台。

近日，Dynatrace 再次获评“Gartner应用性能监控魔力象限领导者”，其“前瞻性”和“执行能力”得到 Gartner 应用性能监控魔力象限认可。这已经是Gartner连续第十次将Dynatrace评为“领导者”。（点击“阅读原文”，下载完整报告）

精彩回顾 | Dynatrace AIOps提高运维效率、加快业务创新

Dynatrace软件智能平台拥有OneAgent、Smartscape以及Dynatrace AI三项核心技术。Dynatrace的OneAgent能自动捕获全栈监控数据，被捕获的数据通过Smartscape转变成能自动识别它们组织架构，或者相互依赖关系的模型，Dynatrace AI则基于形成的模型和相关的依赖关系映射，通过智能的因果关系引擎，自动发现相关性能问题，并快速定位问题根因。

作为全栈式的监控平台，Dynatrace所有的技术都是以AI为核心来做相关分析。除了一体化的监控和自动化建立端到端的依赖关系映射外，Dynatrace还可以兼顾企业级的解决方案，让整个平台更易于扩容，形成可以支持上万台、甚至十万台主机的监控规模。

划重点

AIOps的使用场景

AIOps首先要解决的一个问题就是智能告警，即在问题发生时，监控系统不会将同一个原因引发的所有问题都发给IT团队，而是通过智能化的判断问题原因后对一些相关告警进行降噪。

其次是根因分析。随着应用越来越复杂，整个调用环节越来越多，运维人员如何在整个复杂调用链中快速定位到告警的问题，是AIOps能够帮助IT团队实现的另外一个场景。

最后是自动修复。Dynatrace能够发现问题并定位根因，通过与一些自动化的平台集成，还可以自动修复相关的性能问题。

划重点

Dynatrace AIOps的四大核心要素

基于多年的实战经验，Dynatrace认为，要实现AIOps必须具备四个核心要素：

全栈式监控——只有获取所有的数据，才能知道问题在哪里。

自动化——想要获取全栈的数据，通过复杂的方式来进行是不可取的，要通过一种非常简单而自动化的方式来获取。

智能——在通过简单自动化的方式获取数据之后，需要一种智能的平台来快速的处理这些数据。

开放——监控平台无法捕获整个IT系统内的所有数据，需要能够把第三方的相关数据集成到自己的AI平台里面，让AI可以对分析来自外部的数据进行分析。

划重点

Dynatrace AIOps详细解析

全栈式监控

要做全栈式的监控，就必须能全面覆盖整个应用中端到端的应用交付链路。当一个应用被开放并供终端用户使用，用户可能通过浏览器或移动端访问数据中心的应用。而数据中心可能会涉及到公有云平台、虚拟化的私有云平台等各种技术，也可能会涉及到相关的服务、交易、代码和日志等，这一系列的过程会组成端到端的交付链路。而当性能问题出现时，其根因可以发生在整个交付链路的任何一个环节。只有全栈式的监控，才能保证完整的可视化，消除监控盲点，定位问题根因。

Dynatrace OneAgent的全栈式监控能全面覆盖整个应用中端到端的应用交付链路，支持从用户端、数据中心和底层架构捕获相关性能数据。目前，Dynatrace 已经可以提供行业内最广泛的技术支持。（您可以访问Dynatrace官网，搜索：Supported technologies，获取更多信息。）

自动化

Dynatrace OneAgent能以非常简单的方式从其支持的技术中获取数据。OneAgent支持Windows、Linux、AIX、Solaris四个主流操作系统，只需在主机上执行获取相关软件安装介质和安装命令两步，就可以启用Dynatrace的监控程序。还可以通过自动化平台将OneAgent推送到所有的主机上面，从而自动发现并且监控主机上的Java、.NET、PHP、NodeJS等相关技术。

OneAgent获取相关数据之后，Dynatrace的Smartscape就会把这些数据转变成一个从上到下、从左到右的、全面的相互依赖关系模型，即一个实时的拓扑模型。

以一个真实用户的系统截图为例，可以看到该用户有142个主机被监控，这些主机上面有1万多个进程，对外提供了3000多个服务，监控覆盖了不同类型的服务。在服务的级别方面，服务之间相互调用关系、相互依赖关系也被Dynatrace的OneAgent和Smartscape建模搭建起来。正是有了这种相互依赖关系之后，Dynatrace的AI引擎才能做出相关的根因分析。

智能

Dynatrace AI引擎首先通过 OneAgent实时采集PurePath数据、拓扑数据、用户体验数据，以及来自不同技术的性能指标、日志、相关的代码等数据，并将这些数据推送到整个数据平台。当性能问题发生时，通过事件（Event）来触发Dynatrace AI引擎进行根因分析。Dynatrace AI将按需读取发生事件的监控对象、以及与该监控对象存在相关依赖关系的其他监控对象的数据，并进行因果关系分析，保证业务影响和根因分析的结果准确且快速。

通过一个案例解析Dynatrace AIOps根因分析过程。通过浏览器访问应用程序时，用户体验下降，这时Application（应用）报错并会去访问Webserver，同时对NodeJS微服务发起动态请求。此时Dynatrace已发现应用和NodeJS微服务报错。随后NodeJS微服务去调用Golang服务，Dynatrace检测到Golang服务和进程也存在问题。

这说明Dynatrace能将从前端到后端所有服务或进程中存在的问题都自动检测出来，并且通过它们之间相互的调用关系把它们串联起来，判定这些问题是否属于相同根因。

在以下Smartscape这个真实的案例截图中可以看到，12个服务存在相关的性能问题。通过Dynatrace的根因分析能够知道它们拥有相同的根本原因，智能告警可以对同一根因产生的性能问题进行降噪处理。

Dynatrace的问题告警可以展示出具体的业务影响、指标异常，同时也会分析相关的根因定位。Dynatrace的Smartscape能够把单独发生的事件关联起来，并分析判定这些事件都属于导致一个性能问题的根因。

Dynatrace AI如何自动识别性能异常？

Dynatrace采用多维度自动基线的方式来判断性能问题。例如对前端的用户操作，Dynatrace通过多维度自动基线方式对每一个维度都做一个相关的基线。这样能帮助IT团队快速判断当前用户操作的各项性能指标是否存在问题。不需要人工再去做相关的发掘操作来判断，Dynatrace能自动通过基线方式、对比方式自动学习得出结论。

对后端的服务请求、SQL语句，Dynatrace同样可以做相关的多维度自动基线来对一些核心指标做出自动化的、智能化的性能问题判断。

没有基线或者阀值的指标如何判断异常？

对于没有基线，或者没有设置阀值的指标，Dynatrace会发生异常问题的时候，自动把所有与这个问题存在关联、且存在异常的指标列出来，以供参考。那么Dynatrace是如何判断这些指标是否存在异常呢？

Dynatrace会通过统计学原理寻找变化点。Dynatrace AI会按需读取需要评估的指标，通过Smartscape找到与这个事件相关的监控对象，然后查看这些监控对象的指标，再由Dynatrace AI引擎来判断指标是否存在问题，是否存在相关的重大变化点。

首先Dynatrace AI会把这个指标分为两个样本，通过其中一些数据分布的差异定位出指标值的变化点，再通过指标值变化点的程度来判断是否为异常指标。如果样本差异达到了AI认为的重大变化点，就可以判定它是一个异常指标。也就是说，不需要对所有指标设置阀值，Dynatrace就可以自动识别出任何一个指标是否存在指标异常。

开放

Dynatrace可以通过开放的平台自动捕获自定义的、或是外部的指标和事件。主要通过以下四种方式来实现：

▪ OneAgent插件——可以捕获主机上的其他指标，如打开的网络端口数量，或是物理机的温度。

▪ ActiveGate插件——捕获来自云平台、托管服务的指标。

▪ OneAgent JMX——将自己编写的JMX插件推送到OneAgent，获取自定义JMX指标。

▪ Dynatrace API——把来自其他产品的指标推送到Dynatrace，导入外部指标。

Dynatrace AI能够将开放平台捕获的外部指标和事件的数据自动关联到Smartscape，并且自动识别指标是否异常。首先当有独立的指标数据接入到Dynatrace时，Dynatrace会把这些指标关联到上下文，并绑定到Smartscape的模型。当发生事件时，Dynatrace AI会自动分析与这个事件相关的指标，以及来自外部的、独立的指标数据，并判定这些指标是不是导致性能问题的原因。

总结

Dynatrace的软件智能平台，是通过OneAgent全栈捕获所有监控数据，并通过开放的平台去获取其他外部源的数据，再通过Smartscape技术让这些数据形成端到端依赖关系映射。Dynatrace AI引擎在这些数据和建模的基础上自动发现是否存在问题、自动归类问题根因，并且做出根因定位。

欢迎申请免费Demo演示，更加深入的了解与众不同的Dynatrace AIOps。

精彩回顾 | Dynatrace AIOps提高运维效率、加快业务创新

欢迎联络我们！

咨询邮箱：[email protected]

北京: 北京市海淀区科学院南路2号融科资讯中心C座南楼1508室

上海: 上海市长宁区江苏路369号兆丰世贸大厦18G单元

关于 Dynatrace

Dynatrace 的软件智能可以让企业云计算化繁为简、加快企业数字化转型。依托人工智能技术和完善的自动化功能，Dynatrace 一体化平台不仅能提供有关应用性能、底层基础设施以及所有用户体验的数据，还能为您找到问题的答案。Dynatrace 因此深受包括财富 100 强中的 72 家企业在内的众多全球顶尖企业的信赖，并帮助这些企业实现企业云运营的现代化和自动化、又快又好地推出软件、提供无与伦比的数字化体验。

我知道你“在看”哟～

vlambda博客
学习文章列表