AIOPS产品白皮书----数据管控&业务端到端

vlambda
2020-05-27

AIOPS产品白皮书----数据管控&业务端到端

一.产品背景

随着互联网等技术的高速发展，数据也随之以几何级增长。通过大数据平台，可以有效利用运营管理系统的既有数据，进行深度分析挖掘，达到提升客户感知、提高运维效率、加速故障定位、支撑辅助决策的目的，从而保障运营服务质量、实现数据价值。

二.产品特性

2.1海量日志数据接入

统一的系统日志、应用日志、应用数据、网络等数据集中接入，支持数据的统一存储、统一处理。

2.2场景模块化

提供内置场景，配套全面的分析能力,支持定制分析、关联分析场景。

2.3分析实时化

流式处理，准时化更新，更新周期。

2.4展现可视化

丰富的展示组件。

2.5无感知全文检索

基于ES搜索技术，查询到所有已集中的日志数据，无需登录各系统查询。

2.6标准数据服务

提供标准的数据查询服务。

2.7系统适应

系统支持多租户、多语言、IPv6。

三.产品介绍

3.1产品架构

3.1.1产品功能架构

结构化数据处理是将报文、日志、多媒体等非结构化的数据根据预先定义的关键字模型，进行数据清洗、转换、建立标准化索引，实现数据的存储管理功能；
结构化数据处理是将性能、配置、监控等数据抽取结果根据预先定义的不同维度进行简单整理汇聚的功能

3.1.2产品技术架构

3.1.2.1数据采集/存储

功能：

Logstash和Kafka实现日志源数据的统一/安全采集；
流式数据处理组件实现日志的分布式流式计算和外系统实时分发;
日志集中存储分析，支持Hadoop、Hbase、HDFS和ElasticSearch方案；
综合日志门户，提供全日志统一搜索、横纵向关联分析，报表定制/展现等。

特性：

实现对结构化数据、非结构化数据、流式数据的存储。数据存储方式包括：数据存储方式包括磁盘存储和可通过HDFS分布式文件系统、HBASE分布式数据库、MapReduce/Yarn分布式计算框架、HIVE数据仓库工具、ZooKeeper分布式协调系统等组件支撑的Hadoop日志云存储，以及MPP、NOSQL、分布式搜索引擎及其它分布式存储方式；
支持数据存储策略配置：包括对存储周期、清除频率、存储位置等进行统一管理；
数据存储方式应方便使用，如用于实时检索的数据，存储方式应利于实现秒级检索。

3.1.2.2数据处理

数据管控平台从数据接口层取数据。
依据ETL流程的配置定义数据流向，匹配相应的数据算法、结合各数据处理的规则进行数据加工。
根据数据分析模型配置，将ETL加工完成的数据进行计算，并保存到相应的数据库中。

3.2产品功能介绍

3.2.1数据管控

3.2.1.1结构化数据处理

结构化数据处理是将性能、配置、监控等数据抽取结果根据预先定义的不同维度进行简单整理汇聚的功能：

能够灵活定制、修改及删除数据抽取维度规则；
能够灵活定制数据抽取的汇聚算法公式；
能够按照预先定制的粒度将数据抽取结果进行整理汇聚；
能够提供按照核查规则进行的数据检查功能，完善数据整合有效性和完整性。

3.2.1.2非结构化数据处理

非结构化数据处理是将报文、日志、多媒体等非结构化的数据根据预先定义的关键字模型，进行数据清洗、转换、建立标准化索引，实现非结构化数据的存储管理等的功能。

实现基于集群的任务调度，提供一站式任务调度与管理的功能。
具备预定义、预封装，支持前台UI定制报表功能。例如通过进行MapReduce映射，实现通过hive的类SQL统计，供前台报表展示。

3.2.1.3流式数据处理

流数据处理是将数据抽取结果根据预先定义的不同计算模型在内存中进行实时计算、分析、汇聚等的功能。流式计算能够分析大流量的实时数据，并快速完成数据的计算与分析，在迭代式和交互式数据处理环节下可实现低延迟传输。

具备内存计算和网络直传的数据流计算能力，满足延迟在秒级至毫秒级别的计算需求。
具备高可扩展性，支持系统的自动扩展和服务的自动迁移。
具备计算节点和管理节点完全分布式化，全局无单点的能力。

3.2.1.4数据存储

实现对结构化数据、非结构化数据、流式数据的存储。

支持数据存储策略配置：包括对存储周期、清除频率、存储位置等进行统一管理。
数据存储方式应方便使用，如用于实时检索的数据，存储方式应利于实现高效检索。
具备计算节点和管理节点完全分布式化，全局无单点的能力。

3.2.1.5数据检索

实现对结构化数据、非结构化数据、流式数据的检索。

支持按数据分类检索，按数据二级分类，应用交易日志、应用运行日志、系统日志、运维数据检索。
应用交易日志、探测数据提供按时间、业务类型、渠道、地市、营业厅、手机号等检索；应用运行日志和系统日志提供按时间、IP地址、业务系统，日志级别，应用类名/方法名等检索；运维数据提供按时间、IP地址、资源名称等检索；指标数据提供按时间、指标对象、指标ID、指标名称等检索；资源数据提供按资源类型、资源状态、资源名称、系统名称等检索。
支持按不同的时间粒度检索，例如30分钟、小时、日、周、月。
数据检索权限访问控制，各省只能检索本省的数据，中心权限可检索全局。

3.2.2 业务端到端

3.2.2.1业务整体性能展示

根据不同业务中心，实现对业务流程、处理速度的监控。
根据不同业务展示业务关键指标，指标趋势。

3.2.2.2服务调用拓扑展示

展示业务整体服务调用图，每个服务节点展示服务平均调用时长，超过阀值的节点根据告警级别突出展示。

3.2.2.3单笔跟踪展示

树型方式展示业务调用日志，业务日志详细信息。
调用链方式展示业务调用顺序，点击调用链节点，展示该节点相关业务日志信息。

3.2.2.4业务日志查询

能查询不同类型日志信息，按时间段查询日志，根据日志字段过滤日志记录。

3.3场景介绍

3.3.1日志检索

实现对日志关键词的检索，并提供集群关联日志的仿真详情查看。

3.3.2错误日志分析

实现对日志中错误关键词的统计分析，并提供错误日志详情跟踪查看。

3.4关键技术介绍

3.4.1数据提取

日志数据提取是指从日志源数据源系统抽取目的数据源系统需要的数据。

日志数据提取包括：

增量抽取：指抽取自上次抽取以来数据库中要抽取的表中新增、修改、删除的数据。
全量抽取：类似于数据迁移或数据复制，它将数据源中的表或视图的数据原封不动的从数据库中抽取出来，并转换成可以识别的格式。

3.4.2日志分析清洗

日志分析清洗数据清洗是将日志元数据中出现二义性、重复、不完整、违反业务或逻辑规则等问题的数据进行统一的处理。

按照数据仓库中数据存储结构进行合理的转换，转换步骤一般还要包含数据清洗的过程。在清洗之前需要进行数据质量分析，以找出存在问题的数据，包括：NULL值处理，日期格式转换，数据类型转换等等。

四.产品价值

通过构建统一数据运维和管理能力，将运营管理系统相关的生产系统数据和运维系统数据在统一数据管控平台进行集中化的数据存储、规范化的数据分类、智能化的数据检索，为运维人员全方位的数据使用提供支持。

在集中的基础上，通过各类型数据的关联分析，挖掘数据在业务运维支撑方面潜在价值，实现数据变现。
通过对数据更精细化的挖掘，深入关联业务的性能隐患与平台异动，贴心关注运维工作，宏观与微观的实时分析，构建具备“先进性、灵活性、融合性”的智能化业务服务管控平台，实现业务的“可视”、“可控”、“可分析”、“可追溯”。

vlambda博客
学习文章列表