【参评方案】擎创科技:夏洛克AIOps智能运维平台解决方案
解决方案简介
擎创夏洛克AIOps智能运维平台解决方案(以下简称“夏洛克AIOps平台”),主要在金融类企业客户现有的IT运维管理的基础上,构建一体化、智能化的运维大数据平台,帮助客户打破现有各个孤立系统中的运维数据孤岛,提高IT运维数据全面采集及综合分析能力,进而提升平台的运行效率,扩大平台对生产系统的覆盖面,丰富运维大数据的场景。
夏洛克AIOps平台,能够采集、处理和分析各类日志、指标和告警等运维数据,并提供数据的统一集中查询、检索和预测分析。此外,夏洛克AIOps平台在AI算法的支撑下,还能通过关联分析、建模预测等方式发现不同运维数据类别中的潜在关系,并建设历史数据趋势分析、告警阈值设置、异常信息发现以及日志智能检索分析等大数据运维应用场景,为告警阈值设置、异常信息发现等提供参考依据,实现事前智能预警、事后故障快速定位,进一步提升客户数据中心运维管理水平。
夏洛克AIOps平台的构建,主要通过以下关键步骤,一步步实现统一集中的智能运维大数据平台:(1)建设运维大数据平台,实现对日志、事件、指标、配置等运维数据从采集、解析、存储、转储的一站式生命周期管理;(2)运维场景化的日志内容搜索,包括数据总览、应用检索、日志分类检索、日志一键查询;(3)满足合规审计要求,定期自动对日志数据进行缺失检查、配置检查、集中检查、保留检查等;(4)通过KPI异常检测、应用关联定位、日志异常定位等智能化算法,实现辅助问题根因定位和故障预警。(5)打通各运维工具集间的数据壁垒,实现数据流通,打造综合运维分析平台。(6)建设数据支撑中台,为决策及运营系统提供统一规范化的数据服务。
应用场景痛点简介
随着金融行业业务的快速发展,信息系统日渐庞大和复杂,当前行内的IT架构早已不是单一系统或是单一设备的单纯环境,伴随而来的是规模不断扩大的IT系统、日益复杂的系统架构,以及海量的IT运维数据。数据中心运维管理难度和重要性也日渐凸显,对业务连续性要求和运维服务质量的要求也不断提高,迫切需要建设一套科学、高效的运维管理体系。
与此同时,监管部门对金融行业数据治理相关监管指引相继出台,数据价值逐渐向资产化方向过渡。有计划加快数据治理,是提高金融行业竞争力和高质量发展的重要举措。而金融行业企业在经营活动中,沉淀了大量客户数据、交易数据和运行数据,这些数据有非常大的潜在价值,是非常宝贵的财富,也是大数据应用的基础。
在传统的运维方式下,金融行业为了应对不断出现的新的问题采用了大量的运维监控工具,但是结果却导致工具之间各自为政,数据孤岛效应明显,告警风暴频发,很难做到数据的集中管理,导致数据处理和实时分析能力大幅下降,故障根因定位十分困难,故障排除效率直线下滑,使得运维的实用性大打折扣。因此必须借助一定的手段和方式,如对客户的IT运维数据实现全量的集中化管理,实现数据实时处理、智能分析和预测,进行多维度高效根因定位。
实际上,金融企业数据中心运维系统及运维大数据是其本身业务运行的重要支撑保障,加快运维数据治理,持续推进运维自动化和智能化是金融企业新核心建设和业务发展的一个重要手段。为此,根据金融企业新核心规划、数据中心建设和运维管理需要,建设智能运维大数据平台势在必行。
解决方案亮点介绍
夏洛克AIOps平台提供的是一种全栈式解决方案,支持指标、告警和日志等全量数据的集中采集,并在AI算法的加持下对数据进行流式处理(数据解析、数据关联和聚合计算等)和分析,实现精准告警、异常检测、根因定位和容量分析等运维场景。本解决方案的优势主要在以下几个方面:
高精度的AI算法。夏洛克AIOps内置数十种经过验证的人工智能算法,包括单指标异常检测算法、单指标趋势预测算法和智能日志分析算法等,适配场景丰富度多、准确度高,涵盖IT运维故障管理全生命周期。通过智能分析引擎,并根据历史监控数据和告警信息,产生事件关联性、业务影响性、事件智能处理等模型,并不断利用新生成的数据,对现有模型进行完善和优化,算法准确率已经从2017年的90%上升到2018年的95%,目前部分指标已经达到业界领先的97%。
卓越的监控整合能力。夏洛克AIOps具备海量的数据采集能力,可以不限定数据样式,检索各种形态的IT运营数据。同时还能通过高效的数据采集手段,对现有IT环境内的数据进行秒级采集,打通告警、指标和日志的数据孤岛,实现数据的集中管理。
开箱即用的场景化能力。夏洛克AIOps拥有多个开箱即用的智能化场景模块,能够根据客户当前的运维成熟度选择具体应用场景,按照不同的路线图进行建设,使得不同运维成熟度的金融客户均可以灵活选择解决方案,逐步阶段性完成智能化进程。
强大的实时智能分析能力。运维数据的处理分析由于有其特殊的要求,不仅仅是数据规模大,而且数据处理的时效性要求极高,但是当前的数据分析工具都偏向于事后分析,很难做到实时分析乃至事前预判。夏洛克AIOps为监控赋予了实时性、智能化综合分析的能力,通过多种机器学习算法极大提升了排障效能,还为故障预防、经验知识积累提供有力支撑。
金融行业客户名单及客户评价
已采购擎创夏洛克AIOps智能运维平台解决方案的金融行业客户主要包括交通银行和郑州商品交易所等金融行业的客户,目前多个项目都进入到二期、三期建设中。
客户评价:
交通银行评价:擎创夏洛克AIOps解决方案应用到我行之后,目前已经能够完成日增20TB级别的数据治理,本期建设采集和存储了超过5000台的服务器数据,集中告警、配置管理和自动化系统等多套运维管理工具之间的数据均被打通,我们在事前故障预警、始终故障快速定位和事后的知识沉淀方面的效率都有了大幅提升。
某城商行:智能运维最近几年在业内享有很高的话题度,很多大厂以及一些专业化的公司都开始在这方面布局。但是我了解到,大部分宣扬的智能运维解决方案都有点纸上谈兵,毕竟运维走向智能化并不是谈谈算法多厉害就可以了,关键在于能否落地,能否解决运维的实际问题。我们行的主要问题是监控效能不太高,我们在兄弟行的引荐下,尝试采取了擎创夏洛克AIOps解决方案,从集中告警入手,利用算法去重降噪,再查看相关告警之间的有效告警场景,筛选出最可能影响业务问题的告警。此外我们还通过他们智能异常检测算法,解决了监控指标静态阈值设定不准确的问题。这才是我们进行智能运维建设最期待的结果,利用智能手段解决实际运维问题的才称得上智能运维。
本文由2020年“第二届金融数据智能优秀解决方案”评选组委会授权发表,转载请注明出处和本文链接。