vlambda博客
学习文章列表

AIOps项目探索的过程:螺旋上升式良性闭环


由ITShare智享会、BMC联合出品的“金融业AIOps运维大脑建设与实践”线上云直播专场活动圆满成功。新网银行副行长李秀生、上海期货交易所国际能源中心CTO、上期信息技术公司董事长郑仕辉、中国光大银行信息科技部副总经理彭晓 、国泰君安数据中心副总经理毛梦非、光大证券信息技术总部副总经理杨超、民生银行信息科技部总经理助理兼数据中心副总经理彭真山、阳光财产保险信息技术部总经理李瑞、BMC大中华区首席架构师赵成栋等多位嘉宾现身直播间,与线上近百位行业资深专家、企业数字化转型的见证者和实践者等,一起分享探讨金融业AIOps建设与实践的难点痛点。


近年来,金融行业数字化转型正呈现出金融服务场景化、平台化、智能化的发展趋势,以云计算和大数据为首的科技发展,正推动着金融行业的业务场景与技术应用创新,而智能运维也逐渐成为企业数字化转型的首要选择。


此次对话座谈直播,我们有幸邀请到了光大证券信息技术总部副总经理杨超先生,给我们分享一些金融业AIOps建设与实践经验。

 



金融行业需求呼出

从结缘AIOps到探索实践的落地


AIOps这个话题近两年非常热,本人现在负责光大证券的运维方面的工作。运维的压力很大,一方面这两年集团业务蓬勃发展。关于金融系统的需求,持续增长,我们也关注到对运维能力的需求不断放大,为了解决这个矛盾,我们也关注到一些主流的技术的发展趋势。


我们起步稍微可能早一点,2018年初,就投入了相关的研究,也跟清华大学等团队共同组成了联合的项目组,走到今天有一些落地的实践。AIOps是自上而下来推这个事,但是现阶段,在具体的运维人员,运维团队,包括运维岗位的员工角度,可能还没有能完全非常成熟地把它用好,未来还需要项目组跟运维的团队做一些交流与碰撞。


AIOps这个概念应该是2016年提出来的,简单理解是区别于传统的运维监控工具的,最大的核心不同之处,在于它能够具备多样化、全链的、易构数据的一些综合的分析能力。把这些数据通过算法的组合,能够实现全局的数据洞察,进行一些跨领域,跨部门的数据分析,相对得到一个比较全面准确的结论,是我们运维发展到一定阶段之后,具有全局视野来解决问题的一个方式。


AIOps项目探索的过程:螺旋上升式良性闭环


至于说为什么要建立这个AIOps,结合金融行业的特点来说,信息化的比例还是比较高的。运维的一些工具、流程经过这些年的发展,其实已经形成了相对比较成熟的体系。但我们也面临着一些挑战,主要有四点,一个是随着业务规模的发展,IT的技术设施种类以及数量与日俱增,系统的规模越来越大。这两年在做架构的一些转型,实际上对于节点数,包括应用之间交互的关联关系,普达度越来越高。在人力资源不能有效伴随系统数量同比增长的前提下,传统手段肯定是不能跟上运维的需求。


第二个,金融行业对于凝聚力有很高的要求。特别是这两年,随着互联网金融的发展,运维系统迭代、升级扩容的速度越来越快。如何保证一个庞大又精密的,又很高连续性要求的系统稳定运行,对于传统运维的方式提出了巨大的挑战。


第三个,数据都是随着越来越多的系统,纳入到运维监控里,监控的日志,运维日志的数据量是几何增长的。传统运维的方式,依靠人工对这些数据进行加工整理,更多的是依靠专家经验这种故障定位的运维方式。特别是在突发故障场景下的效率,是很难尽如人意的,也很难挖掘到运维数据的价值。其实这些数据是非常有价值的,只是在数字化里,第一阶段是业务数据化,第二阶段是数据业务化。


作为运维来说,其实应用系统产生了大量的应用日志,业务日志,包括这种系统级的日志,如何把它分析好,应用好,挖掘好,来推动整个系统运行的稳定,乃至推动整个业务的优化调整,也都是很有价值的。


最后,从整个团队建设的角度来看,行业的人才竞争,加剧了传统运维模式很难形成一个稳定的知识积累跟归纳,通过智能运维的方式,把专家的经验沉淀下来。运维其实是一个实践科学,专家的形成需要长年长时间的积累,还包括自我总结跟学习。这部分经验非常宝贵,怎么把这个经验凝聚成知识,沉淀到智能运维的平台里,成为稳定的价值,我想这也是我们要建设AIOps的一个出发点。

 



光大证券探索经

AIOps建设需要什么?


AIOps建设需要什么。这个话题比较大。我想AIOps建设,首先肯定需要公司包括IT的决策者要有一定的意识和决心。企业必须要有一个清晰的认识,为什么要建,要解决哪些问题?这些问题是不是能够通过人工智能的手段去解决?当前企业的系统环境,包括数据的基础,是不是具备了引入AIOps的条件?或者针对这个AIOps的建设目标,还要反向去推进哪些技术性?这也是我们在建设过程中切身感受到的。


对于光大证券而言,数据基础还是相对比较完备的,前面我们自己做了一些分析,相对能够满足当前阶段智能运维的场景跟需要。对于自身的运维工作,包括业务运行工作面临的痛点以及需要解决的问题,相对比较清晰。因此我们对AIOps投入思考与尝试也取得了相对不错的一些阶段性的成果。


AIOps项目探索的过程:螺旋上升式良性闭环


但是对于相对数据基础比较薄弱的企业,我们会建议先完善数据采集,和将智能化应用可以进行同步建设,或者可以先在某一个特定的领域进行智能化场景的探索与尝试。反过来再自查数据使用情况,制定合理的数据监控的一些策略。


根据我们的一些经验,这样可以在很大程度上避免数据监控的盲目性。其实海量数据有很多是无用或者低价值的数据,可以在这个阶段把它梳理并剥离出。在这个过程中,智能算法与数据作为试金石的角色,对监控数据进行辨别,筛选,对数据质量的要求会更加具体化,为企业指明数据优化完善的方向。所以智能运维和数据基础建设,是相互推动相辅相成的一个关系。其实在AIOps项目建设过程中,通过不断的丰富、完善数据,训练算法,在这个过程中相互推动,形成螺旋上升的一个良性闭环。




评价AIOps当前局限性

未来如何持续探索?


如何评价AIOps当前成果的局限性?根据7月21号发布的ICT存储的曲线看,其实运维市场的需求依然在不停加速。目前需求的重点,还是聚焦于平台的异常监控,定位。


光大证券主要的应用场景,其实在异常检测和故障定位(更新定位)这两个成熟的场景进行一些挖掘,目前取得了一些不错的效果。比如说我们应用场景里,以客户交易为例,现在客户基本上是通过移动终端进行交易的,其实从手机端开始到网络,再到互联网的接入数处理,再到各种中间链接,跨过了很多应用环节跟网络环节,最后送到后台来处理,反过来应答报回过去。


这里,对于客户反馈的异常,如何快速定位,有的时候其实客户未必能反馈到异常,可能有一些关键指标的成功率下去了,但是它没有对整体的应用产生影响,那我们如何快速发现并快速定位?


AIOps项目探索的过程:螺旋上升式良性闭环


毕竟是一个分布式的系统,架构相对来说比较复杂,节点也非常多。在交易过程中,可能在某个时段,某一两台中间处理机,性能突然之间就变差了。这个问题发生的时候,其实从后端传统的监控手段来看,肯定有些指标会出现一定的积压或者延迟变大的情况。但是后端的传统监控的环节,它闪出去之后分布可能有成百上千台接入的点,如何快速的对这么多维的指标进行分析,定位到具体是哪一个设备的问题,或者哪一类应用的问题。这个场景正是很好的发挥了咱们智能运维平台的作用,它能够很快的帮我们定位到具体某一台处理机出现了异常。


由于现在数据的关系,如何持续去探索这个应用。具体到设备而言,有些数据、日志可能还在持续追加到整个平台的过程中,并不能完全定位到具体是哪一个CPU方面的问题,内存方面的问题,还是网卡方面的问题,但它能定位到这台设备,已经非常有效的提升了运维人员,整个团队在这个故障定位的一个能力。当然AIOps其实也不是无所不能的,它其实也有自己的能力,现阶段还是以辅助人工为主。


我们对它本身的建设的目标,首先是异常检测,下一步是故障更新定位,后面最好能够预测,做趋势分析,做预测未来的一些工作,最后辅助决策。现阶段我们的探索可能还处于根因定位,故障定位这个阶段。在后续阶段,还需要持续投入去探索。


如何长期持续探索AIOps的技术,一方面持续丰富它的数据的。现阶段我们做了一些,当然可能还有大量的数据没有到这个平台。实际上整个智能运维的实现方式,就是数据算法。数据的全面性跟及时性,包括规范性等是个基础。第二个就是跟应用场景结合。很多东西拍脑袋想不出来,出现了问题之后,以问题为导向进行复盘,复盘之后反复去看我们还缺哪些数据。需要怎么样的指标监测,异常监测的手段,来跟问题场景结合,反馈整个平台的不断的迭代优化,最终能够形成有效的智能运维的。

 



未来方向——赋能说


其实智能运维这个手段,实际上是我们作为技术人员,用所谓的技术手段,赋能运维管理工作一个很好的切入点。这两年一直讲科技赋能业务,如果连自己都不能运用技术科技的力量,赋能我们的管理与运维的话,我们谈什么去赋予业务呢?我想这确实是一个正确的方向,也是一个发展的目标。


结合光大证券在整个智能运维场景、工具名单的建设过程中,也梳理了运维的数据的治理,所以我们今天的整个运维数据的传输总线也好,数据集市也好,通过持续的跟业务场景的结合,进一步去不断打磨数据中心的运维大脑。祝我们整个智能运维的体系建设与行业的发展越来越好,希望今天作为一个好的机会,一个开始,未来各个企业要加强交流,包括跟厂商,不同领域的行业的专家多多交流,共同进步与提高。





最新课程