新华三某大型银行自动化运维规划实践
现在大家都在讲智能运维,智能运维是未来运维发展和演进的趋势。智能运维融合大数据、机器学习等先进的分析技术,来提升IT运维的监控、自动化和服务管理能力,实现个性化、动态化、可预测的洞察和处理。
但智能化和自动化之间并不是相互替代的关系,未来深度的智能化实现依赖于成熟的自动化和大数据(智能计算)能力的深度融合。事实上,自动化运维已经从一种思潮和探索转变为大规模的实践应用。越来越多的企业已经规划并全面落地自动化运维,而且自动化成熟度也相当高,自动化将是智能运维强有力的支柱。
金融行业是比较早成功融合IT的企业,经历了几十年的发展,银行业IT已经非常成熟,另一方面,银行系统也相对比较复杂,业务连续性要求高,对IT运维也提出更高要求,所以大型银行的自动化运维实践极具参考意义,可以作为其它行业的标杆。
下文是笔者结合多年的银行业自动化运维体系建设经验,总结提炼银行业自动化运维规划实践。当然,这样一套体系未来还将在数字化银行转型发展过程中,不断地优化提升。
金融行业自动化运维规划实践
在自动化运维体系搭建前,都是被动式解决问题,在运维中经常被各种问题所困扰,不同岗位的人会从不同角度和维度对运维提出不同需求,比如一线运维人员、室组经理到中心领导,作为运维管理员的你可以回答吗?
图1 运维管理员常见问题
面临的运维难题很多:信息零散,太多工具及脚本,重复劳动多,繁琐容易出错的任务,快速排障和修复,竖井式的团队和不断增长的威胁,不一致的补丁和人工合规巡检。所以需要借助自动化平台来提升运维能力。
平台能力主要是面向运维部门的工作平台,运维人员的大部分工作都能在该平台实现。以用户为对象来组织各种功能。可以构建面向业务场景的精细化管理平台,比如希望降低产品成本,我们可以建设相应的容量优化平台;希望提升变更效率,可以建设相应的设备扩容调度平台等等。规划重点是针对不同的运维场景给出一套固定的功能组。用户要做什么事,只用选择对应的模块组合就能完成。平台结构设计分为基础设施层、通用能力层、平台能力层、运营能力层。
图2 平台架构设计
自动化运维平台的建设是一项持续优化、不断迭代的过程,我们需要一个科学的自动化设计规划路线图来实现这一目标。在设计规划自动化运维平台的时候,采用“目标愿景→现状评估→差距分析→路线规划”四个步骤:
确立目标和愿景
参照IT业界对数据中心自动化的成熟度的评估标准,结合自身组织结构特点,建立自动化运维的成熟度模型和评价体系,以成熟度模型为依据,从数据中心整体角度确定目标和愿景。
02
评估各组现状
数据中心各组的日常具体运维工作存在较大的差异,为了用客观和统一的标准来评估各组的现状,对各组的工作进行“分解”并“重组”,具体如下:
首先将各组日常的运维工作进行分解,分解粒度细化到单个的日常运维任务。然后将根据任务的共性进行工作分类,将日常的运维工作划分为若干个维度,最后结合成熟度模型为每个维度确定评价标准,建立数据中心自动化成熟度评估表。
033
分析现状和目标的差距
各组根据自动化成熟度评估表,对自动化现状进行自评,并结合中心的自动化目标,找出各组各项工作距离目标的差距。
04
规划的改进和提升路线
根据差距分析,确定各类工作的改进方向。结合各组的具体情况,确定各项工作的改进次序和方案。
依据该方法,某银行规划和实践过程如下:
先依据IT业界对数据中心自动化的成熟度的评估标准,结合数据中心的组织结构特点,建立自动化的成熟度模型和评价体系。以成熟度模型为依据,从运行中心整体角度确定自动化愿景和确定要达到的目标。
依据《IT运维成熟度模型综合评价表》,从管理与决策、资产与配置、资源与服务、安全与合规以及维护与变更五个类别,来评估现在和将来自动化的成熟度,数字越高,表示成熟度越高。
例如:系统组的资源服务类现状评估
在IT业界自动化成熟度模型的基础上,结合IT科技部门的组织架构特点,确定IT科技部门的整体自动化成熟度模型,如图3所示。
图3 IT科技部门整体自动化成熟度模型
整体自动化成熟度模型由低到高划分为1至5五个阶段,发展的整体方向从被动到主动,从分散到统一,从个性到标准化,从任务到服务,从传统运维到云化运维。
根据IT科技部门整体自动化成熟度模型,经历5年发展到达第4阶段的路线图。下图为每阶段规划实施的重点:
经过5年的自动化建设,该行自动化处于金融行业领先水平。再次面对原来的运维难题,借助自动化平台,都有科学的应答,各种运维场景都有高效的解决方案。
图4 利用自动化平台应答领导关心热点
例如,借助自动化平台对账户检查的需求应对方案。原来通过登录每台服务器,执行脚本,获取账户信息,信息汇总后通过FTP下载到管理员工作机器,通过比对,查出不合规的服务器,然后登录到不合规服务器,创建相应的账户。账号检查人工操作极其繁琐和耗时,为当前痛点作业之一。
应对方案:通过自动化平台实现服务器账号的定期自动检查,检查服务器是否具备特定账号,对于核检未通过的,进行定期或者按需补救,如新建相应账号,并且自动获取相关信息,生成报告,并存盘。
自动化平台实现账户检查收益分析:
图5 账户检查收益率
既可以按时检查,也可以按需检查;提高合规率(可以对更多主机进行更频繁的检查);提高效率(人工操作繁琐耗时);提高准确率(减少人工检查错误)。
自动化运维平台带来的价值和帮助
自动化整体收益
经过4个阶段的自动化建设,日常运维工作实现规范化,标准化。在自动化成熟度的指引下,完成监管控自动化扩展到各个部门,对整体流程,自动化体系持续改进,整合各工具平台,实现可视化运维。
图6 自动化整体收益
02
自动化大幅提升协调能力
自动化平台帮助用户把各个部门串联起来,打破部门竖井式的缺陷,真正做到系统作战。
图7 跨室组,系统为核心的运维
03
自动化大幅提升运维能力
自动化运维平台可以在各项运维场景中提升运维自动化能力。下图总结出了一键功能模块,包括一键部署和一键巡检等7个分支以及43个子场景。
图8 场景化运维工具
04
自动化改变运维方式
被动解决问题通常是以一个监控告警开始,管理员随即去检测问题,再修复问题。主动解决是为了避免问题的发生,先进行规划(如cpu、内存的利用率并进行预测),再进行优化(回收或扩容),问题发生时自动执行。
图9 被动到主动的转变
从IT运维的演进路径可知,运维发展的趋势是走向智能化运维。智能化运维的支柱是自动化,没有成熟的自动化是不可能到智能化的阶段。
本文介绍了自动化运维的实践过程,自动化设计规划实践的方法,阐述了该方法论在银行业的实践以及实现的效果。
目前金融行业引入大数据、AI、混合云,而本文阐述的自动化运维平台建设实践依然适用,只需要在自动化运维平台上对“平台能力层”和“运营能力层”做出扩展,引入大数据分析平台、智能计算平台等。
所以在讲智能运维,自愈运维概念的今天,我们更应提高自动化平台的成熟度。在全面和成熟的自动化平台上引入大数据、机器学习等先进的技术从而实现全面的智能化运维。