谈谈智能运维:康威定律与智能运维
#持续思考系列#谈谈智能运维:康威定律与智能运维
“
酒困路长惟欲睡,日高人渴漫思茶。”整天活在自己精心编织的以忙为借口的工作藩篱下,实在是有点昏昏欲睡。最近跟几个客户谈及自动化运维,支撑过程中团队内部也有一些分歧,我自己也有很多疑问,干脆就立一个自动化运维的题目深入学习一下。
一、康威定律
不知道从什么时候开始,转型成了一个热门词,从行业需要转型、业务需要转型、个人和团队也都需要转型,具体到运维也是这样。从朴素的道理来讲,IT变了,架构变了、工具和平台也变了,与之配套的团队必然也需要随之而变。康威定律从某种程度上可以用来指导运营架构的转型。
1)康威定律:
系统架构是公司组织架构的反映;应该按照业务闭环进行系统拆分和组织架构划分,实现闭环/高内聚/低耦合,减少沟通成本;如果沟通出现问题,那么应该考虑进行系统和组织架构的调整;在合适时机进行系统拆分,不要一开始就把系统/服务拆的非常细,虽然闭环,但是每个人维护的系统多,维护成本高
。
2)
团队与系统的关系:
如果各运维系统开发团队和运维团队分属不同组织,在推动运维系统建设这件事上一定会遇到正面或暗地里巨大的困难,尤其一些体制内单位中,人是问题的关键。所以很多方法论中才强调,自动化运维系统建设一定要获得高层理解和支持。我们应跟管理层反复解释这个逻辑,从公司整体运维架构出发,利用组织强大的执行力自上而下推动,但是自动化运维系统建设又得自底向上进行,这一点需要明确。自动化运维系统建设远不仅是个技术方案,更应从组织和管理视角促进运维团队的理解、支持和融合。
二、自动化运维的基础和关键
这也是分歧之一。我始终认为自动化运维应该先做好标准化的工作,主要是运维对象的标准化和流程的标准化。
想要实现标准化,首先识别各个运维对象,然后我们日常做的所有运维工作都应该是针对这些对象的运维。第一步应该是基础设施的标准化,例如,识别物理对像服务器、交换机、机柜等硬件;识别这些物理对像的属性,服务器的序列号、ip地址、厂商等信息;第二步应用的标准化,应用服务、中间件,数据库等;例如,数据库的表、视图、存储过程的标准化等;第三步流程标准化,如备份、软件升级、杀毒,新业务上线等流程的标准化。此外,还需要关注建立完整、全面的运维管理制度,为自动化运维的实现保驾护航。
三、自动化运维的成熟度模型
Gartner认为,自动化运维是通过工具或者平台,实现IT基础设施和应用的日常任务和运维流程自动化,从而提高效率,降低风险,促进组织业务能力提升。主要包括:日常任务处理自动化、运维流程自动化、IT服务自动化、业务服务自动化以及整体运维运营能力升级等内容。从成熟度模型上说,
Gartner将企业实施自动化的成果分为起步、基本、标准、合理、动态等5个阶段,在每个阶段定义了企业应该达成怎样的目标。基本可以分成基础架构自动化、应用自动化、IT服务自动化以及业务运营自动化等几个层次。
从实际落地层面来说,比较容易切入的是自动化监控平台,然后是运维平台,同时需要实现对ITSM的对接和联动。
四、自动化工具的选择
这一点也是困扰我的,跟一些运维的同事和朋友沟通过后,其实也是莫衷一是,中午翻了翻《架构即未来》忽然意识到自己又犯了唯技术论的毛病,选择商用软件还是开源软件还是自研都是从自己的需求和实际情况决定的。至于选不选zabbix,至于要不要用埋点,选Pupet、ansible还是saltstack,那就以后再说啊。
这次就是这样,打完收功。