vlambda博客
学习文章列表

谈自动化运维平台02

对于自动化运维平台,首先还是要谈下其基础是运维流程的标准化,然后才是整个运维过程的自动化,整个运维自动化最早是基于ITSM规范或ITIL规范,在DevOps和微服务架构下,还需要和DevOps最佳实践所结合。

简单的说,IT运维自动化是指基于流程化的框架,将事件与IT流程相关联,一旦被监控系统发生性能超标或宕机,会触发相关事件以及事先定义好的流程,可自动启动故障响应和恢复机制。自动化工作平台还可帮助IT运维人员完成日常的重复性工作(如备份、杀毒等),提高IT运维效率。同时,IT运维的自动化还要求能够预测故障、在故障发生前能够报警,让IT运维人员把故障消除在发生前,将所产生损失减到最低。

而实际对于自动化运维可以分为以下三个大部分的内容

1. 运维流程的自动化:包括了巡检,事件问题管理,变更管理,版本发布等

2. 运维配置库:最基本的运维配置管理库,从物理资源到逻辑资源到源代码库到服务库

3. 运维监控的自动化:包括整体自动化数据采集,监控预警,性能分析,后续触发的自动管控操作

对于运维流程最终往往都设计到运维操作,运维操作最终结果涉及到配置库信息的变更,而对于运维监控本身有可能发现运维类问题并启动相应的运维流程进行处理。

对于自动化运维,后续重点关注运维派这个网站,这个网站有很多运维方面的文章可以参考,包括了运维管理流程,DevOps运维实践等,可以重点参考。

优维自动化运维平台解决方案是优维一站式DevOps及运维解决方案中的独立功能模块,既能全平台部署又可单独落地。优维自动化运维平台解决方案不同于传统的单一业务自动化解决方案,是真正面向企业运维部门提供平台+场景能力的解决方案。方案融合了优维科技数年的海量互联网运维沉淀及多年传统企业落地经验,依托于原子化作业平台和高度可定制服务编排平台。

对于自动化运维,包括当前的开源或商业软件来看,实际上包括两个方面的内容。

1. 资源和IT网管监控类软件:包括了类似zabbix资源监控,也包括了类似APM应用性能监控类软件。

2. 运维流程自动化管理平台:传统的ITSM软件进一步和DevOps持续集成,实现最终运维操作的自动化。

对于最终的运维操作自动化,我们很多时候会写成ssh脚本或py脚本,然后配置定时任务自动执行,而类似上篇谈到的蓝鲸自动化运维平台可以很好的去实现运维各种操作的流程编排和可视化,这也是相对有用的一个功能,当前前提还是应该首先将我们手里面的运维各项操作先进行分解,然后通过脚本实现完全的自动化操作。

在自动化运维里面,我们会很强调工具链这个词,即要实现整个运维自动化涉及到诸多的流程协同,底层更是涉及到诸多的工具协同,而这些工具本身都是单一的完成一种类型的操作任务,如果这些工具间没有协同和集成起来,那么将直接导致我们整个运维过程是存在隔离和断点的,也更加谈不上自动化运维。因此DevOps实践过程中完成了一个关键的重点就是为了实现持续集成和交付,完成了底层工具链的一个集成。

但是在产品或系统从建设期转到了运维期后,进入到第二个关键集成,即对于IT运维流程和软件产品变更管理和持续交付之间的集成,这两者如果集成协同不好,也同样无法实现自动化运维。DevOps谈研发运维一体化,实际上就是要实现研发的产品在持续交付过程中本身就具备可运维可管理属性,可运维属性应该是贯彻整个持续交付完整生命周期。