阿里云天基,自动化运维的基石
随着云大物智时代的到来,数据中心的创立已经从传统式的IT系统集成转为基于云的平台部署。部署方式也已经从原先的插入安装光盘到基于PXE技术的远程启动和批量自动化安装。针对已经部署好的数据中心生产环境的运维,已经逐渐从传统的以命令行和脚本为主的传统黑屏运维方式转成基于Web或GUI界面的白屏化运维。
阿里云的天基基础运维平台就是这样一款白屏化的运维工具。我们可以认为天基是一套自动化数据中心管理系统,管理数据中心中的硬件全生命周期与各类静态资源(程序、配置、操作系统镜像和数据等)。为各种云产品应用及服务提供了一套通用的版本管理、部署和热升级方案,能够使基于天基的服务在大规模分布式的环境下达到自动化部署和运维的效果,提高运维效率,并提高系统可用性。天基平台的核心功能如下图所示:
天基的一个核心功能是数据中心的网络初始化,天基可以实现基于最初设计的网络拓扑图和配置规划清单,以近似于全自动化的方式初始化数据中心网络设备的配置。在必要的网络配置后,实现云平台产品的自动化部署环境已经具备。云平台产品比如云服务器(ECS)、负载均衡(SLB)和云数据库(RDS)等集群服务器的自动化部署也在顺理成章下得以实现。后期基于特定产品所对应集群服务器的自动化扩容和产品配置升级,也必然隶属于天基核心功能的一部分。
另外,在阿里云平台上,针对当下已经投入生产并提供业务服务的云产品,天基可以通过白屏界面的操作方式来轻松实现针对特定云产品的健康状态指标的监控,以及软硬件故障的自动恢复等功能。天基运维平台认为特定产品所处的良好状态为“到达终态”,所谓到达终态是指产品或服务符合最初部署的成功状态,并不存在任何针对此产品或服务的告警信息。如果产品或服务存在告警信息,则视为某种错误状态,云平台运维人员可以在天基平台查看具体的错误日志,并以阿里工单的形式提交给阿里云公司来进一步诊断和处理,即走ITIL的事件/故障管理流程。当然,天基平台本身也支持必要的装机和报修所需要的流程申请和审批等工作流。
通过针对天基平台的介绍,我们可以感受到未来IT运维人员的维护技能会逐渐从命令行和脚本的熟悉转向对象天基这样的自动化云运维平台的掌握,以及对云计算架构本身及以容器化部署组件的熟悉上来。运维的岗位职责要求也会经历进一步的蜕变和变迁,我们可以拭目以待。