超4万字!《分布式系统稳定性建设指南》即将发布,重点内容抢先看
随着数字化转型的不断推进,软件和信息服务业迎来新的发展机遇和挑战,国家对各行业的软件质量及系统稳定性提出了更高的标准、更严的要求,如工业和信息化部发布的《“十四五”软件和信息技术服务业发展规划》中强调“提升软件质量管理能力和软件价值保障能力”。政策鼓励各企业的研发运维团队培养良好的稳定系统建设思路,在工程设计与实现上规避风险,持续交付高质量软件。
在技术架构快速迭代、稳定性要求越来越高的现状下,很多企业缺乏解决分布式架构下的系统稳定性、服务高可用建设相关问题的经验,《中国混沌工程调查报告(2021)》调查结果显示,“较多服务的稳定性相对较差,月事故率差强人意”;线下调研结果提示,SRE团队几乎都是从零开始摸索稳定性建设,在此过程中存在关键技术的建设路径不清晰、建设思路不明确的问题。
为此,中国信息通信研究院以混沌工程实验室为依托,基于过去对分布式系统稳定性领域的深入分析和全面调研,联合产学研三方撰写了《分布式系统稳定性建设指南》(以下称《建设指南》),《建设指南》的撰写获得了业界极高关注度,参编单位包括(截止2022年4月12日):阿里云、华为、百度、北京银行、Thoughtworks、杭州笨马、中国农业银行、中科院计算所、中信银行、华泰证券、中国工商银行、浦发银行、蚂蚁集团、中移杭研、腾讯云、字节跳动、浩鲸科技、争锋科技、中电金信、四川农信、中国银行、建信金科、京东科技、中国电子云、安信证券、永辉生活、南网数研院、上汽集团、哈啰出行、云杉网络、中移苏研等。
《建设指南》首先对分布式系统稳定性发展背景进行概述性介绍;
随后推出分布式系统稳定性设计方法论体系,从愿景、规划到稳定性工程设计参考,提供了完整的稳定性建设方法论;
配合方法论,展开稳定性保障能力体系以及稳定性保障运营机制的介绍,将前述方法论落地到十个稳定性保障能力/平台以及具体的运营方式上,令读者对全局稳定性能力建设有更直观的印象;
最后通过八个案例阐述了不同行业的稳定性建设特点及成效,并展望了分布式系统稳定性建设未来的发展思路及趋势。
重点内容前瞻1:
分布式系统稳定性建设方法论
系统稳定性建设有一套完整的方法论,稳定性的建设工作要从项目设计之初开始规划。
(一)稳定性工程愿景与规划
重点介绍如何根据企业实际情况和面对的挑战制定分布式系统稳定性工程战略,以回答分布式系统稳定性对于企业业务和运营的支撑作用。
在愿景与规划阶段,主要完成以下工作:
1)稳定性愿景制定
2)基本假设设计
3)度量指标设计
(二)稳定性工程设计参考
“从业务来,到业务去”应当是稳定性保障设计的关键原则,否则再先进的技术也可能只是空中楼阁,脱离实际业务需求,往往于业务产生不了最大实用性价值。在服务业务保障业务持续可用过程中沉淀下来的技术才是最有价值的技术。故而本指南希望从软件生命周期、运行周期逐步分解稳定性保障的要点及相关建设思路,从业者可根据自身实际情况选择、规划。
稳定性工程设计阶段,主要完成以下工作:
1)保障需求分析
2)保障对象分析
3)稳定性设计(共包含10个技术点)
重点内容前瞻2:
分布式系统稳定性保障能力体系
稳定性保障能力建设是一项非常庞大而复杂的工程,体系的落地非一朝一夕可完成。故障总会发生,当然也“没有任何一项技术或者平台能够绝对规避风险”,需要通过不断补全完善体系中需要的能力来最大限度降低故障发生概率,或者提升故障应对速度。对于稳定性保障从业者而言,建议结合业务发展不同阶段所面临的关键风险形势进行规划,拟定合适的建设优先级及实施路径。
分布式系统稳定性保障关键能力结构图如下
5月11日,国内首个稳定性主题大会—2022软件与系统稳定性大会将于北京召开,会上将正式发布《分布式系统稳定性建设指南》,欢迎届时关注!
扫描下方二维码,即可报名参会,见证白皮书的发布和解读。
大会完整议程