vlambda博客
学习文章列表

稳保计划 | 蚂蚁集团通过首批全链路压测“先进级”能力评估

4月26日,由中国信息通信研究院(以下简称“中国信通院”)主办的“稳保计划”——首届云系统稳定性大会”在京召开。会上,中国信通院云大所副所长栗蔚深度解读了稳保计划,并公布了“全链路压测”首批评估成果。


随着云计算承载的业务系统规模增长、流量及体量与日俱增,性能瓶颈成为系统稳定性的威胁之一。在此背景下,如何才能准确地度量系统的流量承载能力,提前发现业务链路中的性能瓶颈,从而规避流量过载导致的系统崩溃成为亟待解决的问题。


可信云是中国信通院下属的云计算服务评估品牌,是我国针对云计算服务的权威评估体系。可信云面向全链路压测服务提供方,开展《全链路压测平台技术能力》评估,推出全链路压测平台技术能力的标准模型,旨在规范平台技术能力,推出全链路压测优质平台,扩大全链路压测在企业中的影响力和接受度,保障高并发场景下的系统稳定性。



蚂蚁集团的蚂蚁性能压测平台顺利通过中国信通院首批《全链路压测平台技术能力》“先进级”评估。

蚂蚁性能压测平台

蚂蚁性能压测平台,拥有多年“双11”、“春晚红包”等现象级大促的全链路压测实战经验,提供了低成本、低风险、高仿真的一站式压测服务。是蚂蚁内部在性能压测领域多年的探索与沉淀。


稳保计划 | 蚂蚁集团通过首批全链路压测“先进级”能力评估

图1 技术架构


在业务上,经过多年实践改进,为用户提供了高效便捷,场景全面的压测产品。目前支持了组件化和自定义两种脚本模式,提供灵活开放的脚本框架,兼容了用户开发效率和定制化需求。支持用户灵活配置发压部署方式,自动化串联从起压到报告输出的整个流程。同时还提供了压测链路洞察、性能基线分析、压测风险防控、性能测评、性能定位等能力,在多年大促的实战场景中得到充分验证。


稳保计划 | 蚂蚁集团通过首批全链路压测“先进级”能力评估

图2 产品首页


多年来,我们在压测稳定性和压测仿真度两个方向持续优化。在稳定性方面,我们提供了多指标聚合的自适应熔断能力,并与监控系统联通,支持了基于自定义监控的熔断保护。并且将风险识别与链路洞察技术结合,将线上业务的风险预警即时透出到对应的压测场景精准熔断,降低压测人员的盯盘成本,以此向无人值守压测的智能化方向演进。此外我们充分利用公司云原生servicemesh架构的升级红利,落地了基于流量染色技术的压测单元隔离,在生产环境隔离压测业务单元,实现了生产业务无损压测。


稳保计划 | 蚂蚁集团通过首批全链路压测“先进级”能力评估

图3 风险识别


为保证复杂业务场景下压测链路覆盖的准确性,我们还建设了压测仿真拟合系统,通过对压测流量数据进行清洗比对,统计压测链路节点覆盖和流量分布情况,以可视化大盘方式提供清晰的仿真度拟合报告。


稳保计划 | 蚂蚁集团通过首批全链路压测“先进级”能力评估

图4 链路仿真分析


此外,蚂蚁的性能压测平台还在性能工程领域持续演进,不止步于发现性能瓶颈,也在建设解决性能问题的能力。通过性能测评实验室PerfLab自动化构建多场景测评环境,通过性能分析平台PerfOps提供性能下钻工具,从代码分析,耗时分析,集群环境分析几个维度快速定位问题。为用户提供全方位的性能服务。


稳保计划 | 蚂蚁集团通过首批全链路压测“先进级”能力评估

图5 耗时分析


在数据智能方向上,我们基于蚂蚁内部的数据底座,对压测产生的数据进行沉淀分析,完善了被测系统的容量画像、性能画像,在数据驱动的策略下,在弹性容量、日常容灾、风险识别等业务场景下创造价值。


今年蚂蚁参与了信通院组织的全链路压测技术能力评级,也从信通院发布的能力标准中学习到了当前业界在全链路压测实践中的先进技术。我们也会以此为基础,持续建设平台能力,打造更出色的全链路压测系统。

关于“稳保计划”

“稳保计划”以保障企业系统稳定性、提升数字化业务连续性、促进业务高质量发展为目标,在前期、中期、后期等不同阶段设置了安全生产计划、稳定性体检工程、稳定性测试组、稳定性守护者成员、系统稳定性度量评估环节,通过混沌工程、全链路压测、全链路压测、应用多活等手段全方位推进企业系统稳定性能力建设。截至目前,已有来自证券、银行、保险、互联网、通信运营商、汽车、医疗、零售等不同行业的二十余家头部企业和机构参与了“稳保计划”,并基于云服务、技术平台、业务系统等完成了系统稳定性相关评估。


了解全链路压测相关工作,请联系

李老师 [email protected]

了解稳保计划相关工作,请联系

王老师 [email protected]