vlambda博客
学习文章列表

HPCA梅开二度,看阿里云专家解读服务器稳定性和性能调优

HPCA高性能计算架构会议是体系结构/高性能计算领域最重要的学术会议之一,论文专业领域包含 CPU 体系结构、高性能计算、AI 芯片、I/O、安全、新介质研究等。今天为大家带来的是阿里云基础设施两位专家最新发表于HPCA2021的两篇论文。


近年来,随着大数据的发展,现实应用对于数据中心需求日益增长,阿里云基础设施的工程师团队在数据中心资源利用增强数据中心稳定性两方面提出了创新,从本质上高效地解决此问题。


HPCA梅开二度,看阿里云专家解读服务器稳定性和性能调优
LIBRA: Clearing the cloud through dynamic memory bandwidth management
HPCA梅开二度,看阿里云专家解读服务器稳定性和性能调优
近年来,所有app都在向云上靠拢,面对大量具有不同特性及性能需求的业务,云服务提供商需要对不同资源进行合理管控。

现代大型数据中心广泛采用混部技术来提升服务器利用率并优化TCO。在资源混部场景下,共享物理资源如内存带宽的合理分配是一项重要的关键技术。为了保障高优先级作业的性能需求,管控系统常常需要对低优先级作业的带宽资源使用进行压制。

然而现有主流服务器芯片上的内存带宽管控手段存在着诸多不足,如灵活性差,响应速度慢等,影响了其在实际场景中的可用性,带来了严重的资源浪费。

基于一种全新的内存带宽压制技术(DRC),本文打造了一套新的内存带宽管控框架--LIBRA。LIBRA与传统技术相比,能大幅提升非高优先级作业的性能,提升服务器利用率,从而优化TCO。

分享会回顾

HPCA梅开二度,看阿里云专家解读服务器稳定性和性能调优


HPCA梅开二度,看阿里云专家解读服务器稳定性和性能调优
CARE:Coordindated Augmentation for Elastic Resilience on DRAM Errors in Data Centers
HPCA梅开二度,看阿里云专家解读服务器稳定性和性能调优

过去几十年,CPU的性能已经达到一个瓶颈,如何提高数据中心的稳定性、可靠性已成为急需解决的问题。


随着计算密度和内存容量的不断增长,内存错误已成为影响数据中心可靠性的主要原因。现有内存纠错技术要么在性能、功耗和内存容量上开销巨大,要么需要修改多个系统组件,不适合数据中心部署。


本文提出一种新型容错框架CARE。它在MC中引入类似缓存的结构,用于动态错误统计和主动纠错增强,从而经济地实现较高的容错能力。CARE可实现接近Chipkill的可靠性,而不造成内存容量损失,且其性能开销可忽略不计,可以说是一种有吸引力的数据中心内存可靠性解决方案。


分享会回顾

HPCA梅开二度,看阿里云专家解读服务器稳定性和性能调优


分享会最后,两位专家也分享了自己心目中计算机体系结构领域未来发展的几个方向:


机器学习系统和机器学习加速器热度不减,需要在学习理论知识的同时提高实战能力;
量子计算是一种全新的计算范式,它正在飞速发展,量子计算现在已经渗入到计算机架构中,可以多关注中国量子计算机的发展趋势及在国际上的专利技术。
缓存计算依然很重要,还有许多问题需要解决


HPCA梅开二度,看阿里云专家解读服务器稳定性和性能调优
END


HPCA梅开二度,看阿里云专家解读服务器稳定性和性能调优
因为你的分享、点赞、在看
我足足的精气神儿!