HPCA高性能计算架构会议是体系结构/高性能计算领域最重要的学术会议之一,论文专业领域包含 CPU 体系结构、高性能计算、AI 芯片、I/O、安全、新介质研究等。今天为大家带来的是阿里云基础设施两位专家最新发表于HPCA2021的两篇论文。
近年来,随着大数据的发展,现实应用对于数据中心需求日益增长,阿里云基础设施的工程师团队在数据中心资源利用和增强数据中心稳定性两方面提出了创新,从本质上高效地解决此问题。
▼
HPCA高性能计算架构会议是体系结构/高性能计算领域最重要的学术会议之一,论文专业领域包含 CPU 体系结构、高性能计算、AI 芯片、I/O、安全、新介质研究等。今天为大家带来的是阿里云基础设施两位专家最新发表于HPCA2021的两篇论文。
近年来,随着大数据的发展,现实应用对于数据中心需求日益增长,阿里云基础设施的工程师团队在数据中心资源利用和增强数据中心稳定性两方面提出了创新,从本质上高效地解决此问题。
▼
▼
过去几十年,CPU的性能已经达到一个瓶颈,如何提高数据中心的稳定性、可靠性已成为急需解决的问题。
随着计算密度和内存容量的不断增长,内存错误已成为影响数据中心可靠性的主要原因。现有内存纠错技术要么在性能、功耗和内存容量上开销巨大,要么需要修改多个系统组件,不适合数据中心部署。
本文提出一种新型容错框架CARE。它在MC中引入类似缓存的结构,用于动态错误统计和主动纠错增强,从而经济地实现较高的容错能力。CARE可实现接近Chipkill的可靠性,而不造成内存容量损失,且其性能开销可忽略不计,可以说是一种有吸引力的数据中心内存可靠性解决方案。
▼
分享会最后,两位专家也分享了自己心目中计算机体系结构领域未来发展的几个方向: