vlambda博客
学习文章列表

应对海量数据,分布式架构备份恢复正当时

企业数字化转型的深入,正在加速数字时代的到来,数据的价值不断提升,正在成为企业的核心资产。由此,企业日常经营所产生的数据量越来越大,数据的重要性也越来越高。
面对日益增长的海量数据,如何保护好这些数据资产,成为巨大的挑战,传统的数据备份与恢复方式已经不能满足企业的需求,分布式架构则成为大势所趋。
以某省政务云数据中心为例,其云主机数据量超过1.5PB、数据库数据量超过1.6PB,备份任务达到数千的量级。为了对这些海量数据做好备份和恢复,该省政务云在每个备份域部署了一套爱数AnyBackup Family 7,并通过AnyBackup Master Server对所有备份节点进行统一管理。
爱数的AnyBackup Family 7,正是为海量数据备份恢复而生的分布式架构产品,能够为各行各业带来易扩展、高吞吐、高可用的数据备份和恢复服务,帮助政府和企业更好地管理数据资产。
 


难以完成的数据保护任务? 
有研究显示,人类如今所产生的数据量每两年就翻一番,也就是说最近两年产生的数据即相当于过往数百万年的总和。上面提到的某省政务云数据达到数PB量级,早已成为普遍现象。
爱数AnyBackup产品副总裁常华介绍说,海量数据的标准,正在随着数字经济的发展而不断提升。他举例说,爱数自己的开发测试云就达到了1万个虚拟主机,很多行业的数据量达到10PB、甚至100PB,银行的小文件数量则超过1亿个。更重要的是,这些数据的类型和存储方式也非常复杂,包括语音、图像、视频、本地、云端、托管等等。
常华认为,传统的数据保护方式,是基于Scale Up的串联、堆叠式部署,无法适应数据规模迅猛增长的需要,使得数据保护越来越难,变成了几乎无法完成的任务。
其主要表现在“备不完、存不下、管理难”。由于数据量越来越大,要找到避免对业务产生影响的空闲备份时间窗口越来越难;很多数据中心采用不同的备份系统,导致备份管理异常复杂;单备份服务器节点的扩容,使得运维管理更加困难。
显然,要迎接这一挑战,完成数据保护使命,就必须彻底改变传统的数据备份方式。革命性的分布式架构数据备份与恢复,成为解决问题的唯一途径。
 

应对海量数据,分布式架构备份恢复正当时

 
分布式架构备份以快制胜
作为国内领先的大数据基础设施提供商,爱数一直在为各行各业提供即时、随时、实时的数据服务,帮助大家充分释放数据价值。爱数的产品线包括AnyBackup、AnyShare、AnyRobot、AnyDATA等,其中AnyBackup是爱数最早的产品线,为客户提供数据灾备服务,连续多年居国产市场第一。
最新的AnyBackup Family 7,正是一款分布式架构的数据保护产品,采用Scale Out扩展模式,具有“易拓展、高吞吐、高可用”三大特性,可以满足快速增长的海量数据保护需求。
常华介绍说,AnyBackup Family 7的计算和存储都采用分布式架构,以快制胜,能够在规定时间窗口范围内,备份最大量的数据。其中计算节点与存储节点分离,计算节点可以扩展到最多8个,而存储节点则可以扩展到32个。这样,单套备份系统,存储池的容量就可以轻松超过10PB,满足海量数据灾备的需要,管理则极为简单。
实际测试表明,6个节点的AnyBackupFamily 7,备份吞吐率可以达到36TB/h,恢复吞吐率为20TB/h。更高的吞吐率,意味着更容易找到备份的时间窗口,也意味着可以给业务留出更多的时间。
这种Scale Out的扩展方式,在加快备份和恢复速度的同时,还能实现备份系统自身的高可用和备份数据的可靠性保障。这对于金融、政务等对数据可靠性高度依赖的行业来说,无疑是一大福音,从此不再对数据的完整性提心吊胆。
 

计算与存储分离的框架结构
对于数据资产价值的认识,业界早已形成;对于海量数据的备份问题,业界也早已开始研究,毕竟数据保护是充分发挥数据资产价值,助力企业数字化转型的基础。
在我国,行业主管部门也在出台相应的法律法规,对此加以规范。除了等保2.0等通用规范,金融、医疗、政务等重点行业也出台了部门规章,对各自领域的数据容灾备份确立标准,要求不同级别的企业分别要达到不同等级的规范标准。
然而,要实现对海量数据的容灾保护,并不是一件容易的事情。爱数AnyBackup研发副总裁邓平介绍说,爱数从2018年就开始了相关的研发,最终才确立了AnyBackup Family 7的分布式架构,彻底颠覆了传统的Scale Up模式。这一架构的最大特点是,计算与存储相分离,分离部署,分离运行。
邓平说,备份是一个典型的存储资源消耗型应用,对存储资源容量需求量很大,但对计算资源的扩展性要求没那么高,所以没必要对计算和存储资源同比扩展。
AnyBackup Family 7的分布式计算,由SLA服务、任务中心和分布式调度中心三个部分组成,最大可扩展到8节点,带来海量任务并发和负载均衡,实现服务高可用。分布式存储则包括备份存储服务和分布式存储服务,最大可扩展至32节点,具有多通道并发和数据负载均衡能力,实现多副本数据高可靠。
在这一架构中,特别值得一提的是其高性能备份恢复框架。在该框架之下,重点解决三个方面的性能问题。在数据采集时,采用多线程读取、多客户端并行的方式,解决数据采集的瓶颈问题;在数据传输时,通过分布式计算的多任务并发和任务负载均衡,来最大化提升数据传输能力;在数据存储时,通过分布式存储提供的高性能备份恢复API,来支持数据压缩、重复删除、存储端流量负载均衡、多通道IO写入,实现存储性能的最大化。  

分布式数据备份恢复方案的广泛应用,正在带来数据保护领域的创新发展,为企业充分发挥数据价值提供了保障,也是保证企业业务连续性的基础。在数字经济快速发展、企业数字化转型逐步深入的今天,其重要意义不言而喻。