vlambda博客
学习文章列表

从中心化GFS、SQL存储到去中心化分布式存储,HDFS颠覆、进阶丨改变数据存储现状

互联网经济依靠数据。截至2019年,超过41.3亿互联网用户每天生成超过2.5亿字节的数据。到2020年底,与在太空中观测的恒星相比,数据字节数将多40倍。互联网数据生态系统为经济提供了成熟,增长,创新和盈利的机会。

 

但网络的脆弱性为网络的长期可持续性提出了一个大问题:我们正在创建的数据集将影响1000年内的人类,但我们并没有以一种可行的方式来保护这些数据。

中心化数据存储现状


目前企业主要使用中心化的数据库和文件系统进行数据的管理。大型的互联网公司会自己研发相关系统,例如GFS(Google File System)、SQL Server等,并部署本地化服务,中小型公司则接入AWS、阿里云等云服务,将数据管理的任务委托给了第三方。不论是本地数据库还是云数据服务,这些中心化的数据库都有一定的应用场景,并在维护着很多公司的基础数据。


中心化存储是现行数据管理的主要解决方法,但当下全球范围内的中心化数据库和文件系统出现了严重的存储问题;企业往往通过中心化数据库和文件系统,存储其所有的信息和文件,但中心化存储方案通常会黑客成为攻击的标靶,或者毁于灾难之中。企业将会面临丢失其所有的数据资源而永不可找回,而企业对数据和文件的依赖,导致了前所未见的巨大风险,令人十分忧心。虽有些大企业,也提供了相关的云备份服务,只能多提供几个备份点而已,并没有解决根本问题。


数据管理体系(Data Management)


数据管理(Data Management)是指对不同类型的数据进行收集、整理、组织、存储、加工、传输、检索的各个过程,它是计算机的一个重要的应用领域;其目的之一是为了借助计算机科学地保存和管理复杂的、大量的数据,以便人们能够方便而充分地利用这些信息资源;另一目的是从大量原始的数据中抽取、推导出对人们有价值的信息,然后利用信息作为行动和决策的依据。

从中心化GFS、SQL存储到去中心化分布式存储,HDFS颠覆、进阶丨改变数据存储现状

技术分析


HDFS以区块链为代表的去中心化技术为数据管理提供了一类新的解决方法。数字加密和节点共识机制的引入,保证了数据的隐私、安全和不可篡改,由于数据在网络中存了很多份,就不用担心单个节点故障带来的数据丢失,提高了安全性和可靠性。

 

加密和分割技术则保证了数据的隐私,控制了用户数据的读取权限,同时为了保证可拓展性,使用集群技术。集群即一大组节点,共同存储和管理数据,可以加入新节点,也可拓展更多集群。

从中心化GFS、SQL存储到去中心化分布式存储,HDFS颠覆、进阶丨改变数据存储现状


去中心化属性


HDFS去中心化,把数据从一个中心变成了很多个中心,甚至变成全世界几万、几十万、几千万个中心(存储节点)。并且这些数据存储中心他们之间相互隔离,称为故障域的隔离。通俗的来说可以理解为这一个地方出现故障了,并不会导致另一个地方也出现故障。这也是存储为什么需要去中心化的主要原因。


HDFS如何构建数据去中心化


 




以太坊将智能合约带入了公链领域,赋予公链运行去中心化应用程序的能力;门罗币和达世币给公链带来了匿名交易和可替代性;Tezos给公链带来了链上治理模式;而HDFS则是将分布式存储大放光彩。

 

适者生存,未来必将属于更适应时代发展的一方,让我们一起期待吧。


更多精彩推荐,请关注我们