vlambda博客
学习文章列表

HDFS(Hadoop Distributed FileSystem,分布式文件储存系统)

HDFSHadoopp旗舰机的文件系统,如果安装Hadoop HDFS将作为底层存储系统。

 

HDFS解决了数据分布式存储解决了多台存储单机热点等问题,突破了存储限制。作为用户,你不用知道数据存储在哪台机器上,就好比在单机上不用关心文件分散在什么磁道一样。HDFS为你管理这些数据。

 

设计思想:

  1. 分散均匀存储,适合大数据处理。HDFS默认将文件分割成block,在hadoop2.x以上版本默认128M1block。然后将block按键值对存储在HDFS上,并将键值对的映射存到内存中。如果小文件太多,内存的负担会很重。

  2. 备份冗余存储。保存多个副本,且提供容错机制,副本丢失或宕机自动恢复(默认存3份)。

 

HDFS Master Slave 的结构,分NameNode SecondaryNameNode DataNode 几个角色。

 

NameNode Master 节点。

SecondaryNameNode:分担namenode的部分工作量;是NameNode 的冷备份。

DataNode Slave 节点,负责存储client 发来的数据块 block;执行数据块的读写操作。