HDFS(Hadoop Distributed FileSystem,分布式文件储存系统)
HDFS是Hadoopp旗舰机的文件系统,如果安装Hadoop, HDFS将作为底层存储系统。
HDFS解决了数据分布式存储解决了多台存储单机热点等问题,突破了存储限制。作为用户,你不用知道数据存储在哪台机器上,就好比在单机上不用关心文件分散在什么磁道一样。HDFS为你管理这些数据。
设计思想:
分散均匀存储,适合大数据处理。HDFS默认将文件分割成block,在hadoop2.x以上版本默认128M为1个block。然后将block按键值对存储在HDFS上,并将键值对的映射存到内存中。如果小文件太多,内存的负担会很重。
备份冗余存储。保存多个副本,且提供容错机制,副本丢失或宕机自动恢复(默认存3份)。
HDFS 是Master 和 Slave 的结构,分NameNode、 SecondaryNameNode、 DataNode 几个角色。
NameNode: Master 节点。
SecondaryNameNode:分担namenode的部分工作量;是NameNode 的冷备份。
DataNode: Slave 节点,负责存储client 发来的数据块 block;执行数据块的读写操作。