Hadoop中HDFS的初步认识_vlambda技术博客

vlambda
2020-08-02

Hadoop中HDFS的初步认识

Hadoop最早起源于Nutch。Nutch的设计目标是构建一个大型的全网搜索引擎，包括网页抓取、索引、查询等功能，但随着抓取网页数量的增加，如何解决数十亿网页的存储和索引问题，成为了亟待解决的难题。

2003-2004年，Google公布了部分GFS和MapReduce思想的细节，受此启发的Doug Cutting等人用2年的业余时间实现了DFS和MapReduce机制，使Nutch性能飙升。然后Yahoo招安Doug Gutting及其项目。2005年，Hadoop作为Lucene的子项目Nutch的一部分正式引入Apache基金会。2006年2月被分离出来，成为一套完整独立的软件，起名为Hadoop。Hadoop名字不是一个缩写，而是一个生造出来的词。是Hadoop之父Doug Cutting儿子毛绒玩具命名的。

目前Hadoop2.x的高可用的Hdfs的架构图如下(非联邦，待后续源码解析部分再说明联邦制)：

NameNode：集群当中的主节点，主要用于管理集群当中的元数据，一般都是使用两个，实现HA高可用

JournalNode：元数据信息管理进程，一般都是奇数个。

DataNode：从节点，用于数据的存储。

HDFS是Hadoop Distribute File System的简称，意为：Hadoop分布式文件系统。是Hadoop核心组件之一，作为最底层的分布式存储服务而存在。分布式文件系统解决的问题就是大数据存储。它们是横跨在多台计算机上的存储系统。分布式文件系统在大数据时代有着广泛的应用前景，它们为存储和处理超大规模数据提供所需的扩展能力。

今天就算和各位同行以及对大数据感兴趣的人员见个面，后续会给大家分享大数据生态的各种技术栈以及源码的解析。。

vlambda博客
学习文章列表