vlambda博客
学习文章列表

Hadoop中HDFS的初步认识

    Hadoop最早起源于Nutch。Nutch的设计目标是构建一个大型的全网搜索引擎,包括网页抓取、索引、查询等功能,但随着抓取网页数量的增加,如何解决数十亿网页的存储和索引问题,成为了亟待解决的难题。

  2003-2004年,Google公布了部分GFS和MapReduce思想的细节,受此启发的Doug Cutting等人用2年的业余时间实现了DFS和MapReduce机制,使Nutch性能飙升。然后Yahoo招安Doug Gutting及其项目。2005年,Hadoop作为Lucene的子项目Nutch的一部分正式引入Apache基金会。2006年2月被分离出来,成为一套完整独立的软件,起名为Hadoop。Hadoop名字不是一个缩写,而是一个生造出来的词。是Hadoop之父Doug Cutting儿子毛绒玩具命名的。

   目前Hadoop2.x的高可用的Hdfs的架构图如下(非联邦,待后续源码解析部分再说明联邦制):

 

NameNode:集群当中的主节点,主要用于管理集群当中的元数据,一般都是使用两个,实现HA高可用

JournalNode:元数据信息管理进程,一般都是奇数个。

DataNode:从节点,用于数据的存储。

   

  HDFS是Hadoop Distribute File System的简称,意为:Hadoop分布式文件系统。是Hadoop核心组件之一,作为最底层的分布式存储服务而存在。分布式文件系统解决的问题就是大数据存储。它们是横跨在多台计算机上的存储系统。分布式文件系统在大数据时代有着广泛的应用前景,它们为存储和处理超大规模数据提供所需的扩展能力。

  今天就算和各位同行以及对大数据感兴趣的人员见个面,后续会给大家分享大数据生态的各种技术栈以及源码的解析。。