搜文章
推荐 原创 视频 Java开发 iOS开发 前端开发 JavaScript开发 Android开发 PHP开发 数据库 开发工具 Python开发 Kotlin开发 Ruby开发 .NET开发 服务器运维 开放平台 架构师 大数据 云计算 人工智能 开发语言 其它开发
Lambda在线 > runningdata > Hadoop中HDFS的初步认识

Hadoop中HDFS的初步认识

runningdata 2020-08-02

    Hadoop最早起源于Nutch。Nutch的设计目标是构建一个大型的全网搜索引擎,包括网页抓取、索引、查询等功能,但随着抓取网页数量的增加,如何解决数十亿网页的存储和索引问题,成为了亟待解决的难题。

  2003-2004年,Google公布了部分GFS和MapReduce思想的细节,受此启发的Doug Cutting等人用2年的业余时间实现了DFS和MapReduce机制,使Nutch性能飙升。然后Yahoo招安Doug Gutting及其项目。2005年,Hadoop作为Lucene的子项目Nutch的一部分正式引入Apache基金会。2006年2月被分离出来,成为一套完整独立的软件,起名为Hadoop。Hadoop名字不是一个缩写,而是一个生造出来的词。是Hadoop之父Doug Cutting儿子毛绒玩具命名的。

   目前Hadoop2.x的高可用的Hdfs的架构图如下(非联邦,待后续源码解析部分再说明联邦制):

 

NameNode:集群当中的主节点,主要用于管理集群当中的元数据,一般都是使用两个,实现HA高可用

JournalNode:元数据信息管理进程,一般都是奇数个。

DataNode:从节点,用于数据的存储。

   

  HDFS是Hadoop Distribute File System的简称,意为:Hadoop分布式文件系统。是Hadoop核心组件之一,作为最底层的分布式存储服务而存在。分布式文件系统解决的问题就是大数据存储。它们是横跨在多台计算机上的存储系统。分布式文件系统在大数据时代有着广泛的应用前景,它们为存储和处理超大规模数据提供所需的扩展能力。

  今天就算和各位同行以及对大数据感兴趣的人员见个面,后续会给大家分享大数据生态的各种技术栈以及源码的解析。。







版权声明:本站内容全部来自于腾讯微信公众号,属第三方自助推荐收录。《Hadoop中HDFS的初步认识》的版权归原作者「runningdata」所有,文章言论观点不代表Lambda在线的观点, Lambda在线不承担任何法律责任。如需删除可联系QQ:516101458

文章来源: 阅读原文

相关阅读

关注runningdata微信公众号

runningdata微信公众号:gh_b338dd8bd50f

runningdata

手机扫描上方二维码即可关注runningdata微信公众号

runningdata最新文章

精品公众号随机推荐