© The Apache Software Foundation
大
数
据
作
为一个不老的技术神话,依然活跃于各大公司和开源社区,其相关领域的各种工具
琳琅满目,
更新迭代速
度非常迅
速,其中
Hadoop
是较早流行的大数据处理工具之一,现在依然被广泛
使用。
我是在硕
士研究生期间接触
Hadoop
的,当时它刚刚流行,在许多领域获得了高度认可。
可在我即
将毕业时,
Spark
凭借其高效内存计算和可迭代计算的优势迅速赶超了
Hadoop
的热度。
而就在大家一窝蜂地去学习
Spark
,并沉浸在其高效性能的时候,近几年
Flin
k
又凶猛地
杀出了重围,成为当下比较火的大数据技术之一。
面对这些
新兴的技术,我也曾一度迷茫,是否应该跟随潮流去学习新技术。
但是我感觉自己对
Hadoop
的掌握还远远不够,所以就坚持了下来。
随着对
Hadoop
的学习不断深入,在
Hadoop
的持续版本迭代中,我惊喜地发现它正在一统大数据底层平台,这让我看到了它的野心,看到了它登上霸主之位的希望。
Hadoop
提供了底层分布式存储平台
HDFS
和分布式资源管理平台
YARN
,并开放了资源管理平台,使之不断地兼容各种应用,让
各种应用在
YARN
上呈现“百花齐放”的景象。
Hadoop 3.0 已经发布一段时间了,我想研究它,并尝试在工作中将之付诸实践。然而,我发现市面上还没有相关书,故而萌生了写这本书的想法,也把它介绍给曾经和我一样迷茫的人。
本书特色
1. 本书内容基于全新的 Hadoop 3.x,主要分析 Hadoop 3.2.0 的新特性和新功能。
2. 本书作者孙志伟为金山云数据平台架构师,主要专注于 Hadoop 的研究。
3. 本书内容源于企业级真实实践,覆盖了完整的 Hadoop 生态系统,为大数据入门者给予循序渐进的实战指导。
4. 阿里云数据库高级产品专家黄鹏程、奈学教育创始人 & CEO 孙玄、金山云研发总监陈斌联合推荐。
本书主要分析 Hadoop 3.2.0 的新特性和新功能,共 5 章。首先简单介绍 Hadoop,让刚接触 Hadoop 的读者对它有个基本了解;接着介绍目前使用比较多的分布式文件系统 HDFS,内容涉及 NameNode 的原理、HA、HDFS Federation 和 HDFS 3.0 中新增的特性;然后从应用管理和资源调度这两个方面介绍一个通用的资源管理平台 YARN;再后讨论如何在 YARN 平台中运行应用,比如如何将应用迁移到 YARN 平台,以及非 Hadoop 的应用是如何兼容 YARN 模式的。最后,书中给出了一些工作实战指南,包括如何搭建一个生产可用的 Hadoop 3.0 集群;如何将现有 Hadoop 2.0 集群升级到 Hadoop 3.0,及其在升级过程中遇到的问题;如何针对 Hadoop 进行二次开发,并参与社区,向社区贡献代码;一个大数据平台应具备哪些必备组件等。
本书一共分为 5 章,主要对 HDFS、YARN、Application on YARN 和工作实战进行介绍,归纳如下。
第 1 章简单介绍 Hadoop,让刚接触 Hadoop 的读者对它有个基本的了解。为了更好地学习 Hadoop,本章专门抽出一节详细介绍了如何搭建 Hadoop 源码阅读环境、如何对 Hadoop 进行单元测试和如何断点调试源代码。
第 2 章介绍了 HDFS,它是目前使用较多的分布式文件系统。这一章介绍了 NameNode 的原理以及 HA,针对大规模集群横向扩展的场景介绍了 HDFS Federation 和在 HDFS 3.0 中新增的特性,例如基于 Router 的 Federation、纠删码副本策略和对象存储系统 Ozone。
第 3 章介绍了 YARN,它是一个通用的资源管理平台。这一章从应用管理和资源调度这两个方面对其进行了介绍,首先针对应用管理介绍了 ResourceManager 的 HA 功能,然后针对资源调度介绍了中央调度器和分布式调度器,最后介绍了 YARN 3.0 中引入的一个小优化功能,即 Shared Cache。
第 4 章介绍了 Application on YARN(如何在 YARN 平台中运行应用)。这一章以 MapReduce 为例介绍了如何将应用迁移到 YARN 平台,最后以 Spark on YARN 为例介绍了非 Hadoop 的应用是如何兼容 YARN 模式的。
第 5 章给出一些工作实战指南。首先,介绍了如何搭建生产可用的 Hadoop 3.0 集群;接着讨论了如何将现有 Hadoop 2.0 集群升级到 Hadoop 3.0,以及在升级过程中遇到的问题;然后说明了如何针对 Hadoop 进行二次开发,并参与社区,向社区贡献代码;最后,梳理了一个大数据平台应该具备哪些必备组件和具体的实现架构。
孙志伟
金山云数据平台架构师,专注于 Hadoop 生态和数据平台建设,曾就职于网易、转转等互联网公司。对大数据处理、分布式计算与数据采集有着浓厚的兴趣。一直从事 Hadoop 研发与运维工作,努力钻研技术并坚持分享。有着丰富的一线研发与运维经验,是多个社区的 Contributor,积极活跃于开源社区。
硕
士,毕业
于华北电力大学
。
Hadoop 作为大数据技术最典型的基础架构组件,其迭代演进体现了整个大数据技术的重要发展方向。这本书以 Hadoop 3 为切入点,深入介绍了该版本中 HDFS 和 YARN 的诸多新特性,以及平台部署升级与二次开发,是大数据开发与运维人员快速了解并在实际工作中使用 Hadoop 3 的重要参考图书。
作者一直从事 Hadoop 平台研发工作,是 Hadoop 领域的资深专家。共事两年以来,他帮助我们公司大幅度提升了大数据平台的稳定性。
这本书源于企业级真实实践,覆盖了完整的 Hadoop 系统生态。作者通过企业级的真实案例,深入浅出剖析 Hadoop 平台的工程架构,让读者真正掌握 Hadoop 系统设计的哲学本质,从而能够在面向不同业务场景时,给出优雅的大数据解决方案,真正达到企业降本增效的目的。
本书是 Hadoop 领域实践类好书,特推荐之。
——孙玄,奈学教育创始人 & CEO,前 58 集团技术委员会主席
现代科技背景下,每个企业都有产生大数据的能力,数据规模庞大并且纷繁复杂,大家都希望从海量的数据中挖掘到价值。Hadoop 从诞生之始就肩负这样的使命,整个处理架构历经十几年的不断迭代,仍然是大部分工程师入门大数据的奠基石。本书对 Hadoop 3 底层进行剖析,给大数据入门者循序渐进的实战指导,也为已经在大数据行业的从业者进行了系统性的梳理。
本书由金山云数据平台架
构师孙志伟倾力打造,内容源于企业级真实实践,覆盖了完整的 Hadoop 生态系统,为大数据入门者给予循序渐进的实战指导。
赠书福利(3本)
目前来说,大数据领域最为活跃的三个计算框架,当属 Hadoop、Spark 以及Flink 这三者,你现在用的哪个框架呢,它们各自的优缺点是什么呢?欢迎大家自由讨论。
我们会选出 3 位留言上墙的朋友,每人送出《Hadoop 3实战指南》纸书 1 本。
活动截止时间:2021 年 6 月 1 日 15:00
喜欢这篇文章?点个“在看”吧~▼