初识大数据与Hadoop_vlambda技术博客

vlambda
2021-02-20

初识大数据与Hadoop

作者介绍

@猫耳朵

数据产品经理萌新，

开发经验丰富，专注于数据产品。

—————— BEGIN ——————

在大数据时代，基于大数据技术的职位更有钱途，因此成为很多人的职业首选。在大数据技术中，大家常常听到 Hadoop，很多刚开始接触的人会问，什么是 Hadoop？它有什么作用？下面笔者就跟大家唠叨唠叨。

1. 大数据介绍

1.1 什么是大数据

大数据（BigData）：指无法在一定时间内用常规软件工具对其进行获取、存储、管理和处理的数据集合。换句话说，大数据所包含的数据集合的大小，普通软件没有办法在一个可以容忍的时间范围内完成大数据的捕获和处理。

按顺序给出数据存储单位，如下图。

1.2 大数据特点

目前，大家普遍认为的大数据是具有 “4V”，即 Volume、Velocity、Variety、Veracity 特征的数据集合。如下图，分别对每个特征作简要描述。

1）Volume：生成和存储的数据量巨大

随着技术的发展，数据集合的规模不断扩大，已经从 GB 级增加到 TB 级再增加到 PB 级，近年来，数据量甚至开始以 EB 级和 ZB 级来计量。比如，百度每日处理的数据量达上百 PB，总的数据量规模已经达到 EB 级。

2）Velocity：数据产生和处理速度快

加速的原因是数据创建的实时性特点，以及将流数据结合到业务流程和决策过程中的需求。数据处理速度快，处理模式已经开始从批处理转向流处理。比如，2020 天猫 “双十一” 当天，订单创建峰值达 58.3 万笔/秒。

3）Variety：数据源和数据种类多样

现在要处理的数据来源不只是格式化数据，更多的是半结构化或结构化数据。比如关系数据库、NoSQL、即时消息、图片、音视频流等，而且每天都会产生新的数据格式和数据源。

4）Veracity：数据的价值密度低

由于大数据总体量不断加大，单位数据的价值密度逐渐降低，然而数据的整体价值不断提高。比如，在城市的道路上增设信号灯，在 24 小时内的监控中，有用的数据可能仅仅只有几分钟，但是却降低了 50% 以上的交通事故率。

1.3 大数据应用场景

大数据无处不在，大数据应用于各个行业，包括旅游、金融和零售等在内的社会各行各业都已经融入了大数据的轨迹。

1）旅游

深度结合大数据能力与旅游行业需求，共建旅游产业智慧管理、智慧服务和智慧营销的未来。

2）金融

多维度体系用户特征，帮助金融机构推荐优质客户，防范欺诈风险。

其中，欺诈风险的防控，本质上也是通过对历史欺诈行为的分析，不断梳理完善风险特征库，比如异地登录、非常用设备登录等行为，都是一种风险信号，建立一系列的风险规则判定集，预测用户行为背后的欺诈概率。

3）零售

尝试多维度给用户推荐可能喜欢的商品。如下图，笔者输入 “松达” 关键字，立刻推荐了 7 组关键字，太了解我了，么么哒！

大数据的价值，远远不止于此，大数据对各行各业的渗透，大大推动了社会生产和生活，未来必将产生重大而深远的影响。

2. Hadoop 介绍

2.1 什么是 Hadoop？

Hadoop 是一个由 Apache 软件基金会所开发的分布式系统基础架构，具有高容错、高可靠性、高扩展性等特点。特别适合写一次，读多次的场景。

Hadoop 的核心架构

Hadoop 以分布式文件系统 HDFS 和分布式运算框架 MapReduce 为核心，为用户提供系统底层细节透明的分布式基础架构。其中，HDFS 的高容错性、高伸缩性等优点允许用户将 Hadoop 部署在低廉的硬件上，形成分布式文件系统；MapReduce 允许用户在不了解分布式系统底层细节的情况下开发并行应用程序。所以，Hadoop 具有高容错、高可靠性、高扩展性等特点。

Hadoop 目前版本（2.0 版）含有以下模块（如下图）：

1）HDFS：是支持应用数据高吞吐量访问的分布式文件系统；

2）YARN：是用于作业调度和集群资源管理的框架；

3）MapReduce：基于 YARN 的大数据并行处理系统；

4）Others：支持其他 Hadoop 模块的通用工具集。

Hadoop 2.0 比起 Hadoop 1.0 来说，在 HDFS 之上，增加了 YARN（分布式资源管理）层。它是一个资源管理模块，为各类应用程序提供资源管理和调度。

此外，Hadoop 2.0 版本还提升了系统的稳定性。所以，现在企业里基本上都是使用 2.X 版本。

2.2 Hadoop 的生态系统

生态系统，顾名思义就是很多组件组成的一个生态链，经过多年的发展，Hadoop 生态系统不断完善和成熟。目前已经包括了多个部件，除了核心的 HDFS、YARN 和 MapReduce 以外，Hadoop 生态系统还包括 Zookeeper、HBase、Hive、Spark、Sqoop、Flume、Ambari 等功能组件。

在整个 Hadoop 架构中，计算框架（如 MapReduce、Tez 等）起到承上启下的作用，一方面可以操作 HDFS 中的数据，另一方面可以被封装，以方便上层组件（如 Hive、Pig 等）调用。

下面笔者简单介绍其中几个比较常用的组件。

2.2.1 HDFS

HDFS 是一个高度容错性的分布式文件系统，适合部署在廉价的机器上。HDFS 能提供高吞吐量的数据访问，非常适合大规模数据集上的应用。

HDFS 适应一次写入，多次读出的场景，且不支持文件的修改。由于不便修改、延迟大、网络开销大、成本高，适合用来做数据分析，不适合用来做网盘。

1）HDFS 架构

HDFS 采用 master/slave（主/从）架构。一个 HDFS 集群是由一个 NameNode 和若干数目的 DataNodes 组成，如下图。

（1）NameNode

NameNode 是主节点，是一个中心服务器，负责管理文件系统的名字空间（Namespace）以及客户端对文件的访问。具体说的话，NameNode 执行文件系统的名字空间操作，例如打开、关闭、重命名文件或目录。它也负责确定数据块到具体 DataNode 节点的映射。并且，在 NameNode 的统一调度下进行数据块的创建、删除和复制。

（2）Secondary NameNode

定时与 NameNode 进行同步（定期合并文件系统镜像和编辑日志，然后把合并后的传给 NameNode，替换其镜像，并清空编辑日志），但 NameNode 失效后仍需要手工将其设置成主机。

（3）DataNode

集群中的 DataNode 一般是从节点，是文件存储的最基本的单元。它将数据块（Block）存储在本地文件系统中，并保存了数据块（Block）的元信息，同时周期性地向所有存储该数据块（Block）信息的 NameNode 发送信息。

（4）数据块（Block）的概念

Block 是 HDFS 中的基本存储单位，默认大小在 Hadoop2.x 版本中为 128MB，老版本中是 64MB；

一个大文件会被拆分成一个个的块，然后存储于不同的机器。如果一个文件少于 Block 大小，那么实际占用的空间为其文件的大小；

基本的读写单位，类似于磁盘的页，每次都是读写一个块。

2）HDFS 文件读写

（1）写文件

Client 向 NameNode 发送数据写操作请求，包括文件名和目录路径等部分数据信息；NameNode 告诉 Client 到哪个数据节点进行具体的数据写入；Client 直接将文件数据传输给 DataNode，由 DataNode 的后台程序负责将数据保存到服务器的本地文件系统之中。

（2）读文件

Client 向 NameNode 发送数据读操作请求，NameNode 向客户端发送组成该文件的数据块的位置列表（即每个数据块存储哪些 DataNode），Client 直接从这些 DataNode 读取文件数据（在读数据过程中，NameNode 不参与文件的传输），如下图。

2.2.2 MapReduce

MapReduce 是一个分布式计算软件框架，具有扩展性良好、高容错性的特点，且支持处理 T 级别的数据离线处理。

在 MapReduce 中，一个准备提交执行的应用程序称为 “作业（job）”，而从一个作业划分出的运行于各个计算节点的工作单元称为 “任务（task）”。

一个 MapReduce1.0 作业（job）通常会把输入的数据集切分为若干独立的数据块，由 map 以完全并行的方式处理任务（task）。框架会对 map 的输出先进行排序，然后把结果输入给 reduce。通常作业的输入和输出都会被存储在文件系统中。整个框架负责任务的调度和监控，以及重新执行已经失败的任务。举个官方提供的 WordCount 例子，如下图。

在 WordCount 程序中，MapReduce 会对输入的作业（job）先进性切分，这一步其实就是分治算法中 “分” 的过程。切分后不同部分就会让不同的机器去执行 Map 操作。而后便是 Shuffle（实质是归并排序），这一阶段会将相同的单词加到一起，最后再进行 Reduce（规约），统计出结果并输出到文件。

通常，MapReduce 由一个单独的 Master JobTracker 和每个集群节点上一个 Slave TaskTracker 共同组成。Master 负责调度构成一个作业的所有任务，这些任务分布在不同的 Slave 上，Master 监控它们的执行，并且监控重新执行已经失败的任务。而 Slave 仅负责执行由 Master 指派的任务。

2.2.3 YARN

YARN 是 Hadoop2.0 中的资源管理系统，它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。

它的基本设计思想是将 MRv1 中的 JobTracker 拆分成了两个独立的服务：一个全局的资源调度器 ResourceManager 和每个应用程序特有的应用程序管理器 ApplicationMaster，该调度器是一个 “纯调度器”，不再参与任何与具体应用程序逻辑相关的工作，而仅根据各个应用程序的资源需求进行分配，资源分配的单位用一个资源抽象概念 “Container” 来表示，Container 封装了内存和 CPU。

此外，调度器是一个可插拔的组件，用户可根据自己的需求设计新的调度器，YARN 自身提供了 Fair Scheduler 和 Capacity Scheduler。

应用程序管理器负责管理整个系统中所有应用程序，包括应用程序的提交、与调度器协商资源以启动 ApplicationMaster、监控 ApplicationMaster 运行状态并在失败时重新启动等。

2.2.4 Hive

Hive 由 Facebook 实现并开源，是基于 Hadoop 的一个数据仓库工具，可以将结构化的数据映射为一张数据库表，并提供 HQL（Hive SQL）查询功能。

其实，Hive 的本质就是将 SQL 语句转换成 MapReduce 任务执行，也就是说，使不熟悉 MapReduce 的用户很方便地使用 HQL 处理和计算 HDFS 上的结构化的数据，如下图。

初识大数据与Hadoop

1）Hive的架构

初识大数据与Hadoop

（1）Hive的用户接口层

CLI，即 Shell 终端命令行，采用交互形式使用 Hive 命令与 Hive 进行交互。

JDBC/ODBC，开发人员或运维人员通过 JDBC 提供的客户端连接至 Hive server 服务。

Web UI，通过浏览器访问 Hive。

（2）跨语言服务

Thrift server 提供了一种能力，用户可以使用多种不同的语言（如Java、C++、Ruby等）来操作 Hive。

（3）底层的 Driver

Driver 组件完成 HQL 查询语句从词法分析、语法分析、编译、优化及生成逻辑执行语句，生成的逻辑执行语句存储在 HDFS 中，接下来 MapReduce 调用执行。

Hive 的核心是驱动引擎，它由四部分组成：解释器、编译器、优化器、执行器。

（4）元数据存储系统

Hive 中的元数据一般包括：数据库的基本信息、表的基本信息等。

元数据信息一般存储在 Mysql 数据库中。

2）Hive与RDBMS比较

初识大数据与Hadoop

Hive 与 RDBMS 应用场景完全不同，Hive 仅适合用来做海量数据离线统计分析，即数据仓库。

2.2.5 Pig

Pig 是一种编程语言，它简化了 Hadoop 常见的工作任务，Pig 为大型数据集处理提供了更高层次的抽象，与 MapReduce 相比，Pig 提供了更丰富的数据结构，一般都是多值和嵌套的数据结构。

2.2.6 HBase

HBase 是 Apache 的 Hadoop 项目的子项目，是 Hadoop Database 的简称。

HBase 是一个高可靠、高性能、面向列、可伸缩的分布式存储系统，利用 HBase 技术可在廉价 PC Server 上搭建大规模结构化存储集群。

HBase 是一个分布式的、面向列族的开源数据库，构建在 Apache Hadoop 和 Apache Zookeeper 之上。HBase 不同于一般的关系数据库，它是一个适合于非结构化数据存储的数据库。另一个不同的是 HBase 基于列的而不是基于行的模式。

虽然 Hadoop 是一个高容错、高延时的分布式文件系统和高并发的批处理系统，但是它不适用于提供实时计算。

然而，HBase 是可以提供实时计算的分布式数据库，数据保存在 HDFS 分布式文件系统上，由 HDFS 保证其高容错性。HBase 内部使用哈希表和提供随机接入，并且其存储索引，可将在 HDFS 文件中的数据进行快速查找。

2.2.7 Zookeeper

Zookeeper 作为一个分布式服务框架，是 Apache Hadoop 的一个子项目，是基于 Fast Paxos 算法实现，它主要用来解决分布式系统中的一些数据管理问题，如：统一命名服务、状态同步服务、集群管理、分布式应用配置项的管理等。

一个典型的分布式数据一致性的解决方案，分布式应用程序可以基于它实现诸如数据发布/订阅、负载均衡、命名服务、分布式协调/通知、集群管理、Master 选举、分布式锁和分布式队列等功能。

2.2.8 Oozie

Apache Oozie 是一个开源的工作流和协作服务引擎，基于 Apache Hadoop 的数据处理任务。Oozie 是可扩展的、可伸缩的面向数据的服务，运行在 Hadoop 平台上，用来调度与管理 Hadoop 任务，比如：MapReduce、Pig 等。

Oozie 的工作流必须是一个有向无环图，实际上 Oozie 就相当于 Hadoop 的一个客户端，当用户需要执行多个关联的MR任务时，只需要将MR执行顺序写入 workflow.xml，然后使用 Oozie 提交本次任务，Oozie 会托管此任务流。

在实际的业务中处理数据时一般包含多个 MR，这些 MR 可能是 Java 或 HDFS，甚至是 Shell 脚本。这时，使用 Oozie 可以轻松完成这种多样的工作流。在使用 Oozie 时，若前一个任务执行失败，后一个任务将不会被调度。

2.2.9 Sqoop

Sqoop 是 SQL to Hadoop 的缩写，是数据库 ETL 工具。主要作用于结构化的数据存储与 Hadoop 之间进行双向交换。也就是说，Sqoop 可以将关系型数据库的数据导入到 HDFS、Hive，也可以从 HDFS、Hive 导出到关系型数据库中。

Sqoop 核心设计思想是利用 MapReduce 加快数据传输速度，也就是说 Sqoop 的导入和导出功能是通过 MapReduce 作业实现的，所以它是以批处理方式进行数据传输，难以实现实时数据的导入和导出。

2.2.10 Flume

Flume 是 Cloudera 提供的一个高可用、高可靠，分布式的海量日志采集、聚合和传输系统，Flume 支持在日志系统中定制各类数据发送方，用于数据收集；同时 Flume 提供对数据进行简单处理，并写到各种数据接收方（比如HDFS、HBase等）的能力。

2.2.11 Kafka

Kafka 是由 Apache 软件基金会开发的一个开源流处理平台，由 Scala 和 Java 编写。

Kafka 是一种高吞吐量的分布式发布订阅消息系统。具有分布式、高可用的特性，在大数据系统里被广泛使用，如果把大数据系统比作一台机器，那么 Kafka 就是前端总线，它连接了平台中的各个组件。

Kafka 的目的是通过 Hadoop 的并行加载机制来统一线上和离线的消息处理，也是为了通过集群来提供实时的消息。

看得有些晕了吧？可以看下面这张图更直观些。

从上面列举的组件看出，Hadoop 拥有二十多种组件，同时，也说明了 Hadoop 的应用范围非常广泛，包括：日志采集、数据存储、数据处理、数据分析等，都可以使用它顺利实现。

一个数据人的自留地是一个助力数据人成长的大家庭，帮助对数据感兴趣的伙伴们明确学习方向、精准提升技能。

扫码关注我，带你探索数据的神奇奥秘

vlambda博客
学习文章列表