vlambda博客
学习文章列表

Hulu大数据团队带你深入学习Hadoop

立即参团

原价 ¥899.00

已有500人参团 


现价只需¥399.00

文末【阅读原文】为参团链接

快点击参团吧


课程名称

《Hadoop大数据技术体系:原理、内幕与项目实践》第一期


课程特色

本课程以“互联网日志分析系统”这一大数据应用案例为主线,依次介绍相关的大数据技术,涉及数据收集,存储,数据分析以及数据可视化,最终会形成一个完整的大数据项目。


本课程以目前主流的,最新Hadoop稳定版2.7.x为基础,同时兼介绍3.0版本新增特性及使用,深入浅出地介绍Hadoop大数据技术体系的原理、内幕及案例实践, 内容包括大数据收集、存储、分布式资源管理以及各类主要计算引擎,具体包括数据收集组件Flume、分布式文件系统HDFS,分布式资源管理系统YARN以及分布式计算引擎MapReduce、Hive和Presto,涉及各组件基本原理,使用方法,实战经验(优化技巧)以及在线演示。


本课程精心设计了互联网日志分析系统这一案例,帮助大家在理解理论的基础上,亲手实践Hadoop。

基础要求

了解Linux基础知识,掌握Java语言基础

主讲老师

Hulu大数据团队


董西成,毕业于中国科学院,hulu大数据架构组负责人;《Hadoop技术内幕:深入解析MapReduce架构设计与实现原理》和《Hadoop技术内幕:深入解析YARN架构设计与实现原理》作者;资深Hadoop技术实践者和研究者,曾参与商用Hadoop原型研发,以及分布式日志系统、全网图片搜索引擎、Hadoop调度器等项目的设计。


谭政,毕业于北京大学,曾就职于新浪微博平台研发部;曾参与微博核心Feed系统的改造,主导多机房数据同步和容灾部署,Spark内核级优化和企业推广,Hadoop集群升级与优化,Hive On Tez优化以及推广等工作。


张虔熙,毕业于中国科学院,HBase Contributor;参与维护并优化千节点规模的Hadoop集群,对分布式存储系统有深入研究(源码级修改),尤其擅长HDFS/HBase调优及应用;利用impala与presto大数据查询引擎构建企业级OLAP引擎,对高性能查询优化有丰富经验。


开课时间

2016年12月13日


学习方式

在线直播,共10次

每周2次(周二、周四晚上20:00-22:00)

直播后提供录制回放视频,可在线反复观看,有效期1年


课程大纲
1

Hadoop 概述(共1课时)


大数据背景

大数据技术体系

Hadoop生态系统构成以及核心组件

Hadoop主流发行版以及选型

    包括ApacheCDH HDP

Hadoop单机及分布式集群搭建方法(在线演示)

Hadoop典型应用场景

    包括日志分析,搜索引擎索引构建、机器学习等

课程综合案例:分布式日志分析系统

    介绍分布式日志分析系统的背景、关键模块、以及采用的关键大数据技术 。

2

大数据技术体系关键组件原理、使用与实战(共8.5课时) 

分布式数据收集:Flume原理与应用(共1课时)

    Flume产生背景

    Flume基本原理及架构

    Flume部署模式(在线演示)

    FlumeHadoop整合应用与实战

    分布式日志分析系统:数据收集模块剖析

    详细介绍基于TailDirPool Directory SourceFile Channel以及HDFS sink收集日志的flume拓扑构建方式。

分布式文件系统:HDFS基础与应用(共1课时)

   HDFS产生背景

   HDFS基本原理

   HDFS架构以及关键组件

   HDFS使用方式(在线演示)

   HDFS优化小技巧

   分布式日志分析系统:文件存储模块剖析

   详细介绍日志文件在HDFS存放方式,以及如何解决小文件,文件归档等问题。

分布式资源管理系统:YARN架构与应用 (共1课时)

   YARN产生背景

   YARN基本原理以及架构

   YARN资源调度器(Capacity Scheduler以及Fair Scheduler

   YARN基于标签的调度策略以及启用方式

   YARN典型应用场景及在大数据系统中的地位

   分布式日志分析系统:资源管理模块剖析

   详细介绍容量调度器,多队列管理,如何启用基于标签的调度机制

分布式计算:批处理引擎MapReduce(第一部分)(共1课时)

   MapReduce产生背景

   MapReduce基本原理

   MapReduce基本架构

   MapReduce Java分布式程序设计(在线演示)

   什么情况下Spark性能比MapReduce

  MapReduce的未来

分布式计算:批处理引擎MapReduce(第二部分)(共1课时)

   MapReduce回顾

   MapReduce多语言程序设计(在线演示)

   MapReduce优化小技巧

   分布式日志分析系统:ETL模块剖析

   详细介绍如何使用Java API以及Hadoop Streaming方式设计ELT程序。

分布式计算:数据分析引擎Hive(第一部分)(共1课时)

   Hive产生背景

   Hive基本架构以及部署模式

   Hive HQL基础(在线演示)

   Hive创建ParquetORC

   总结

分布式计算:数据分析引擎Hive(第二部分)(共1课时)

    Hive编程访问

    Hive On Tez/Spark

    Hive优化小技巧

    分布式日志分析系统:数据仓库模块剖析

    详细介绍如何在Hive中进行数据建模,并使用Hive查询引擎查询日志数据。

分布式计算:数据查询引擎Presto(共1课时)

    Presto产生背景

    Presto基本架构以及部署模式

    Presto SQL基础(在线演示)

    Presto优化小技巧

    分布式日志分析系统:数据仓库查询模块剖析

    详细介绍如何使用Presto加速数据查询效率(相比于Hive

大数据可视化:可视化主流方案(共0.5课时)

    什么是大数据可视化

    可视化主流解决方案

    EChartD3tableau, Hue

    分布式日志分析系统:报表可视化模块剖析

    详细介绍如何构建日志分析系统的可视化模块。

3

综合案例回顾:分布式日志分析系统(共0.5课时)

案例背景

基本架构与关键模块

日志分析系统部署及维护

总结


常见问题


Q: 会有实际上机演示和动手操作吗?

A: 有的,几乎每节课,老师均会准备上机演示部分,学员可以学习老师的实践经验。

Q: 本课程主要是基于Hadoop 2.7.x版本吗,如果3.0成熟了,内容会不会过期?

A:不会的。本课程以介绍Hadoop基本原理和使用技巧为主,这些内容适用于2.x之后各个版本,尽管Hadoop3.x有稍许的改动,但学员学完这门课后,应该有能力主动学习这些新功能和特性。

Q: 本课程有专门的答疑时间吗?

A: 有的。助教会统一收集学员问题,老师在每节课最后部分,会在线回答20~30个问题,并由助教整理后发布到问答社区中。


点击阅读原文——参团,咨询,查看课程