vlambda博客
学习文章列表

大数据百科全书(三)-Hadoop入门



大数据是什么?
很多同学第一反应就是hadoop。既然大家这么喜欢hadoop,今天我们就好好说到hadoop

   


 1

hadoop是什么


Hadoop被公认是一套行业大数据标准开源软件,在分布式环境下提供了海量数据的处理能力。


几乎所有主流厂商都围绕Hadoop开发工具、开源软件、商业化工具和技术服务。


今年大型IT公司,如EMC、Microsoft、Intel、Teradata、Cisco都明显增加了Hadoop方面的投入。



 

 2

hadoop的核心


1.HDFS: Hadoop Distributed File System  分布式文件系统
2.YARN: Yet Another Resource Negotiator   资源管理调度系统

HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算。

把HDFS理解为一个分布式的,有冗余备份的,可以动态扩展的用来存储大规模数据的大硬盘。

把MapReduce理解成为一个计算引擎,按照MapReduce的规则编写Map计算/Reduce计算的程序,可以完成计算任务。



 

 3

hadoop到底要解决什么


1、存储,海量的数据怎样有效的存储?主要包括hdfs、Kafka;


2、计算,海量的数据怎样快速计算?主要包括MapReduce、Spark、Flink等;


3、查询,海量数据怎样快速查询?主要为Nosql和Olap,Nosql主要包括Hbase、 Cassandra 等,其中olap包括kylin、impla等,其中Nosql主要解决随机查询,Olap技术主要解决关联查询;


4、挖掘,海量数据怎样挖掘出隐藏的知识?也就是当前火热的机器学习和深度学习等技术,包括TensorFlow、caffe、mahout等;



 4

hadoop具体应用场景


大数据存储:分布式 存储

日志处理:擅长日志分析

ETL:数据抽取到oracle、mysql、DB2、mongdb及主流数据库

机器学习: 比如Apache Mahout项目

搜索引擎:Hadoop + lucene实现

数据挖掘:目前比较流行的广告推荐,个性化广告推荐

Hadoop是专为离线和大规模数据分析而设计的,并不适合那种对几个记录随机读写的在线事务处理模式。



 5

hadoop生态

大数据百科全书(三)-Hadoop入门