vlambda博客
学习文章列表

零基础学大数据,认识Hadoop和Spark



大数据技术体系


零基础学习大数据技术,对应到大数据技术体系,虽然各种技术层出不穷,但大数据技术本质上是来解决4个核心问题:


存储,海量的数据怎样有效的存储?主要包括hdfs、Kafka;


计算,海量的数据怎样快速计算?主要包括MapReduce、Spark、Flink等;


查询,海量数据怎样快速查询?主要为Nosql和Olap,Nosql主要包括Hbase、 Cassandra 等,其中olap包括kylin、impla等,其中Nosql主要解决随机查询,Olap技术主要解决关联查询;


挖掘,海量数据怎样挖掘出隐藏的知识?也就是当前火热的机器学习和深度学习等技术,包括TensorFlow、caffe、mahout等。


Hadoop


Hadoop是Apache旗下的一套开源软件平台。

Hadoop提供的功能:

利用服务器集群,根据用户的自定义业务逻辑,对海量数据进行分布式处理。


Hadoop的核心组件有:

HDFS(分布式文件系统)

Yarn(运算资源调度系统)

MapReduce(分布式运算编程框架)

广义上来说,Hadoop通常是指一个更广泛的概念——HADOOP生态圈


HDFS:Hadoop分布式文件系统

MapReduce:MapReduce分布式编程模型

Yarn:资源分配

Hbase:海量数据库,面向列

Hive:通过SQL操作结构化数据,为用户操作结构化数据提供一个易用的接口。

Flume:日志收集

Kafka:消息队列

Storm:流计算


零基础学大数据,认识Hadoop和Spark


Spark


Spark是用于大规模数据处理的快速通用引擎。

Spark是一个快速的通用集群计算系统。 它在中提供了高级API Java, Scala, Python and R,并提供了一个优化引擎,该引擎支持常规执行图。 


它还支持一系列丰富的高级工具,包括:

用于SQL和结构化数据处理的Spark SQL,扩展到DataFrames和DataSet

MLlib用于机器学习

GraphX用于图形处理

Spark Streaming用于流数据处理


Spark-Core:Spark框架的核心,包括RDD,任务调度等。

Spark-SQL:作用也是通过SQL操作结构化数据,提供一个易用的接口,相当于一个前端,其后端可以包括HDFS、MongoDB等。

Spark-Streaming:流计算

Spark-Mlib:机器学习库

Spark-GraphX:图计算




_
零基础学大数据,认识Hadoop和Spark
_


加米谷大数据培训,

大数据开发、数据分析报名中...

零基础学大数据,认识Hadoop和Spark

加米谷张老师:181 9072 2591


_
_
_
_
_
_


成都加米谷大数据科技有限公司,一家专注于大数据人才培养的机构。由来自阿里、华为、京东、星环等国内知名企业的多位技术大牛联合创办,技术底蕴丰厚,勤奋创新,精通主流前沿大数据及人工智能相关技术。面向社会提供大数据、人工智能等前沿技术的培训业务。



成都加米谷大数据科技有限公司

个人培训 丨 企业内训

_

成都市高新区吉泰一街国际科技节能大厦B座23楼