零基础学大数据，认识Hadoop和Spark

vlambda
2020-02-07

零基础学大数据，认识Hadoop和Spark

大数据技术体系

零基础学习大数据技术，对应到大数据技术体系，虽然各种技术层出不穷，但大数据技术本质上是来解决4个核心问题：

存储，海量的数据怎样有效的存储？主要包括hdfs、Kafka；

计算，海量的数据怎样快速计算？主要包括MapReduce、Spark、Flink等；

查询，海量数据怎样快速查询？主要为Nosql和Olap，Nosql主要包括Hbase、 Cassandra 等，其中olap包括kylin、impla等，其中Nosql主要解决随机查询，Olap技术主要解决关联查询；

挖掘，海量数据怎样挖掘出隐藏的知识？也就是当前火热的机器学习和深度学习等技术，包括TensorFlow、caffe、mahout等。

Hadoop

Hadoop是Apache旗下的一套开源软件平台。

Hadoop提供的功能：

利用服务器集群，根据用户的自定义业务逻辑，对海量数据进行分布式处理。

Hadoop的核心组件有：

HDFS（分布式文件系统）

Yarn（运算资源调度系统）

MapReduce（分布式运算编程框架）

广义上来说，Hadoop通常是指一个更广泛的概念——HADOOP生态圈

HDFS：Hadoop分布式文件系统

MapReduce：MapReduce分布式编程模型

Yarn：资源分配

Hbase：海量数据库，面向列

Hive：通过SQL操作结构化数据，为用户操作结构化数据提供一个易用的接口。

Flume：日志收集

Kafka：消息队列

Storm：流计算

Spark

Spark是用于大规模数据处理的快速通用引擎。

Spark是一个快速的通用集群计算系统。它在中提供了高级API Java, Scala, Python and R，并提供了一个优化引擎，该引擎支持常规执行图。

它还支持一系列丰富的高级工具，包括：

用于SQL和结构化数据处理的Spark SQL，扩展到DataFrames和DataSet

MLlib用于机器学习

GraphX用于图形处理

Spark Streaming用于流数据处理

Spark-Core：Spark框架的核心，包括RDD，任务调度等。

Spark-SQL：作用也是通过SQL操作结构化数据，提供一个易用的接口，相当于一个前端，其后端可以包括HDFS、MongoDB等。

Spark-Streaming：流计算

Spark-Mlib：机器学习库

Spark-GraphX：图计算

加米谷大数据培训，

大数据开发、数据分析报名中...

加米谷张老师：181 9072 2591

成都加米谷大数据科技有限公司，一家专注于大数据人才培养的机构。由来自阿里、华为、京东、星环等国内知名企业的多位技术大牛联合创办，技术底蕴丰厚，勤奋创新，精通主流前沿大数据及人工智能相关技术。面向社会提供大数据、人工智能等前沿技术的培训业务。

成都加米谷大数据科技有限公司

个人培训丨企业内训

成都市高新区吉泰一街国际科技节能大厦B座23楼

vlambda博客
学习文章列表