零基础学大数据,认识Hadoop和Spark
大数据技术体系
零基础学习大数据技术,对应到大数据技术体系,虽然各种技术层出不穷,但大数据技术本质上是来解决4个核心问题:
存储,海量的数据怎样有效的存储?主要包括hdfs、Kafka;
计算,海量的数据怎样快速计算?主要包括MapReduce、Spark、Flink等;
查询,海量数据怎样快速查询?主要为Nosql和Olap,Nosql主要包括Hbase、 Cassandra 等,其中olap包括kylin、impla等,其中Nosql主要解决随机查询,Olap技术主要解决关联查询;
挖掘,海量数据怎样挖掘出隐藏的知识?也就是当前火热的机器学习和深度学习等技术,包括TensorFlow、caffe、mahout等。
Hadoop
Hadoop是Apache旗下的一套开源软件平台。
Hadoop提供的功能:
利用服务器集群,根据用户的自定义业务逻辑,对海量数据进行分布式处理。
Hadoop的核心组件有:
HDFS(分布式文件系统)
Yarn(运算资源调度系统)
MapReduce(分布式运算编程框架)
广义上来说,Hadoop通常是指一个更广泛的概念——HADOOP生态圈
HDFS:Hadoop分布式文件系统
MapReduce:MapReduce分布式编程模型
Yarn:资源分配
Hbase:海量数据库,面向列
Hive:通过SQL操作结构化数据,为用户操作结构化数据提供一个易用的接口。
Flume:日志收集
Kafka:消息队列
Storm:流计算
Spark
Spark是用于大规模数据处理的快速通用引擎。
Spark是一个快速的通用集群计算系统。 它在中提供了高级API Java, Scala, Python and R,并提供了一个优化引擎,该引擎支持常规执行图。
它还支持一系列丰富的高级工具,包括:
用于SQL和结构化数据处理的Spark SQL,扩展到DataFrames和DataSet
MLlib用于机器学习
GraphX用于图形处理
Spark Streaming用于流数据处理
Spark-Core:Spark框架的核心,包括RDD,任务调度等。
Spark-SQL:作用也是通过SQL操作结构化数据,提供一个易用的接口,相当于一个前端,其后端可以包括HDFS、MongoDB等。
Spark-Streaming:流计算
Spark-Mlib:机器学习库
Spark-GraphX:图计算
加米谷大数据培训,
大数据开发、数据分析报名中...
加米谷张老师:181 9072 2591
成都加米谷大数据科技有限公司,一家专注于大数据人才培养的机构。由来自阿里、华为、京东、星环等国内知名企业的多位技术大牛联合创办,技术底蕴丰厚,勤奋创新,精通主流前沿大数据及人工智能相关技术。面向社会提供大数据、人工智能等前沿技术的培训业务。
成都加米谷大数据科技有限公司
个人培训 丨 企业内训
成都市高新区吉泰一街国际科技节能大厦B座23楼