搜文章
推荐 原创 视频 Java开发 iOS开发 前端开发 JavaScript开发 Android开发 PHP开发 数据库 开发工具 Python开发 Kotlin开发 Ruby开发 .NET开发 服务器运维 开放平台 架构师 大数据 云计算 人工智能 开发语言 其它开发
Lambda在线 > 海牛大数据 > Spark在大数据生态当中的定位如何?

Spark在大数据生态当中的定位如何?

海牛大数据 2020-07-01

大数据发展至今,提起大数据计算引擎,Spark一定是不能忽视的一个。经过近年来的发展,Spark在大数据领域的市场占有率也在不断提升,可以自己独立支撑集群运行,也可以与Hadoop生态集成运行,因此广受欢迎。下面海牛学院就来为大家讲讲,Spark在大数据生态当中的定位如何?


Spark在大数据生态当中的定位如何?


早期的大数据,Hadoop框架受到的重用是显而易见的,而随着大数据处理新的数据处理需求产生,Hadoop在实时数据流计算上的劣势开始显现出来。而Spark正是在这样的背景下诞生,可以看做是对于Hadoop MapReduce计算框架的替代和改进。


Spark同样基于分布式集群进行并行计算,快速完成计算任务,相对于MapReduce,很大的一个改变在于,将原本在磁盘上运行的任务转移到内存当中来进行,而基于内存计算的效率,相比基于磁盘计算,确实要快得多。


Spark在大数据生态当中的定位如何?


另外,相比于MapReduce固定只支持map和reduce两种任务类型,Spark继承了MapReduce的模式,但是支持更多的任务类型,也能适应更多的计算场合。Spark对分布式大数据处理的抽象处理,让用户不必像写MapReduce一样,太关注底层的实现逻辑,而是在处理层次上投入更多精力。Spark解决的核心问题,是数据计算任务的解决,对于数据存储以及任务调度,还需要依靠其他工具来执行。


Spark的工作需要配合存储层,例如Hadoop中的HDFS分布式文件存储或者MongoDB、Cassandra这类数据库来完成。同时,它还需要一个集群的管理器,比如YARN、Mesos等用来管理相应的数据处理任务。当然Spark自己也提供集群管理功能,这样集群的每个节点都需要安装Spark,用于进行任务的编排。


Spark在大数据生态当中的定位如何?


发展至今,Spark已经形成了相对完备的大数据处理生态,包括Spark ML用来处理基于大量数据的机器学习任务,Spark Streaming用于处理小批量的流式数据等。


Spark在大数据生态当中的定位如何?需要知道的是,Spark作为大数据处理引擎,虽然并不能完美解决所有环节的问题,但是对于绝大部分问题,都能给出合适的方案,不管是独立运行还是集成运行,Spark系统的可用性都很高。





精彩推荐





扫一扫免费领取

集群服务器vip账号

百家企业面试真题

预约高品质试学课




点击下方“ 阅读原文 ”即可领取 2000元 大数据逐梦学习大礼包

↓↓↓

版权声明:本站内容全部来自于腾讯微信公众号,属第三方自助推荐收录。《Spark在大数据生态当中的定位如何?》的版权归原作者「海牛大数据」所有,文章言论观点不代表Lambda在线的观点, Lambda在线不承担任何法律责任。如需删除可联系QQ:516101458

文章来源: 阅读原文

相关阅读

关注海牛大数据微信公众号

海牛大数据微信公众号:hainiu_data

海牛大数据

手机扫描上方二维码即可关注海牛大数据微信公众号

海牛大数据最新文章

精品公众号随机推荐

上一篇 >>

Flask网页记账

下一篇 >>

二叉树与红黑树