搜文章
推荐 原创 视频 Java开发 iOS开发 前端开发 JavaScript开发 Android开发 PHP开发 数据库 开发工具 Python开发 Kotlin开发 Ruby开发 .NET开发 服务器运维 开放平台 架构师 大数据 云计算 人工智能 开发语言 其它开发
Lambda在线 > 过往记忆大数据 > 马铁大神的 Apache Spark 十年回顾

马铁大神的 Apache Spark 十年回顾

过往记忆大数据 2020-06-26

首先祝大家端午节快乐,幸福安康。

就在上周 五, Apache Spark 3.0  全新发布,此版本给我们带来了许多重要的特性,感兴趣的同学可以看下这篇文章:  。
Spark 是从 2010 年正式开源,到今年正好整整十年了!

一年一度的 Spark+AI SUMMIT 在本周正在如火 如荼的进行。Apache Spark 的发明者马铁大神给我们带来了 Apache Spark 3.0 介绍:回顾 Spark 过去十年,以及未来展望。

马铁大神的 Apache Spark 十年回顾

大神首先激情回顾了自己过去十年的情况,介绍了发明 Spark 的目的,以及后面几年 Spark 的发展。

马铁大神的 Apache Spark 十年回顾

马铁大神的 Apache Spark 十年回顾

马铁大神的 Apache Spark 十年回顾

Apache Spark 大概是从 2009年8月开始开发的

马铁大神的 Apache Spark 十年回顾

2010年 Spark 正式开源

马铁大神的 Apache Spark 十年回顾

2010-2011年期间开始有大量的用户使用,产生了许多预料之外的案例。

马铁大神的 Apache Spark 十年回顾

2012-2015年期间社区对 Spark 加了很多扩充,在语言支持上增加了 Python、R 以及 SQL 等;在类库上增加了 ML、图以及实时流处理功能;添加了许多高层次的 API。

马铁大神的 Apache Spark 十年回顾

今天,数砖公司的产品中 68% 的 notebook 命令都是使用 Python 写的。

马铁大神的 Apache Spark 十年回顾

超过 90% 的 Spark API 都是通过调用 Spark SQL 进行的,所以搞到最后 Spark SQL 才是最重要的东西,其底层的优化器为大多数作业进行优化。最近发布的 Spark 3.0 的 TPC-DS 测试性能比 Spark 2.4 提升近2倍,甚至比 Presto 还快!

马铁大神的 Apache Spark 十年回顾

数砖的产品每天处理5万亿条数据。

马铁大神的 Apache Spark 十年回顾

过去几年学到的经验:
  1. 产品的易用性很重要

  2. 支持最佳实践的 API

接下来马铁大神简单介绍了 Apache Spark 3.0 的新功能:感兴趣的同学也可以到过往记忆大数据的   去看看。

马铁大神的 Apache Spark 十年回顾

马铁大神的 Apache Spark 十年回顾

马铁大神的 Apache Spark 十年回顾

马铁大神的 Apache Spark 十年回顾

马铁大神的 Apache Spark 十年回顾

马铁大神的 Apache Spark 十年回顾

马铁大神的 Apache Spark 十年回顾

马铁大神的 Apache Spark 十年回顾

马铁大神的 Apache Spark 十年回顾

马铁大神的 Apache Spark 十年回顾

马铁大神的 Apache Spark 十年回顾

猜你喜欢

1、

2、

3、

4、

版权声明:本站内容全部来自于腾讯微信公众号,属第三方自助推荐收录。《马铁大神的 Apache Spark 十年回顾》的版权归原作者「过往记忆大数据」所有,文章言论观点不代表Lambda在线的观点, Lambda在线不承担任何法律责任。如需删除可联系QQ:516101458

文章来源: 阅读原文

相关阅读

关注过往记忆大数据微信公众号

过往记忆大数据微信公众号:iteblog_hadoop

过往记忆大数据

手机扫描上方二维码即可关注过往记忆大数据微信公众号

过往记忆大数据最新文章

精品公众号随机推荐