首先祝大家端午节快乐,幸福安康。
就在上周
五,
Apache Spark 3.0
全新发布,此版本给我们带来了许多重要的特性,感兴趣的同学可以看下这篇文章: 。
Spark 是从 2010 年正式开源,到今年正好整整十年了!
一年一度的 Spark+AI SUMMIT 在本周正在如火
如荼的进行。Apache Spark 的发明者马铁大神给我们带来了 Apache Spark 3.0 介绍:回顾 Spark 过去十年,以及未来展望。
大神首先激情回顾了自己过去十年的情况,介绍了发明 Spark 的目的,以及后面几年 Spark 的发展。
Apache Spark 大概是从 2009年8月开始开发的
2010年 Spark 正式开源
2010-2011年期间开始有大量的用户使用,产生了许多预料之外的案例。
2012-2015年期间社区对 Spark 加了很多扩充,在语言支持上增加了 Python、R 以及 SQL 等;在类库上增加了 ML、图以及实时流处理功能;添加了许多高层次的 API。
今天,数砖公司的产品中 68% 的 notebook 命令都是使用 Python 写的。
超过 90% 的 Spark API 都是通过调用 Spark SQL 进行的,所以搞到最后 Spark SQL 才是最重要的东西,其底层的优化器为大多数作业进行优化。最近发布的 Spark 3.0 的 TPC-DS 测试性能比 Spark 2.4 提升近2倍,甚至比 Presto 还快!
产品的易用性很重要
支持最佳实践的 API
接下来马铁大神简单介绍了 Apache Spark 3.0 的新功能:感兴趣的同学也可以到过往记忆大数据的
去看看。