Spark 3.0 SQL 性能优化 pdf下载
开发历时近两年的 Apache Spark 3.0.0 正式发布了!3.0.0 版本一共包含了 3400 多个补丁, 是开源社区有史以来贡献力度最大的一次,新版本加入了 Python 和 SQL 的高级功能,提升了探索和生产应用方面的易用性。今年,Spark 也迎来了开源 10 周年,这 10 年里 Spark 一直在不断发展,以便满足更多的应用场景和更广泛的受众需求。
Spark 3.0 主要特性概览
相比 Spark 2.4,性能提升了 2 倍,主要体现在自适应查询执行、动态分区修剪等方面;
兼容 ANSI SQL;
Pandas API 的重大改进,包括 Python 类型提示和增加额外的 Pandas UDF;
改进了 Python 错误处理,简化了 PySpark 异常;
结构化流的新 UI;
调用 R 语言 UDF 速度提升最高达到了 40 倍;
解决了 3400 个 Jira 问题,这些问题在 Spark 各个组件的分布情况如下:
解决了 3400 个 Jira 问题,这些问题在 Spark 各个组件的分布情况如下:
Spark 开源 10 周年
SQL 方面的优化主要包括四个方向:
面向开发者交互方面;
动态优化;
Catalyst 方面的提升;
基础设施的更新。