10本值得你读的Apache Spark书籍
Apache Spark是Apache的开源大数据框架,具有与SQL,流,图处理和机器学习有关的内置模块。它于2010年开源,从一开始就对大数据和相关技术产生了明显影响,因为它很快吸引了250多个组织和超过1000个参与者的关注。拥有众多Apache Spark书籍,很难找到用于自学的最佳书籍。
在这里,我们整理了10本值得你读的Apache Spark书籍。
1.学习Spark:闪电般的快速大数据分析
如果您已经了解Python和Scala,那么您只需从Holden,Andy和Patrick学习Spark。它是初学者最好的Apache Spark书籍之一,因为它讨论了Spark基础知识和体系结构。它还说明了核心概念,例如内存中缓存,交互式外壳和分布式数据集。
该书还演示了强大的内置库,例如MLib,Spark Streaming和Spark SQL。由于本书旨在提高您的实践知识,因此它还涵盖了批处理部署,交互式和流式应用程序。
2.高性能Spark:扩展和优化Apache Spark的最佳实践
优化和扩展是大数据项目的两个关键方面。没有这些,应用程序将无法为实际使用做好准备。这就是为什么您需要阅读Holden Karau和Rachel Warren的high 农技ormance spark。这是最好的Apache Spark书籍之一,讨论了优化和扩展Apache Spark应用程序时使用的最佳实践。
本书针对的是已经掌握Apache Spark知识的人。通过使用本书,任何开发人员,数据工程师或系统管理员都可以节省大量的工作时间,并使应用程序优化和可扩展。
3.掌握Apache Spark
精通Apache Spark是最好的Apache Spark书籍之一,只有对Apache Spark有基本了解的人才能阅读。这本书涵盖了各种Spark技术和原理。它涵盖了与第三方主题(例如Databricks,H20和Titan)的集成。作者Mike Frampton使用代码示例来解释所有主题。
从本书中,您还将学习使用新工具进行存储和处理,评估图形存储以及如何在云中使用Spark。
4. Apache Spark在24小时内,Sams自学
深入学习主题可能需要很多时间。但是,实际的工作场所很激烈,需要尽快学习新技能。这就是为什么Sams自学系列24小时学习技能或主题在专业人士中很受欢迎的原因。
在最佳Apache Spark书籍列表中,该书适合初学者使用,因为它涵盖了从简单安装过程到Spark架构的所有内容。它还涵盖了其他主题,例如Spark编程,扩展,性能等等。因此,如果您想了解什么是Apache Spark,则适合您。
5.星火食谱
如果您从事生产级别的工作,那么您已经了解了食谱的重要性。它可以帮助您快速完成平凡且不需要太多思考的小任务。Rishi Yadav的Spark Cookbook提供了60多种关于Spark及其相关主题的食谱。这是最好的Apache Spark书籍之一,涵盖了用于不同类型任务的方法,例如配置和安装Apache Spark,设置开发环境,使用MLib构建推荐引擎等等。
Spark Cookbook主要针对专业人士,如果您需要方便的食谱,则适合您。
6. Apache Spark GraphProcessing
Rindra Ramamonjison的Apache Spark Graph Processing面向有兴趣在处理大数据的同时提高其绘图技能的大数据开发人员和数据科学家。
本书的前几章介绍了如何构建,处理和分析图形的基本知识。然后,作者在本书的后半部分迅速转到更高级的主题,该主题涵盖了各种主题,例如实现图并行迭代算法,聚类图等等。
7.使用Spark进行高级分析:从大规模数据中学习的模式
使用Spark进行高级分析,不仅使您熟悉Spark编程模型,还使您熟悉其生态系统,数据科学中的通用方法等等。桑迪(Sandy),乌里(Uri),肖恩(Sean)和乔什(Josh)的这本书针对的是对有兴趣学习与大规模数据分析配合使用的先进技术的数据科学家和开发人员。
本书从基本介绍Spark的生态系统入手,以确保学习曲线不是指数级的。后面的章节介绍如何使用协作过滤,聚类分类和异常检测等技术来应用不同的模式。对于从事安全性,基因组学和金融学工作的人员来说,这本书非常有用和方便。
8. Spark:绝对指南:简化大数据处理
我不推荐尚未上市的书籍,但是这本书值得一提。这本书“spark:明确的指南”由比尔·钱伯斯和马泰·扎哈里亚撰写,由奥莱利出版。
9. Spark GraphX的实际应用
没有视觉效果,几乎不可能说服营销领域的任何人。GraphX是一种图形处理API,可在Spark上运行,并为您提供创建用于传达消息的图形的工具。它是满足图形需求的最先进,最有用的API之一。本书涵盖了机器学习和图形处理的实际示例。
由于GraphX库是一个受欢迎的库,因此我们在本文中提到的几乎所有书籍都涵盖了它。但是,它们都没有深入介绍该库。因此,如果您希望总体上提高GraphX的知识或图表,请阅读本书,不会感到失望。
10.使用Spark进行大数据分析
使用Spark进行大数据分析是针对初学者的另一本最佳Apache Spark书。它从轻轻地开始,然后重点介绍有用的主题,例如Spark流和Spark SQL。对于希望全面了解Spark生态系统的人来说,这本书是绝佳的选择。
成都加米谷大数据科技有限公司,一家专注于大数据人才培养的机构。由来自阿里、华为、京东、星环等国内知名企业的多位技术大牛联合创办,技术底蕴丰厚,勤奋创新,精通主流前沿大数据及人工智能相关技术。面向社会提供大数据、人工智能等前沿技术的技能提升业务。
成都加米谷大数据科技有限公司
个人技能提升 丨 企业内训提升
成都高新区吉泰一街国际科技节能大厦B座23楼