vlambda博客
学习文章列表

Scala和Spark的大数据分析

使用Scala和Spark进行大数据分析:使用功能性概念来操纵分布在集群上的大数据在业界十分普遍,并且可以说是功能性思想最早在工业上得到广泛使用的一种。


课程详情

使用Scala和Spark进行大数据分析:使用功能性概念来操纵分布在集群上的大数据在业界十分普遍,并且可以说是功能性思想最早在工业上得到广泛使用的一种。MapReduce和Hadoop以及最近的Apache Spark(一种用Scala编写的快速的内存分布式集合框架)的流行证明了这一点。在本课程中,我们将了解如何始终使用Spark将数据并行范例扩展到分布式案例。我们将详细介绍Spark的编程模型,并仔细了解它与熟悉的编程模型(例如共享内存并行集合或顺序Scala集合)之间的区别和时机。通过Spark和Scala中的动手示例,我们将学习何时应考虑与分发有关的重要问题,例如延迟和网络通信,以及如何有效解决这些问题以提高性能。学习成果。在本课程结束时,您将能够:-从持久性存储中读取数据并将其加载到Apache Spark中, -使用Spark和Scala处理数据, -以功能形式表达用于数据分析的快速算法, -了解如何避免在Spark中进行混洗和重新计算, 推荐背景:您应具有至少一年的编程经验。熟练使用Java或C#是理想的,但是也可以使用其他语言(例如C / C ++,Python,Javascript或Ruby)的经验。您应该对命令行有所了解。本课程打算在并行编程之后进行:https://www.coursera.org/learn/parprog1。


课程大纲

在您的计算机上启动并运行Scala。完成一个示例作业,以熟悉我们提交作业的独特方式。本周,我们将弥合共享内存场景(在并行编程课程的先决条件)和分布式场景中的数据并行性之间的差距。我们将研究分布式系统中出现的重要问题,如延迟和故障。我们将继续介绍Spark的基础知识,Spark是一个面向功能的Scala大数据处理框架。在第一周结束时,我们将通过分析真实世界的数据集来练习我们所学的Spark。