vlambda博客
学习文章列表

两分钟浅议大数据处理技术Spark(附英文)

在2009年Apache推出的Spark,现在已经成为业内功能最全面、最流行、社区最活跃的Big Data(大数据)处理技术。在2020年6月18日,Released Spark 3.0.0最新版本,Let's browse its official website together.

Apache Spark™ is a unified analytics engine for large-scale data processing.

Apache Spark™是用于大数据数据处理的统一分析引擎

Apache Spark的优势

1、Speed  速度

Run workloads 100x faster.

运行工作负荷的速度提高了100倍。

2、Ease of Use 易于使用

Write applications quickly in Java, Scala, Python, R, and SQL.

可以用Java、Scala(和Java language 一样运行在Java虚拟机上)、Python、R和SQL快速编写应用程序。

3、Generality 通用性

Combine SQL, streaming, and complex analytics.

将SQL、流和复杂的分析相结合。

4、Runs Everywhere 到处运行

Spark runs on Hadoop, Apache Mesos, Kubernetes, standalone, or in the cloud. It can access diverse data sources.

Spark可以在Hadoop、Apache Mesos、Kubernetes上独立运行,当然也可以在云端运行。它可以访问不同的数据源。