vlambda博客
学习文章列表

关注了Apache Spark的人同时关注了什么项目?

在写了《》文章后, 手上有了处理数据的“锤子”,总想找些“钉子”敲敲。

由于工作需要,我对Apache Spark关注比较多,所以,我想知道的一个问题便是:关注了Spark的人同时还关注了啥项目?是否有些我还不了解的神秘项目?

于是,开始动手~ 目标是清楚了,但是实际用 universe-lite 调用Github API获取数据的过程则是有各种挑战的,但是“办法总比困难多”,在解决了多个问题,并持续爬了几天数据后,终于有了全量数据集(总共1211万5030行数据)。具体遇到的挑战和解决方案将在后续文章中介绍,这里就不说了。

1. Spark的星星数是怎么随时间变化的


  • 柱状图代表每月的净增加数,坐标轴为左侧
  • 折线图代表累计的总star数,坐标轴为右侧

2. 关注Spark的人同时关注了哪些项目

关注了Apache Spark的人同时关注了什么项目?

前五名分别是:

  • tensorflow (10684)
  • kubernetes (7152)
  • elasticsearch (6768)
  • moby (5786) (改名前是 docker)
  • react (5624)

都是非常成功和流行的开源项目。

3. 关注Spark的人同时都关注了哪些Spark相关项目

上面的图主要都是列出了一些流行的开源项目,但是我更想知道的是那些和Spark紧密相关的项目。

那我怎么才能简单筛选出哪些是Spark相关项目呢。 光靠在“名字”或者“描述”字段搜索是否存在“spark”的效果不太理想。

另一个思路是: 只筛选上图中 “占比”值比较大的项目。这个“占比”高,意味着:关注这些项目的人很高比率关注了Spark,更说明是属于Spark生态。

那我们把 “占比”阈值设置为 20%, 得到如下的项目列表:

前五名分别为:

  • kafka (5382)
  • flink (4955)
  • hadoop (4473)
  • scala (3693)
  • akka (3236)

可以说和之前的理解还是比较一致的。

4. 关注Spark的人中,大家都关注了多少个项目

我在Github上目前关注了700+项目,我想知道我在这些用户中,关注的数量到底算是多还是少。那我们来看一下数据

可以看出:

  • 关注了10个以下项目的人数有 3634
  • 大多数人都只关注了小于1000个项目
  • 关注项目最多的人关注了有近5万个项目

结尾

数据是非常有价值的,图表也能够“说话”。未来也会继续为大家带来一些“数据”故事。