vlambda
2020-03-28

美国确诊破十万：这篇文章10天前使用R语言准确预测

本文为作者钱新涵使用R语言进行的新冠病毒预测，原文时间是3月18日，采用的数据集是3月16日（中国数据3月17），文中预测是10天后，恰好是今天。所以我对文章做了翻译，英文原文见（https://towardsdatascience.com/visualize-the-pandemic-with-r-covid-19-c3443de3b4e4）。

以下为译文（3月18发布）：

遵循CDC的建议，我们有两件事情要做：阅读有关COVID-19的新闻，以及对确诊数量增加而感到不知所措。在过去的几周里，情况有多糟？我的手机不断震动着来自世界各地的新闻：首先是从我的家乡中国，然后是亚洲其他地区，欧洲，再到美国。纽约有超过一半的城市已经停止通勤。我们已经用拳头相碰代替握手，现在则更进一步：社交隔离。五天前的3月12日，世界卫生组织宣布COVID-19大流行。迄今为止，已确认来自全球142个国家的160,000多人患有这种疾病。

我觉得有责任使用R创建一个追踪器以解决这一大流行。

我正在使用“ nCOV2019 ”，这是由南方医科大学的Yu Guangchuang Yu博士开发的R软件包。该软件包使我们可以访问所有国家/地区的病例的最新数据和历史数据，在地图上绘制数据并创建各种图形。如果您是像我这样有抱负的数据科学家，请随时安装软件包并按照以下步骤创建视觉效果：

部署程序包

探索数据

创建视觉效果

折线图（按国家/地区）
gif的全球COVID-19增长

影响分析

在接下来的10天里，我们将有多少宗案件？
冠状病毒会影响好莱坞吗？
我们还在吃饭吗？（带有OpenTable数据）

接下来本文就按照上面的步骤进行逐步介绍。

部署程序包

提取此程序包中嵌入的数据的基本功能是：

get_nCov2019() 查询在线最新信息
load_nCov2019() 获取历史数据
summary并[访问数据
plot 在地图上显示数据

安装和部署软件包

remotes::install_github(“GuangchuangYu/nCov2019”)
require(nCov2019)
require(dplyr)

数据概览


x <- get_nCov2019()
y <- load_nCov2019()> xChina (total confirmed cases): 81134last update: 2020–03–17 21:19:04> ynCov2019 historical datalast update: 2020–03–16

保持最新非常重要。简单地打印x和y将刷新数据。

> x['global',]

name confirm suspect dead deadRate showRate  heal healRate showHeal1                          China   81134     128 3231     3.98    FALSE 68800    84.80     TRUE2                          Italy   27980       0 2158     7.71    FALSE  2749     9.82    FALSE3                           Iran   16169       0  988     6.11    FALSE  5389    33.33    FALSE4                          Spain   11178       0  491     4.39    FALSE   571     5.11    FALSE5                    South Korea    8320       0   83        1    FALSE  1401    16.84    FALSE6                        Germany    7272       0   17     0.23    FALSE   135     1.86    FALSE7                         France    6650       0  148     2.23    FALSE    28     0.42    FALSE8                  United States    4687       0   93     1.98    FALSE    74     1.58    FALSE9                    Switzerland    2269       0   19     0.84    FALSE     4     0.18    FALSE10                United Kingdom    1950       0   56     2.87    FALSE    52     2.67    FALSE

如何创建数据概览？x[‘global’,]返回最新的全局数据，并根据确认的病例数自动排序。

探索数据

首先，让我们探讨当前数据的整体结构。DataExplorer是一个R软件包，可以快速构建可视化文件。

#explore package
library(DataExplorer)
plot_str(x)

美国确诊破十万：这篇文章10天前使用R语言准确预测

该get_nCov2019()功能获得的数据包括3个列表和5个数据帧。这些是中国乃至世界范围内确诊患者，死亡和康复病例的最新数据。

plot_str(y)

美国确诊破十万：这篇文章10天前使用R语言准确预测 — 3月15日全球COVID-19确诊病例

往期精选

文章好看点这里

vlambda博客
学习文章列表

美国确诊破十万：这篇文章10天前使用R语言准确预测

接下来本文就按照上面的步骤进行逐步介绍。

部署程序包

探索数据

创建视觉效果

影响分析

标签:

推荐阅读

相关文章

vlambda博客 学习文章列表

美国确诊破十万：这篇文章10天前使用R语言准确预测

接下来本文就按照上面的步骤进行逐步介绍。

部署程序包

探索数据

创建视觉效果

影响分析

标签:

推荐阅读

相关文章

vlambda博客
学习文章列表