本文为作者钱新涵使用R语言进行的新冠病毒预测,原文时间是3月18日,采用的数据集是3月16日(中国数据3月17),文中预测是10天后,恰好是今天。所以我对文章做了翻译,英文原文见(https://towardsdatascience.com/visualize-the-pandemic-with-r-covid-19-c3443de3b4e4)。
以下为译文(3月18发布):
遵循CDC的建议,我们有两件事情要做:阅读有关COVID-19的新闻,以及对确诊数量增加而感到不知所措。在过去的几周里,情况有多糟?我的手机不断震动着来自世界各地的新闻:首先是从我的家乡中国,然后是亚洲其他地区,欧洲,再到美国。纽约有超过一半的城市已经停止通勤。我们已经用拳头相碰代替握手,现在则更进一步:社交隔离。五天前的3月12日,世界卫生组织宣布COVID-19大流行。迄今为止,已确认来自全球142个国家的160,000多人患有这种疾病。
我觉得有责任使用R创建一个追踪器以解决这一大流行。
我正在使用“ nCOV2019 ”,这是由南方医科大学的Yu Guangchuang Yu博士开发的R软件包。该软件包使我们可以访问所有国家/地区的病例的最新数据和历史数据,在地图上绘制数据并创建各种图形。如果您是像我这样有抱负的数据科学家,请随时安装软件包并按照以下步骤创建视觉效果:
部署程序包
探索数据
创建视觉效果
折线图(按国家/地区)
gif的全球COVID-19增长
影响分析
在接下来的10天里,我们将有多少宗案件?
冠状病毒会影响好莱坞吗?
我们还在吃饭吗?(带有OpenTable数据)
接下来本文就按照上面的步骤进行逐步介绍。
部署程序包
提取此程序包中嵌入的数据的基本功能是:
get_nCov2019()
查询在线最新信息
load_nCov2019()
获取历史数据
summary
并[
访问数据
plot
在地图上显示数据
安装和部署软件包
remotes::install_github(“GuangchuangYu/nCov2019”)
require(nCov2019)
require(dplyr)
数据概览
x <- get_nCov2019()
y <- load_nCov2019()> xChina (total confirmed cases): 81134last update: 2020–03–17 21:19:04> ynCov2019 historical datalast update: 2020–03–16
保持最新非常重要。简单地打印x和y将刷新数据。
> x['global',]
name confirm suspect dead deadRate showRate heal healRate showHeal1 China 81134 128 3231 3.98 FALSE 68800 84.80 TRUE2 Italy 27980 0 2158 7.71 FALSE 2749 9.82 FALSE3 Iran 16169 0 988 6.11 FALSE 5389 33.33 FALSE4 Spain 11178 0 491 4.39 FALSE 571 5.11 FALSE5 South Korea 8320 0 83 1 FALSE 1401 16.84 FALSE6 Germany 7272 0 17 0.23 FALSE 135 1.86 FALSE7 France 6650 0 148 2.23 FALSE 28 0.42 FALSE8 United States 4687 0 93 1.98 FALSE 74 1.58 FALSE9 Switzerland 2269 0 19 0.84 FALSE 4 0.18 FALSE10 United Kingdom 1950 0 56 2.87 FALSE 52 2.67 FALSE
如何创建数据概览?x[‘global’,]
返回最新的全局数据,并根据确认的病例数自动排序。
探索数据
首先,让我们探讨当前数据的整体结构。DataExplorer是一个R软件包,可以快速构建可视化文件。
#explore package
library(DataExplorer)
plot_str(x)
该get_nCov2019()
功能获得的数据包括3个列表和5个数据帧。这些是中国乃至世界范围内确诊患者,死亡和康复病例的最新数据。
plot_str(y)