本文从R基础环境安装、Rstudio的安装及配置、R包的安装、如何找到合适的R包、Jupyter Notebook中使用R共五个方面进行介绍,目录如下:
首先进入R官方网站 (
https://www.r-project.org/
),进入下载界面,选择windows系统下载R安装包,根据提示进行安装。
安装完成之后,点击R图标或快捷方式,进入以下界面,说明R语言已经安装成功!
环境变量(environment variables)一般是指在操作系统中用来指定操作系统运行环境的一些参数。当要求系统运行一个程序而没有告诉它程序所在的完整路径时,系统除了在当前目录下面寻找此程序外,还应到path中指定的路径去找。用户通过设置环境变量,来更好的运行进程。
为什么要设置环境变量呢?目的其实很简单,为了方便其它程序调用R!
右击计算机-属性-高级系统设置-环境变量--系统变量--Path,在变量值中加入R的本地安装路径(注意和之前的用“;”隔开,本电脑R路径为:“D:\R\R-3.6.3\bin\”),点击确定即可。
右击计算机-属性-高级系统设置-环境变量--Path,新增R的按照路径即可(本电脑R路径为:“C:\Program Files\R\R-3.5.1\bin”),点击确定即可。
进入终端(windows+R,输入cmd),输入‘R’,如果出现以下界面,说明系统环境变量已经配置成功!
进入R官方网站 (
https://www.r-project.org/
),进入下载界面,选择macOS系统下载R安装包,并根据提示进行安装。
安装完成之后,点击R图标,进入以下界面,说明R语言已经安装成功!
或者在终端中输入‘R’,进入以下界面,也说明R语言已经安装成功!
RStudio是R语言的集成开发环境(IDE),它是一个独立的开源项目,它将许多功能强大的编程工具集成到一个直观、易于学习的界面中。RStudio可以在所有主要平台(Windows、Mac、Linux)上运行,也可以通过web浏览器(使用服务器安装)运行。如果你是一个R新手或者偏爱界面版的R环境,那么你会喜欢上RStudio!
进入Rstudio官网下载页面
,选择Desktop Free版的下载,并根据提示进行安装。(网页地址:
https://rstudio.com/products/rstudio/download/
)
安装完成之后,点击Rstudio图标或快捷方式,进入以下界面,说明安装成功!
如果电脑上装了多个版本的R,RStudio会选择
最近安装
的作为默认项,如果你想使用之前的版本,可按照以下步骤设置:Tools--Global Options--General--Basic--Change--选择版本--Apply
当你用Rstudio新建一个R脚本之后,保存到本地,下次打开时,发现里面中文成了一堆乱码,WTF?
其实这是file encoding的问题,按照以下两种方式可以解决:
①方法一
:Tools--Global Options--General--Code--Saving--Change--
选择UTF-8
--Apply
②方法二
:保存脚本前,File--Save with Encoding--
选择UTF-8,勾选Set as default
--OK
编写的代码在出现问题时,RStudio会有所提示,建议新手开启此功能,设置步骤如下:
Tools--Global Options--Code--Diagnostics--全部勾选--Apply
CRAN
(
https://cran.r-project.org/mirrors.html
)
是R综合档案网络的简称,这里提供了各种预编译好的安装文件和源代码,Packages包含了大量开发者贡献的扩展包。CRAN里面有上百个镜像网站。下载安装R包时,为提高速度,建议使用国内镜像。
使用CRAN安装R包,再R console中输入一行代码即可搞定,运行代码时,R会弹出一个选择镜像的对话框,选择国内镜像即可。
install.packages('ggplot2')
install.packages(c('ggplot2','plotly'))
出现以下内容‘
**包打开成功,MD5和检查也通过
’,则表示安装成功!
为避免每次选择镜像的麻烦,你可以对R镜像进行配置,操作方法如下:
options()$repos
options("repos" = c(CRAN="https://mirrors.tuna.tsinghua.edu.cn/CRAN/"))
②方法二
:更改本地配置文件,在R安装目录下D:\R\R-3.6.3\etc\,找到Rprofile.site文件,打开该文件,找到下列语句:
# set a CRAN mirror
# local({r <- getOption("repos")
# r["CRAN"] <- "http://my.local.cran"
# options(repos=r)})
修改为:
# set a CRAN mirror
local({r <- getOption("repos")
r["CRAN"] <- "https://mirrors.tuna.tsinghua.edu.cn/CRAN/"
options(repos=r)})
第二步,R菜单栏--程序化包--Install package(s) from local files...,或者输入以下代码,会弹出对话框,选中本地下载好的R包即可。
utils:::menuInstallLocal()
使用RStudio安装R包要容易很多。首先,设置镜像:Tools--Global Options--Packages--Management--Change--选择一国内镜像--Apply;
然后,点击右下方模块的Packages--Install,输入要安装的包名称,并勾选Install dependencies(建议此操作,防止包在使用时遇到没有依赖包而造成的错误)。
另外,Rstudio也可以本地安装R包,将Install from更改为“Package Archive File”即可,如下图所示:
越来越多的R包正在被创建,当开发者发布一个R包的时候,CRAN一般是最常用的,使用上述3种方法可以安装发布在CRAN上的R包。但有些开发者使用GitHub开发R包,例如Twitter在Github上提供的AnomalyDetection包,而使用install.packages()函数则无法安装,这时我们可以通过devtools包轻松的安装该R包。
首先我们要安装devtools包,然后使用install_github()函数即可。
install.packages("devtools")
library(devtools)
install_github("twitter/AnomalyDetection")
但是,这样仍然存在一个问题,install_github()需要提供Github的仓库名。
这意味着当你想从Github上安装一个R包的时候你必须准确的记得它的仓库名称。
麻烦的是,我们往往很难记住Github的用户名。
开发者在给R包命名的时候一般会考虑包的名称,以便用户方便记忆。
然而,他们在给自己取一个Github用户名的时候可能就没那么小心了。
这个问题该如何解决呢?
githubinstall包派上用场,只需包名即可安装R包。
githubinstall()会从Github的仓库中搜索相应的R包,并询问你是否安装。
此外,如果你只是模糊的记得包名也可以安装成功,githubinstall包通过模糊的字符串会自动纠正包名。
install.packages('githubinstall')
library(githubinstall)
githubinstall('AnomalyDetection')
githubinstall("AnomalyDetect")
githubinstall("anomaly-detection")
Bioconductor (
http://www.bioconductor.org/
)是一个基于R语言的、面向基因组信息分析的软件包集合。它提供的软件包中包括各种基因组数据分析和注释工具,其中大多数工具是针对DNA微阵列或基因芯片数据的处理、分析、注释及可视化的。截止发文为止, Bioconductor共收录了1903个R包。
通过Bioconductor安装相关R包,首先要安装BiocManager包,然后运行BiocManager::install()即可。
install.packages("BiocManager")
BiocManager::install(c("GenomicFeatures", "AnnotationDbi"))
R CRAN主页左侧导航栏Task Views可j进入该页面,根据Topics检索相关的R包,共包含40多个常用主题;点击主题进入相关页面,会有各个R包的介绍(以Bayesian为例)。
R Site Search (
http://finzi.psych.upenn.edu/search.html)
是R官方提供的R包搜索引擎,支持搜索R包、函数,或者根据项目进行搜索;
sos包是基于R Site Search引擎开发的搜索包,其检索返回的结果与R Site Search一致,但结果以表格形式展示:
install.packages('sos')
library("sos")
findFn("treatment effect")
RDocumentation(
https://www.rdocumentation.org/
)可以说是最简单与全面的R包搜索方式,可从CRAN、Bioconductor、GitHub检索,直接在搜索栏输入主题即可。你也可以点击搜索栏下面的Task Views,会链接到CRAN,以更美观的方式展示不同主题下的R包。
使用packagefinder包也很简单,你可以搜索多个主题,并使用and 或 or,或者更复杂的检索方式;当display参数为"browser"时,搜索结果会展示在浏览器。
具体请参考:
https://github.com/jsugarelli/packagefinder
install.packages('packagefinder')
library(packagefinder)
findPackage(c("meta", "regression"), mode = "and",display = "browser")
findPackage("meta or regression")
findPackage(c("meta AND regression", "model OR heterogeneity"))
只有想不到,没有做不到,有的牛人根据自己学习R的经验,汇总整理了常用的R包。
参考链接:
https://www.zhihu.com/question/62747478/answer/201612465
机器学习
:nnet,rpart,gbm, kernlab, mboost, randomForest ,tree,party,lars,boost,e1071,BayesTree,gafit,arules, caret, DWwR, mlr,capet;
数据处理
:lubridata ,dplyr, plyr ,reshape2,stringr,formatR,mcmc, data.table, tidyverse , tidyr;
分析基于划分的方法
: kmeans, pam, pamk, clara;
基于层次的方法
: hclust, pvclust, agnes, diana;
基于画图的方法
: plotcluster, plot.hclust;
随机森林
: cforest, randomForest ;
生存分析
: survfit, survdiff, coxph,GGally;
金融包时间序列
:zoo,xts,chorn,its,timeDate, tseries, forecast;
金融分析
:quantmod,RQuantLib,portfolio,PerformanceAnalytics,TTR,sde,YieldCurve;
计量经济学
:ARE, car, forecast, Imtest,plm, sandwish, tseries, urca, zoo
风险管理
:parma,evd,evdbayes,evir,extRemes,ismev;
中文分词
:Rwordseq , jiebaR,chinesemisc,tau, tm;
绘图
:animation, ggplot2, lattice,qplot, aplpack,plotly,rwordmap,ggmap, googleVis, ggpubr;
ggplot2系统扩展包
:ggthemes, ggtech, ggsic, gganimate, ggradar, ggseas, ggmosiac, ggally, ggimage, ggflagsjs;
在线图表库接口
:plotly, Rcharts, Recharts;
htmlwidgets系统包
:leaflet, dygraphs, rbokeh,Highcharter,visNetwork, networkD3, d3heatmap, DataTables, threejs,rgwidget, DiagrammeR;
配色及主题包
:ggthemes, ggthemer, RColorBrewer;
数据地图包
:baidumap, ggmap, GoogleVIS, REmap, Rworldmap, leaflet, leafletCN, leaflet.minicharts, geojsonio, rgdal, sf, maptools, maps, scatterpie;
图形控制与字体渲染
:Cairo,showtext;
可视化排版系统
:rmarkdown, flexdashboard, knitr, shiny, shinythemes, shinydashboard, htmltools;
3D图
:rgl,scatterplot3d, misc3d,plotly;
词云
:wordcloud2,wordcloud;
高速并行计算
:snow, Rmpi, Rcpp, STAR, OpenCL, gpuR,gmatrix;
Jupyter Notebook(此前被称为 IPython notebook)是一个交互式笔记本,支持运行 40 多种编程语言。Jupyter Notebook 的本质是一个 Web 应用程序,便于创建和共享文学化程序文档,支持实时代码,数学方程,可视化和 markdown。用途包括:数据清理和转换,数值模拟,统计建模,机器学习等等。用户可以通过电子邮件,Dropbox,GitHub 和 Jupyter Notebook Viewer,将 Jupyter Notebook 分享给其他人。在Jupyter Notebook 中,代码可以实时的生成图像,视频,LaTeX和JavaScript。数据挖掘领域中最热门的比赛 Kaggle 里的资料都是Jupyter 格式。
安装Jupyter Notebook的前提是需要安装了Python(3.3版本及以上,或2.7版本)。进入CMD界面,输入以下代码,安装Jupyter :
pip3 install --upgrade pip
pip3 install jupyter
jupyter notebook
如果是新手,强烈建议直接安装Anaconda,在安装Python及科学计算环境的同时,也会自动安装Jupyter Notebook。
在安装好Jupyter Notebook之后,进入R,输入以下代码:
install.packages(c('repr', 'IRdisplay', 'evaluate', 'crayon', 'pbdZMQ', 'devtools', 'uuid', 'digest'))
devtools::install_github('IRkernel/IRkernel')
IRkernel::installspec(user = FALSE)
再次进入Jupyter,便可以愉快地使用Jupyter跑R代码了!