十五天搞定R语言(一)
第一天
我很想学好R语言,希望可以在计算机方面弥补一下自己的短板,挑战一下自己十五天内完成入门,看完参考书R语言实战。Fighting!
一、R语言安装
R可以在CRAN(Comprehensive R Archive Network,http://cran.r-project.org)上免费下载。
二、R 的使用
1、R是一种区分大小写的解释型语言。R中的多数功能是由程序内置函数、用户自编函数和对对象的创建和操作所提供的。
2、R语句由函数和赋值构成。R使用<-赋值,也可以用->反转赋值方向,但注意与其他编程语言中的=赋值符号区分。注释由符号#开头
3、R能够作出何种图形,在命令行中运行demo()即可。如果要看到完整的演示列表,不加参数直接运行demo()即可。
4、R的内置帮助系统提供的当前已安装包中所有函数①的细节、参考文献以及使用示例。help.start() 打开帮助文档首页。
5、工作空间(workspace)就是当前R的工作环境,它存储着所有用户定义的对象(向量、矩阵、函数、数据框、列表)。
6、用于管理R工作空间的函数及其功能
getwd()显示当前的工作目录【理解为获取文件所在位置】
setwd("mydirectory")修改当前的工作目录为mydirectory【命令的路径使用正斜杠(\),而反斜杠(\)作为一个转义符】
dir.create() 创建从未存在的新目录
ls()列出当前工作空间中的对象【理解为list对象】
rm(objectlist)移除(删除)一个或多个对象【理解为remove对象】
help(options)显示可用选项的说明
options()显示或设置当前选项
history(#)显示最近使用过的#个命令(默认值为25)
savehistory("myfile")保存命令历史到文件myfile中(默认值为.Rhistory)
loadhistory("myfile")载入一个命令历史文件(默认值为.Rhistory)
save.image("myfile")保存工作空间到文件myfile中(默认值为.RData)
save(objectlist,file="myfile") 保存指定对象到一个文件中
load("myfile")读取一个工作空间到当前会话中(默认值为.RData)
q()退出R。将会询问你是否保存工作空间
7、输入 函数source("filename")可在当前会话中执行一个脚本
8、输出
文本输出
函数sink("filename")将输出重定向到文件filename中,若文件已经存在则替换现有文件,但是用参数append=TRUE可以将文本追加到文件后,如果使用参数split=TRUE可将输出同时发送到屏幕和输出文件中。
图形输出(因为sink()函数无法输出除文件外类型的数据,对于图片则有单独的函数)
jpeg("filename.jpg") JPEG 文件
pdf("filename.pdf") PDF 文件
png("filename.png") PNG 文件
win.metafile("filename.wmf") Windows 图元文件
最后使用dev.off()将输出返回到终端。
9、包:存储包的目录称为库(library)。函数.libPaths()能够显示库所在的位置路径,函数library()则可以显示库中有哪些包。命令help(package="package_name")可以输出某个包的简短描述以及包中的函数名称和数据集名称的列表。
10、R语言编程中的常见错误
使用了错误的大小写,因为R是一种区分大小写的解释型语言,所以大小写意义不同。
记住在某些函数内使用必要的引号;在调用函数时记的用括号,纵使函数无需参数。
在Windows上,路径名中使用了\。R将反斜杠视为一个转义字符。
没有载入这个包就使用,将会报错。
11、对于Windows批处理时,需使用:
"C:\ProgramFiles\R\R-3.1.0\bin\R.exe" CMD BATCH
➥--vanilla --slave "c:\my projects\myscript.R"
12、R可以将输出用为输入:结果的重用,即分析的输出结果可轻松保存,并作为进一步分析的输入使用。
三、创建数据集
1、R中用于存储数据的多种结构
2、向量、因子、矩阵、数据框以及列表的用法
3、涵盖了多种向R中导入数据的可行方法
4、数据集的标注问题
5、处理数据集的实用函数
1、数据集通常是由数据构成的一个矩形数组。
数据集 |
行 |
列 |
√统计学家 |
观测(observation) |
变量(variable) |
数据库分析师 |
记录(record) |
字段(field) |
数据挖掘和机器学习 |
示例(example) |
属性(attribute) |
2、数据结构,用于存储数据的对象类型,包括标量、向量、矩阵、数组、数据框和列表。
3、对象(object)是指可以赋值给变量的任何事物,包括常量、数据结构、函数,
甚至图形。可以用print()这样的泛型函数表明如何处理此对象。
4、因子(factor)是名义型变量或有序型变量。它们在R中被特殊地存储和处理。
5、标量是只含一个元素的向量,例如f<- 3、g <- "US"和h<- TRUE。它们用于保存
常量。
6、向量是用于存储数值型、字符型或逻辑型数据的一维数组。执行组合功能的函数c()可用来创建向量。【】方括号中给定元素所处位置的数值,相当于下标;冒号用于生成一个数值序列,相当于切片。(注意R语言中序号是从1开始的)。
7、矩阵是一个二维数组,只是每个元素都拥有相同的模式(数值型、字符型或逻辑型)。可通过函数matrix()创建矩阵。
a<- matrix(vector(矩阵的元素), nrow=number_of_rows(行的维数), ncol=number_of_columns(列的维数),
byrow=logical_value(矩阵应当按行填充嘛真假?,若没做出表示则默认按列填充), dimnames=list(char_vector_rownames(列表名), char_vector_colnames(列表名)))
8、数组(array)与矩阵类似,但是维度可以大于2。数组可通过array函数创建,形式如下:a <- array(vector(数组中的数据),dimensions(数值型向量), dimnames)
9、数据框是不同的列可以包含不同模式(数值型、字符型等)的数据,也是R语言中最常见的数据结构。可通过函数data.frame()创建:mydata <- data.frame(col1, col2, col3,...),其中列向量col1、col2、col3等可为任何类型(如字符型、数值型或逻辑型),但是每一列数据的模式必须唯一。每一列的名称可由函数names指定。
2020年7月22日19:14:29