R语言- 创建数据集2
数据的输入
使用键盘输入数据
R中的函数edit()会自动调用一个允许手动输入数据的文本编辑器。具体步骤如下:
(1)创建一个空数据框(或矩阵),其中变量名和变量的模式需与理想中的最终数据集一致;
(2)针对这个数据对象调用文本编辑器,输入你的数据,并将结果保存回此数据对象中。
在下例中,你将创建一个名为mydata的数据框,它含有三个变量:age(数值型)、gender(字符型)和weight(数值型)。然后你将调用文本编辑器,键入数据,最后保存结果。
类似于age=numeric(0)的赋值语句将创建一个指定模式但不含实际数据的变量。注意,编辑的结果需要赋值回对象本身。函数edit()事实上是在对象的一个副本上进行操作的。如果你不将其赋值到一个目标,你的所有修改将会全部丢失!
单击列的标题,你就可以用编辑器修改变量名和变量类型(数值型、字符型)。你还可以通过单击未使用列的标题来添加新的变量。编辑器关闭后,结果会保存到之前赋值的对象中(本例中为 mydata )。再次调用 mydata <- edit(mydata),就能够编辑已经输入的数据并添加新的数据。语句mydata <- edit(mydata)的一种简捷的等价写法是fix(mydata)。
mydata <- data.frame(myID=numeric(0),age=numeric(0),gender=character(0))
mydata #创建了一个空数据框
mydata <- edit(mydata) #调用文本编辑器
mydata
mydata <- edit(mydata) #修改
fix(mydata) #修改,功能与上一步相同
从带分隔符的文本文件导入数据
你可以使用read.table()从带分隔符的文本文件中导入数据。此函数可读入一个表格格式的文件并将其保存为一个数据框。其语法如下:
其中,file是一个带分隔符的ASCII文本文件,header是一个表明首行是否包含了变量名的逻辑值(TRUE或FALSE),sep用来指定分隔数据的分隔符,row.names行标识符是一个可选参数,用以指定一个或多个表示行标识符的变量。
举个栗子:
从当前工作目录中读入了一个名为studentgrades.csv的逗号分隔文件,从文件的第一行取得了各变量名称,将变量STUDENTID指定为行标识符,最后将结果保存到了名为grades的数据框中。
请注意,参数sep允许你导入那些使用逗号以外的符号来分隔行内数据的文件。你可以使用sep="\t"读取以制表符分隔的文件。此参数的默认值为sep="",即表示分隔符可为一个或多个空格、制表符、换行符或回车符。
默认情况下,字符型变量将转换为因子。我们并不总是希望程序这样做(例如处理一个含有被调查者评论的变量时)。有许多方法可以禁止这种转换行为。其中包括设置选项stringsAsFactors=FALSE,这将停止对所有字符型变量的此种转换。另一种方法是使用选项colClasses为每一列指定一个类,例如logical(逻辑型)、numeric(数值型)、character(字符型)、factor(因子)。
函数read.table()还拥有许多微调数据导入方式的追加选项。更多详情,请参阅help(read.table)。
本章中的许多示例都是从用户计算机上已经存在的文件中导入数据。R也提供了若干种通过连接(connection)来访问数据的机制。例如,函数file()、gzfile()、bzfile()、xzfile()、unz()和url()可作为文件名参数使用。函数file()允许用户访问文件、剪贴板和C级别的标准输入。函数gzfile()、bzfile()、xzfile()和unz()允许用户读取压缩文件。函数url()能够让你通过一个含有http://、ftp://或file://的完整URL访问网络上的文件,还可以为HTTP和FTP连接指定代理。为了方便,(用""围住的)完整的URL也经常直接用来代替文件名使用。更多详情,参见help(file)。
导入Excel数据
读取一个Excel文件的最好方式,就是在Excel中将其导出为一个逗号分隔文件(csv),并使用前文描述的方式将其导入R中。在Windows系统中,你也可以使用RODBC包来访问Excel文件。电子表格的第一行应当包含变量/列的名称。
首先,下载并安装RODBC包。
这里的myfile.xls是一个Excel文件,mysheet是要从这个工作簿中读取工作表的名称,channel是一个由odbcConnectExcel()返回的RODBC连接对象,mydataframe是返回的数据框。RODBC也可用于从Microsoft Access导入数据。更多详情,参见help(RODBC)。
install.packages("RODBC")
library(RODBC)
search()
channel <- odbcConnectExcel("grade2.xls") #访问Excel文件
#channel是一个由odbcConnectExcel()返回的RODBC连接对象,只用于32位系统
grade2 <- sqlFetch(channel,"1") #"1"是要从这个工作簿中读取工作表的名称
odbcClose(channel)
grade2
help("odbcConnectExcel")
Excel2007使用了一种名为XLSX的文件格式,实质上是多个XML文件组成的压缩包。xlsx包可以用来读取这种格式的电子表格。在第一次使用此包之前请务必先下载并安装好。包中的函数read.xlsx()可将XLSX文件中的工作表导入为一个数据框。其最简单的调用格式是read.xlsx(file, n),其中file是Excel 2007工作簿的所在路径,n则为要导入的工作表序号。
举例说明,在Windows上,以下代码:
从位于C盘根目录的工作簿myworkbook.xlsx中导入了第一个工作表,并将其保存为一个数据框mydataframe。xlsx包不仅仅可以导入数据表,它还能够创建和操作XLSX文件。那些需要为R和Excel开发接口的程序员应当研究一下这个较新的包。
install.packages("xlsx")
library(xlsx) #报错
install.packages("rJava")
library(rJava)
library(xlsxjars)
Sys.setenv(JAVA_HOME="C:/Program Files (x86)/Java/jre1.8.0_211")
workbook <- "D:/Rwd/test/grade1.xlsx"
grade1 <- read.xlsx(workbook, 1)
#从工作簿grade1.xlsx中导入了第1个工作表,并将其保存为一个数据框grade1
导入SPSS数据
SPSS数据集可以通过foreign包中的函数read.spss()导入到R中,也可以使用Hmisc包中的spss.get()函数。函数spss.get()是对read. spss()的一个封装,它可以为你自动设置后者的许多参数,让整个转换过程更加简单一致,最后得到数据分析人员所期望的结果。
首先,下载并安装Hmisc包(foreign包已被默认安装):
这段代码中,mydata.sav是要导入的SPSS数据文件,use.value.labels=TRUE表示让函数将带有值标签的变量导入为R中水平对应相同的因子,mydataframe是导入后的R数据框。
处理数据对象的实用函数
输出符号分隔文本文件
可以用write.table()函数将R对象输出到符号分隔文件中。函数使用方法是:
其中x是要输出的对象,outfile是目标文件。例如,这条语句:
会将mydata数据集输出到当前目录下逗号分隔的mydata.txt文件中。用路径(例如c:/myprojects/mydata.txt)可以将输出文件保存到任何地方。用sep="\t"替换sep=",",数据就会保存到制表符分隔的文件中。默认情况下,字符串是放在引号("")中的,缺失值用NA表示。