R语言实战——1.4基本数据管理
基本数据管理
话不多说,直接开搞!
01
变量的重命名
创建一个数据框
方法一:fix(information),直接从交互式编辑器中修改变量的名字
方法二:通过names()函数更改名字
方法三:通过rename()函数更改名字
02
缺失值
检测是否存在缺失值:is.na(),若存在缺失值则对应的位置显示TRUE,否则显示FALSE
重编码某些值为缺失值,该缺失值的处理方法可以用于处理某些不具有意义或未知的数据
在分析中排除缺失值
如果在计算过程中存在缺失值,则结果也会出现缺失值;此时需要在分析中排除缺失值,使用函数na.rm=TRUE;此外na.omit()函数可以移除缺失值所在的行
03
日期值
按特定格式读取日期值
日期值通常以字符串的形式输入到R中,再转化为以数值形式存储的日期变量。用函数as.Date()转化,标准形式为as.Date(x,”input_format”)
表示用mm/dd/yyyy来读取数据
按特定格式输出日期
sys.Date()返回当前日期,date()返回当前的日期和时间
通过函数format(x,format=”output_format”)来输出指定格式的日期值(注意勿犯图中错误)
将日期转化为字符型变量
通过函数as.character
04
类型转换
05
数据排序
可以用order()函数对一个数据框进行排序,默认排序顺序是升序,再排序变量的前边加一个减号即可得到降序的排序结果。
将排序后的数据框赋给newdata,从结果中可以看出age数据已按大小按降序排序
06
数据集的合并
向数据框添加列
若要横向合并两个数据框,使用merge()函数;在通常情况下,两个数据框通过一个或多个共有变量进行连结
如:
total<-merge(dataframeA,dataframeB,by=c(”ID”,”Country”))
向数据框添加行
要纵向合并两个数据,使用rbind()函数;两个数据框必须拥有相同的变量,不过两者顺序不必一定相同,如dataframeA中拥有dataframeB中没有的变量,在合并前应当删去dataframeA中多余的变量或在dataframeB中添加相应的变量并将值设为NA
如:total<-rbind(dataframeA,dataframeB)
07
数据集取子集
剔除变量
方法一:若知道变量的位置,可以在某一列的下标之前加一个减号剔除该列
Newdata<-information[c(-8,-9)] 删除第八和第九个变量
方法二:将要删去的两列设为未定义(NULL)
Information$gender<-information$date<-NULL 将information数据框下的gender date两个变量从中删去
Subset()函数
Newdata<-subset(information,age>=35 | age<24,select=c(q1,q2,q3,q4))
表示选择age值大于等于35或小于24的行,保留q1 q2 q3 q4变量
随机抽样
Sample()函数能够从数据集中有放回或无放回地抽取大小为n 的一个随机样本
如:
mysample<-information[sample(1:nrow(information),3,replace=FALSE)]
第一个参数是一个由要从中抽样的元素组成的向量,第二个参数是要是抽取的元素数量,第三个表示无放回抽样
分享、在看与点赞
只要你点,我们就是胖友