vlambda博客
学习文章列表

R语言实战——1.4基本数据管理




基本数据管理

话不多说,直接开搞!

01

变量的重命名

创建一个数据框

方法一:fix(information),直接从交互式编辑器中修改变量的名字

R语言实战——1.4基本数据管理

方法二:通过names()函数更改名字

R语言实战——1.4基本数据管理

方法三:通过rename()函数更改名字

R语言实战——1.4基本数据管理

02

缺失值

检测是否存在缺失值:is.na(),若存在缺失值则对应的位置显示TRUE,否则显示FALSE

重编码某些值为缺失值,该缺失值的处理方法可以用于处理某些不具有意义或未知的数据

R语言实战——1.4基本数据管理

在分析中排除缺失值

如果在计算过程中存在缺失值,则结果也会出现缺失值;此时需要在分析中排除缺失值,使用函数na.rm=TRUE;此外na.omit()函数可以移除缺失值所在的行

R语言实战——1.4基本数据管理

03

日期值

按特定格式读取日期值

日期值通常以字符串的形式输入到R中,再转化为以数值形式存储的日期变量。用函数as.Date()转化,标准形式为as.Date(x,”input_format”)

R语言实战——1.4基本数据管理

表示用mm/dd/yyyy来读取数据

R语言实战——1.4基本数据管理

按特定格式输出日期

sys.Date()返回当前日期,date()返回当前的日期和时间

R语言实战——1.4基本数据管理

通过函数format(x,format=”output_format”)来输出指定格式的日期值(注意勿犯图中错误)

R语言实战——1.4基本数据管理

将日期转化为字符型变量

通过函数as.character

R语言实战——1.4基本数据管理

04

类型转换

R语言实战——1.4基本数据管理
R语言实战——1.4基本数据管理

05

数据排序

可以用order()函数对一个数据框进行排序,默认排序顺序是升序,再排序变量的前边加一个减号即可得到降序的排序结果。

R语言实战——1.4基本数据管理
R语言实战——1.4基本数据管理

将排序后的数据框赋给newdata,从结果中可以看出age数据已按大小按降序排序

06

数据集的合并

向数据框添加列

若要横向合并两个数据框,使用merge()函数;在通常情况下,两个数据框通过一个或多个共有变量进行连结

如:

total<-merge(dataframeA,dataframeB,by=c(”ID”,”Country”))

向数据框添加行

要纵向合并两个数据,使用rbind()函数;两个数据框必须拥有相同的变量,不过两者顺序不必一定相同,如dataframeA中拥有dataframeB中没有的变量,在合并前应当删去dataframeA中多余的变量或在dataframeB中添加相应的变量并将值设为NA

如:total<-rbind(dataframeA,dataframeB)

07

数据集取子集

剔除变量

方法一:若知道变量的位置,可以在某一列的下标之前加一个减号剔除该列

Newdata<-information[c(-8,-9)] 删除第八和第九个变量

方法二:将要删去的两列设为未定义(NULL)

Information$gender<-information$date<-NULL 将information数据框下的gender date两个变量从中删去

Subset()函数

Newdata<-subset(information,age>=35 | age<24,select=c(q1,q2,q3,q4))

表示选择age值大于等于35或小于24的行,保留q1 q2 q3 q4变量

随机抽样

Sample()函数能够从数据集中有放回或无放回地抽取大小为n 的一个随机样本

如:

mysample<-information[sample(1:nrow(information),3,replace=FALSE)]

第一个参数是一个由要从中抽样的元素组成的向量,第二个参数是要是抽取的元素数量,第三个表示无放回抽样

R语言实战——1.4基本数据管理

分享、在看与点赞

只要你点,我们就是胖友