R语言自动化整理医学基线统计表,需要几步?(二)
两步还嫌多,那就一步,R语言自动化整理医学基线统计表,一步之遥
划重点,一步法:
1:descrTable
子曰,‘技艺的提升,离不开一群优秀的甲方。’
感谢各位瓜客的热烈反响,看来平日里各位都有故事,能给大家节省时间小编感到荣幸的不得了。主题续上期,大方向不再赘述,错过的筒子们请翻阅上期分解。
所谓技多不压身,无论各位在哪个领域搬砖,无论是地板砖还是墙砖,搬砖之余拥有一项可以用编程快速解决问题的技能,有些时候还是可以小小的沾沾自喜一下的。
但是,哈哈,又是但是:
子曰,人怕出名猪怕壮,各位会这种高效绝招的事情甲方势必会知道,于是为了让各位不那么闲,开始有了新的要求,&*#¥%%##%……&%##¥,整理如下:
1,均数和标准差之间,只要±,不要其他,一票否决制
2,结果表格里样本量N去哪里了,去哪里了,去哪里了,灵魂三连问
3,既然表格整理对你这么轻松,甲方拷贝给了你尘封在U盘多年的文件夹,也就是十来个课题的数据,你帮着先跑一下吧,优秀如你,加油
4,......
通常上期的两步法对于一般人已经足够用了, 已然大幅节省了重复劳动的时间。但是如果批量化大规模稀里哗啦操作的话,还是费一番周折,因为上次的两步法中数据类型需要人为指定(包括正态与否,是否是分类变量,是否要用fisher exact等)。面对大规模稀里哗啦的一堆数据的时候,前期的判断准备工作还是很浪费时间的。如此,进入今天的主题,如何用更少的步骤,处理比上期要求更精细的数据,并且一步整理出医学基线统计表!
正文开始:
R语言中有很多的优秀的大神已经开发了一些Package,使用者只需要直接调用就好了。今天要一起学习的是descrTable这个function,名字依然直白
用一个例子看一下(所用数据同上期):
输入1:
# 初次使用请先安装
install.packages('compareGroups')
# 安装后调用
# 查看一下数据集
head(dt,10) # 数据集是小编随机编造的虚拟数据,可能与实际情况不符
输出1:
# A tibble: 10 x 9
性别 年龄 是否饮酒 病理类型 分化程度 ALT AST 检测 Group
<chr> <dbl> <chr> <chr> <chr> <dbl> <dbl> <dbl> <chr>
1 女 44 是 病理类型 I型 22 21 8.29 实验组
2 女 52 是 病理类型 I型 24 24 4.7 实验组
3 男 55 否 病理类型 I型 30 32.3 6.8 实验组
4 男 50 否 病理类型 I型 20 16 4.16 实验组
5 女 64 是 病理类型 I型 13 8 10 实验组
6 女 24 是 病理类型 I型 14.6 10.8 15 实验组
7 男 66 否 病理类型 I型 51.6 22.3 8.32 实验组
8 女 43 是 病理类型 I型 21 25 10.2 实验组
9 女 52 是 病理类型 I型 16 18 10.2 实验组
10 女 44 是 病理类型 I型 19.9 13.2 11.9 实验组
输入2:
library(compareGroups)
~.,
data = dt,
2, =
method = 4,
T) =
输出2:
______________________________________________________________
对照组 实验组 p.overall
N=101 N=94
¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯
性别: 0.195
男 64 (63.4%) 50 (53.2%)
女 37 (36.6%) 44 (46.8%)
年龄 55.0 [50.0;62.0] 56.0 [48.0;62.0] 0.787
是否饮酒: 0.322
否 49 (48.5%) 38 (40.4%)
是 52 (51.5%) 56 (59.6%)
病理类型: 病理类型 101 (100%) 94 (100%) .
分化程度: 0.228
III型 4 (3.96%) 7 (7.45%)
II型 14 (13.9%) 7 (7.45%)
I型 83 (82.2%) 80 (85.1%)
ALT 19.0 [16.0;23.0] 21.0 [18.0;24.4] 0.136
AST 15.0 [12.0;20.0] 20.0 [14.0;25.0] 0.003
检测 40.2 [23.0;52.8] 26.7 [15.2;48.4] 0.009
¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯
函数常用参数罗列:
descrTable(formula, # 公式,左边为分组,右边为变量
data, # 数据集
subset, # 按条件筛选子集
selec = NA, # 按条件筛选子集
method = 4, # 根据数据实际情况,自动选择统计方法
alpha = 0.05, # 显著性水平
Q1 = 0.25, Q3 = 0.75, # 默认输出p25和p75的分位数结果
show.n = T, # 显示样本量
show.ci = F, # 显示置信区间,默认是F
conf.level = 0.95, # 置信区间范围
type = 2, # 分类变量会显示频数和百分比
show.p.overall = TRUE, # 显示P值
digits.p = 3, # p值小数点位数
sd.type = 2, # 1位mean(sd),2位mean±sd
)
上述例子展示的比较常规的情况,由于这个函数的参数众多(真的很多超级多),小编摘选出来一些日常足够用的,并把对应的功能做了注解,希望大家喜欢。还是那句话,功能远不止于此,如果各位有兴趣可以查看整个package的帮助文档,https://cran.r-project.org/package=compareGroups
如需文中数据集练习,请私信
期待与各位一起进步
以上内容供学习参考,若转载请注明出处。