vlambda博客
学习文章列表

R语言系列X7:临床数据收集:告别手抄

导读
    所谓巧妇难为无米之炊,对于统计人士,没有资料,没有数据,再好的功夫也是白瞎;而对于临床医生,可谓坐在金矿上哭穷,坐拥大量临床病例数据,还天天发愁没数据写文章,让我们统计人士即羡慕不已,又抓狂发急。作为临床医生你肯定会说,医学系统的数据哪能用啊,杂乱无章,犬牙呲互,整理会要人命的,是的,如果可以用软件帮助整理数据呢!

数据收集重要性




    数据分析的第1步是 数据收集。
    很多人觉得这个说法不对,因为他们觉得数据分析的第1步是制定课题计划,有了目标再去收集数据。到了大数据时代,这种说法有些过时了。
    兵马未动粮草先行。在数字化时代,没有idea的时候,我们需要先把数据库建立好,当有了idea,直接抽调数据,进行验证即可。
     这个就是数据收集的重要性。


数据收集不手抄




    我们在做临床研究的时候,经常需要摘录患者的数据,包括患者的人口学数据、症状、体征、既往史、实验室检查、影像学检查、心超、造影、诊断等等。


    大部分人在收集数据的时候,都是用手抄的,好一点的,会使用VBA,再好一点的医院,有自己的数据库,如果对你开放,那你直接抽取即可。

    但是,大部分医院的数据库是不对你开放的,那么你还需要手抄。


手抄的缺点

1. 容易出错:刚开始抄数据的时候,比较认真,但是慢慢的,就疲乏了,极易出错,错了你也不知道错在了那里。

2. 人力物力:手抄需要耗费大量的人力、物力,需要找很多人,每天搬着电脑去工作

3. 大量时间:手抄需要耗费大量时间,短则1月,长则半年,大大延长了课题的进度


R语言数据收集




    为什么使用R语言收集数据呢?
1. 速度快: 使用R语言收集数据,速度极快, 我曾经整理1000万条,花费了要880分钟,约合0.6天。并且我尝试了100次10万条数据的整理工作,在RStudio中平均需要8.8min/10万,非常稳定,如下图。



2. 准确:使用R语言进行数据整理时,不存在数据收集错误一说
3. 数据量大:使用R语言收集数据,您可以以1000万为单位来收集数据,如果您有1台电脑,那么1000万需要0.6天;如果有2台电脑同时工作,那么只需要0.3天,如果您有6台电脑同时工作,只需要0.1天。所以,您可以整理上亿条数据。
4. 简单:即使是再多的数据,您只需要点几下鼠标即可
5. 查验:如果有人对您的数据有疑问,您可以把“底单”给他看
6. 可重复:使用R整理数据,可以重复很无限多次
7. 长久保存:数据保存在自己电脑了,踏实啊!


案例走起




下面,我通过使用R语言整理检验报告的例子,来展示一下具体的使用方法。

R语言系列X7:临床数据收集:告别手抄

合作才是王道




    这是一个合作项目,因为不同医院系统不同,数据格式也不同,所以需要为不同医院单独书写相关代码,如果您有需要,可以联系我们。


---整理不易,感谢点亮再看---
---R语言系列---






----------------------------------------------

精鼎特邀