所谓巧妇难为无米之炊,对于统计人士,没有资料,没有数据,再好的功夫也是白瞎;而对于临床医生,可谓坐在金矿上哭穷,坐拥大量临床病例数据,还天天发愁没数据写文章,让我们统计人士即羡慕不已,又抓狂发急。作为临床医生你肯定会说,医学系统的数据哪能用啊,杂乱无章,犬牙呲互,整理会要人命的,是的,如果可以用软件帮助整理数据呢!
很多人觉得这个说法不对,因为他们觉得数据分析的第1步是制定课题计划,有了目标再去收集数据。到了大数据时代,这种说法有些过时了。
兵马未动粮草先行。在数字化时代,没有idea的时候,我们需要先把数据库建立好,当有了idea,直接抽调数据,进行验证即可。
我们在做临床研究的时候,经常需要摘录患者的数据,包括患者的人口学数据、症状、体征、既往史、实验室检查、影像学检查、心超、造影、诊断等等。
大部分人在收集数据的时候,都是用手抄的,好一点的,会使用VBA,再好一点的医院,有自己的数据库,如果对你开放,那你直接抽取即可。
但是,大部分医院的数据库是不对你开放的,那么你还需要手抄。
手抄的缺点
1. 容易出错:刚开始抄数据的时候,比较认真,但是慢慢的,就疲乏了,极易出错,错了你也不知道错在了那里。
2. 人力物力:手抄需要耗费大量的人力、物力,需要找很多人,每天搬着电脑去工作
3. 大量时间:手抄需要耗费大量时间,短则1月,长则半年,大大延长了课题的进度
1. 速度快: 使用R语言收集数据,速度极快,
我曾经整理1000万条,花费了要880分钟,约合0.6天。并且我尝试了100次10万条数据的整理工作,在RStudio中平均需要8.8min/10万,非常稳定,如下图。
2. 准确:使用R语言进行数据整理时,不存在数据收集错误一说
3. 数据量大:使用R语言收集数据,您可以以1000万为单位来收集数据,如果您有1台电脑,那么1000万需要0.6天;如果有2台电脑同时工作,那么只需要0.3天,如果您有6台电脑同时工作,只需要0.1天。所以,您可以整理上亿条数据。
4. 简单:即使是再多的数据,您只需要点几下鼠标即可
5. 查验:如果有人对您的数据有疑问,您可以把“底单”给他看
下面,我通过使用R语言整理检验报告的例子,来展示一下具体的使用方法。
这是一个合作项目,因为不同医院系统不同,数据格式也不同,所以需要为不同医院单独书写相关代码,如果您有需要,可以联系我们。
----------------------------------------------