搜文章
推荐 原创 视频 Java开发 iOS开发 前端开发 JavaScript开发 Android开发 PHP开发 数据库 开发工具 Python开发 Kotlin开发 Ruby开发 .NET开发 服务器运维 开放平台 架构师 大数据 云计算 人工智能 开发语言 其它开发
Lambda在线 > 心血管笔记 > [EHR数据分析]2:MIMIC简介与使用权限获取

[EHR数据分析]2:MIMIC简介与使用权限获取

心血管笔记 2018-02-28

本文作者

李昱熙,北京大学第一医院心内科主治医师。


上一篇:


本文提纲

前言
MIMIC-III简介

  • MIMIC存在的问题

  • MIMIC的优势

如何获取数据权限


01
前言


在上一篇前言中,我们介绍了这一专题的背景与简单规划。也提到,我们的目的是利用EHR数据回答临床问题,推动临床研究,并最终提升医疗水平改善患者预后。但目前对EHR数据的利用还很不足,一个重要的原因是:想让“对的人”在“对的时间和场合”接触并使用“对的数据”,实在是太难了。不要说做Healthcare IT领域的公司,哪怕是那些在医院里对临床问题有兴趣有能力通过数据寻找答案的医生,接触并分析EHR数据也是非常困难的。事实上,有很多医生还停留在手动一份份查阅病例,再录入excel表格的田地。要想让信息科把数据导出给到你,在许多医院困难重重。更不用提我国EHR数据的数据质量、数据标准等诸多问题了。


俗话说,巧妇难为无米之炊,如果手头连数据都没有,就不用考虑分析利用了。不过幸好,互联网上已经有非常好的可供我们利用的资源,从这篇文章开始,大概会用2-3篇来介绍MIMIC与eICU数据集——一个可供任何人使用的、优质的开源EHR数据集。


02
MIMIC-III


https://mimic.physionet.org


MIMIC的全称是Medical Information Mart for Intensive Care,经历了几次重大的更新,目前是MIMIC-III。是由MIT的physionet实验室,BIDMC医院和飞利浦公司共同建设的针对重症监护患者的数据仓库。目前最新版是v1.4,于2016年9月更新。数据库里纳入了超过4万名重症患者翔实的医疗数据,包括基本的人口统计学信息、生命体征监测、实验室检验、药品、监护室的护理记录、静脉及泵入药物、呼吸机参数、医嘱等等信息,是能够公开获取的非常宝贵的EHR数据的代表。


笔者所在的北京大学第一医院心内科监护室(CCU)也配置了类似的数据库产品,不仅能够直接从监护仪、呼吸机、IABP等仪器设备上接入患者的实时数据;还可以与EMR系统、CDR数据平台等集成,获取实验室检验、医嘱等数据;尤其是所有静脉泵入的药品,也都以结构化的方式记录了起始时间、更改剂量时间、泵速等等;护士的重症护理记录,以及医生的交班记录也都以电子化完成。这一切后台的数据结构都与MIMIC类似,也可以给大家一个感性的认识。


[EHR数据分析]2:MIMIC简介与使用权限获取

MIMIC官网截图


不仅是涵盖的数据全面,MIMIC最难得的地方,还在于后台大量的人工努力,对数据进行了标准化的处理。其中几个我们后续还会详细介绍的数据字典表,可以让我们很方便的对诊断、药品、检验乃至生命体征项目等进行筛选、检索。


迄今为止,基于MIMIC的数据已经产出了一批高质量的研究文章,有的甚至改变了重症领域的一些诊疗决策。文章发表在NEJM、Hypertention、Crit Care这类顶尖的杂志上。具体可以查看上文官方的网站。


03
MIMIC存在的问题


当然,这一数据集也并非十全十美。MIMIC存在的几个最大的问题是:


  • 单中心。(后面要介绍的eICU则是多中心的);

  • 其中部分数据涉及两个不同系统采集来的数据,MetaVisionCareVue,这会给一些研究问题带来麻烦;

  • 只有重症监护的数据,缺少患者离开ICU回到普通病房后的一些数据。


关于MIMIC的介绍材料有很多,微信上之前也有人整理过一些类似的材料,甚至还有人开设了付费的视频课程,有兴趣的读者可以检索查看。


注:笔者这个系列文章的主要目的是后面的EHR数据分析应用,MIMIC只是作为一个支撑的数据集来源。


04
MIMIC的优势


瑕不掩瑜,说完了不足,接下来就让我们看看这个数据集的强大之处。其实个人理解,人家花费那么大人力物力建一个开源的数据库,选择ICU是非常有道理的。首先,ICU数据的颗粒度足够高,尤其physionet从信号处理起家,搭配上监护仪、呼吸机等仪器时刻不停采集的数据,最能够发挥数据的优势;其次,ICU里各类事件和结局发生率高,对样本量的要求相对就较小,否则,要建个高血压糖尿病的数据集,那得多少样本量才能得出阳性的结果啊;最后,重症监护缺乏循证医学证据,很多情况下都是靠医生的经验,而几乎很难设计RCT研究来回答问题,这时候,基于EHR数据的观察性研究就成为了最重要的手段。


总结起来,MIMIC最大的优势有如下几方面。


数据量大


如果你做过临床研究,那么就会有概念,建立一个包含如此细颗粒度的超过4万名重症患者信息的数据库是多么庞大的工作量。不算信号数据,MIMIC解压下来的csv文档加起来一共33G,包括核心的26张数据表,最常用的有:


  • chartevents: 类似护理记录大表格

  • d_*: 所有的字典都以d_开头,d_items

  • diagnoses_icd: 诊断

  • inputevents_cv/mv: 记录了入量信息,包括药品剂量、泵速等等

  • labevents: 化验单数据

  • noteevents: 病程/护理记录记录, NLP

  • outputevents: 出量信息,尿/便/引流等

  • patients: 一般信息,DOB/性别等

  • prescriptions: 药品


患者标识设计科学


与一般临床研究的CRF表设计不同,EHR数据需要识别患者不同纬度的索引信息。具体说,同一个人不同次的入院,同一次入院不同次的进入ICU,都需要区别开来。而且,在很多研究问题分析中,如果不考虑同一个患者多次入院或多次ICU所带来的偏移,很可能造成错误的结论。


所以MIMIC的任何记录,都有三个层面的患者索引:


  • SUBJECT_ID: 病人层面,类似于我们常见的病历号,代表一个患者;

  • HADM_ID: 入院层面,类似于病历流水号,国内许多EMR系统会采用病历号+入院次数的形式来表示,代表一人次的入院;

  • ICUSTAY_ID: ICU层面,代表患者的一次进入ICU。


理解清楚这些ID之间的关系是非常关键的。而且为了提高检索的速度,上面的ID都增加了数据库索引。


数据的类型与来源


MIMIC中的数据,大致分为两类:静态数据(static data)与动态数据(danamic data)。其中静态数据不会随着时间发生改变,例如性别(GENDER),出生日期(DOB),死亡日期(DOD),入院日期,出院日期,入院类别,入ICU时间,出ICU时间等等;而动态数据则会发生变化,例如药品、化验、出入量、监护仪记录的生命体征、呼吸机参数等。


因此,在后续数据处理与分析时,可能会面临大量的将多个数据总结归纳至一个数据的情况。举个最简单的例子,一个患者一次ICU期间可能记录了1000条收缩压的数据,但最终的研究数据分析中,我们只需要一个患者一个收缩压的数据,这个数据可以是平均值,也可以是距离某个时间点最近一次的数值。类似的工作不可能由手工来完成,后续我们会提供工具和算法,如何批量的进行类似的数据处理。


而MIMIC的数据来源主要有三个方面:(1)医院的信息系统:医院的信息系统并不仅仅为ICU提供服务,MIMIC会从中批量获取数据,例如检验数据来源于LIS,医嘱的数据来源于CPOE等;(2)ICU的信息系统:上文提到过的北大医院CCU的系统就是此类,MIMIC中涉及到的两个ICU系统分别是MetaVision和CareVue;(3)外部数据:MIMIC还有一个很强大的地方在于,它利用患者的社会安全码(SSN)与外部数据匹配,可以知道其中患者出院后一段时间内是否死亡的终点数据,类似于我国公安与户口系统中的数据,经过身份证匹配后提供给医院一样。


去隐私化(de-identification)


国内EHR数据应用之所以困难重重的另一个原因,在于患者隐私无法得到良好的保护。一方面,国家没有专门的、具有可操作性的立法;另一方面,无论是医疗机构,还是科研机构,都缺乏对中文EHR数据去标识化的理念与能力。在一个个人隐私满天飞被随意买卖的时代,要想让EHR数据分析应用健康的发展,形成完善的中文去隐私化算法并将其普遍应用非常重要。


英文EHR数据的去隐私化研究已经开展了很多年,著名的i2b2评测竞赛最早的任务就是比谁的去隐私化算法做的最好。国内相关的研究也已经开展,在医学研究方法学、伦理以及隐私保护日益完善的背景下,相信未来我国也会形成良好的学术氛围与环境。总的来说,MIMIC一般化的患者隐私保护在HIPAA法案的强制要求下做的非常好,否则也根本不可能做到开源。不仅如此,因为ICU患者可能存在较为特殊的病例,为了杜绝从数据指向某个个人,数据库中还对所有的时间进行了随机化漂移,对于一个患者自身来说,其所有的时间是一致的(相对于DOB而言),但从外部来看,时间都是经过漂移处理的。所以当接触到数据之后,我们会看到诸如2196-05-09这样的日期。


[EHR数据分析]2:MIMIC简介与使用权限获取

MIMIC中时间的例子


05
如何获取权限


考虑到数据权限的申请需要一定的时间周期,所以我们下一篇文章再说eICU,先介绍一下如何申请数据集的权限。


虽说的开源的数据集,但使用也是有条件的。整体看来,申请获取权限的过程还是比较简单的。


完成必须的在线培训课程


在申请数据权限之前,需要在线完成CITI的Data or Specimens Only Research课程,主要是关于临床数据研究的伦理学等基本问题。每一章节会有阅读材料,之后有测试题目,完成阅读材料并达到一定准确率获取足够学分,才能够完成在线课程。具体步骤如下:


  1. 在CITI网站上注册,选择“Massachusetts Institute of Technology Affiliates”并将其作为organization affiliation: https://www.citiprogram.org/index.cfm?pageID=154&icat=0&ac=0

  2. 根据链接提示添加课程,在Human Subjects training的目录中, 选择“Data or Specimens Only Research”这门课程;

  3. 完成课程与测试,并保存完成报告。最终的报告会包含所有的模块、日期以及分数。一共8讲内容,其中7个后面有小测验。总分需要达到90分才算合格。


笔者的完成报告


之后,就可以在线申请MIMIC与eICU数据库的使用权限了。


  1. 在PhysioNet上创建账户并登陆(https://physionet.org/pnw/login)。

  2. 按照网站上提供的指示,申请MIMIC-III的使用权限,别忘了需要提供上一步的CITI课程报告。(https://physionet.org/works/MIMICIIIClinicalDatabase/access.shtml)

  3. 申请的时候需要填写一些基本的信息,如果可能,最好使用机构的邮箱后缀,例如@xx.edu.cn之类。另外,管理者会对申请人的资质进行审核,所以如果你有公开的网上介绍页面,可以提供,或者提供导师等的信息,之后会有专人发邮件来征求意见。

  4. 数据申请的周期会因人而异,如果申请表数据填写有不完善的,可能会耽误进度。我当年申请后第三天就收到了授权的邮件,但也遇到有人经历了1-2周的时间才拿到授权。


最后要强调一点,MIMIC的授权只是针对个人的。因此我们谁都无权把自己的账号以及下载的数据库文件提供给第三方,这一点非常重要,尤其对于维护中国在整个学术领域的声誉方面,请大家一定切记切记。


下期预告


下一篇文章,我们会介绍eICU。以及MIMIC和eICU最重要的几个数据表。敬请期待。


如果各位读者遇到任何问题,欢迎大家在下方留言,我们会邀请作者解答申请权限中可能遇到的问题。任何意见建议也请留言告诉我们。





既往HIT文章推荐:




版权声明:本站内容全部来自于腾讯微信公众号,属第三方自助推荐收录。《[EHR数据分析]2:MIMIC简介与使用权限获取》的版权归原作者「心血管笔记」所有,文章言论观点不代表Lambda在线的观点, Lambda在线不承担任何法律责任。如需删除可联系QQ:516101458

文章来源: 阅读原文

相关阅读