搜文章
推荐 原创 视频 Java开发 iOS开发 前端开发 JavaScript开发 Android开发 PHP开发 数据库 开发工具 Python开发 Kotlin开发 Ruby开发 .NET开发 服务器运维 开放平台 架构师 大数据 云计算 人工智能 开发语言 其它开发
Lambda在线 > 生信草堂 > GWAS + 公共数据库 = Nature ???

GWAS + 公共数据库 = Nature ???

生信草堂 2017-11-28

生信草堂

号外,号外,号外

你想和生信分析大神做好朋友么?

你想认识更多爱好生信分析的小伙伴么?

你想让自己的生信分析走上快车道么?

添加我们的微信bioinformatics88为好友

标注“加入生信草堂交流群

在群里请大家注明自己本名,单位,研究领域

便于小编管理


导  读
GWAS + 公共数据库 = Nature ???

是的,你没看错。GWAS这个似乎快过时的研究领域又一次登上了Nature正刊,特别是作者只是做了很少的实验验证的情况下,虽然只是以一篇letter的形式刊登,但丝毫不掩其对科学发展的价值。那么,这篇文章究竟做了些什么得以在Nature上发表呢,下面我们就一起来分析分析。

本文研究的表型是乳腺癌。大家也许会吐槽,这个表型不是早就研究的很透彻了吗?不就是BRCA1基因突变占主要作用吗?居然还能再发Nature。我初看标题的时候也是这样认为的,但读了摘要之后我就改变了自己看法,认真地读完了正文。

摘  要

作者提到虽然现有的遗传学研究表明乳腺癌致病风险通常受到稀有编码区遗传变异,如BRCA1基因,和许多非编码区常见变异影响,但是还有很多遗传贡献还不为人知。本文中,作者用来自欧洲(122,977 cases, 105,974 control)和亚洲(14,068 cases, 13,104 control)的乳腺癌疾病和对照样本进行全基因组关联分析(GWAS)研究,找到了65个之前未报道的与乳腺癌显著相关的遗传位点。为了进一步研究这些在统计意义上关联的位点的潜在生物学功能,作者整合了大量表观遗传数据,包括:基于ChIA-PETHi-C的染色质交互数据,基于生物信息学预测的增强子-靶基因数据,胸腺组织中表达性状位点(eQTL)数据,基于ChIP-seq的转录因子结合结构域数据以及基于RNA-Seq的胸腺组织表达数据。根据这些数据与GWAS显著位点的位置关系,作者鉴定出689个可信易感基因,并发现这些基因与乳腺癌驱动基因集(147个)具有高度富集关系。此外,研究人员还发现单核苷酸多态性位点的遗传力显著富集在乳腺细胞中转录因子结合位点上。综上所述,这篇Nature文章整合GWAS和大量基因调控数据,找到乳腺癌疾病潜在的调控机制。


1GWAS研究

研究人员首先对欧洲和亚洲样本分别进行GWAS研究,采用高密度基因芯片加imputation的方法,一共纳入1100万SNPs。他们先对已经发表的结果进行验证,发现之前报道的102个显著位点中,94个达到显著水平(P<0.05),其中有49个P值小于5×10-8。作者的新发现同样引人注目,他们在65个区域内找到5969个SNPs与乳腺癌的相关性小于5×10-8, 其中9个在亚洲人中得到验证(图1)。

图1:GWAS分析曼哈顿图。a) 全部位点关联分析结果;b) 去除掉之前已报道位点的结果。

GWAS + 公共数据库 = Nature ???


2可信风险位点(credible risk variants, CRVs)

接下来,作者试图从GWAS结果中挑选出可信的风险位点(credible risk variants, CRVs)。他们规定距离GWAS最显著SNP 500kb以内且P值不小于其两个数量级的SNP为CRV。这样,在65个显著区域内鉴定出2221个CRVs。这些CRVs显著富集在CTCF沉默的MCF7细胞的DNase hypersensitivity位点以及一些转录因子结合位点上(图2)。

图2:CRVs与genomic feature的富集分析

GWAS + 公共数据库 = Nature ???


3INQUISIT基因筛选系统

仅仅定义了CRV还不够,作者是想找出那些真正具有潜在的生物学功能的SNPs或者基因。于是,他们开发了一个叫做Integrated expression quantitative trait and in silico prediction of GWAS targets, (INQUISIT)的基因筛选系统,结合多种维度的基因组数据来描述调控关系,包括:基于ChiA-PET和Hi-C技术的染色质相互作用数据;人乳腺癌细胞系中基于Chip-seq的转录因子数据;基于生物信息学预测的增强子-靶基因数据;TCGA中乳腺癌eQTL数据;Topologically associated domain (TAD) boundaries;乳腺癌细胞以及对应的癌旁组织的基因表达数据,通过CRVs与这些调控区域的位置是否重叠进行打分,筛选出目标基因。不得不说,作者能整合这么多数据来探究SNP的功能可见功夫了得。

最终,作者鉴定出689个潜在功能基因,并且发现这些基因显著富集在147个乳腺癌驱动基因集上。通路分析发现这些潜在功能基因富集在生长和发育有关的分子通路中,特别是纤维原细胞生长因子通路,血小板生长因子通路以及Wnt信号通路(图3)。

图3:pathway富集分析结果

GWAS + 公共数据库 = Nature ???


4遗传力在不同细胞类型和调控元件上的分布

为了更加全局性地研究基因组调控元件对乳腺癌遗传风险的贡献,作者用LD score regression方法估算关联SNP在不同调控区的遗传力分布。他们发现SNP的遗传力显著富集在转录因子结合位点上。此外,他们还观察到胸肌上皮细胞中H3K4mel组蛋白marker有很强的遗传富集(图4)。

图4:遗传力在乳腺组织中3个组蛋白标记上的富集情况

GWAS + 公共数据库 = Nature ???


5荧光素酶报告基因和3C实验验证SNP对启动子获得影响

最后,作者对4个具有潜在调控作用的区域进行实验验证。通过INQUISIT预测,这四个位点可能影响目标基因启动子活性或者影响染色质构象以调控顺式作用元件和其目标基因的结合。基于以上理论,作者分别设计了荧光报告基因实验以及3C实验,证明rs2992756的T-allele降低KLHDC7A启动子的活性以及包含遗传位点rs6979850的染色质区段与CUX1基因启动子区域具有相互作用(图5)。

图5:a,b) 荧光素酶报告实验;c) 3C实验

GWAS + 公共数据库 = Nature ???

GWAS + 公共数据库 = Nature ???


总  结
最后,我们来谈谈这篇文章给了怎么样的启发。首先,作者利用大样本的GWAS发现了众多新的乳腺癌易感位点,这一点我们可能没法达到。但接下来整合各种已有的染色质调控数据库却值得学习。作者不光关注GWAS统计P值,而是结合显著SNP的位置以及其可能的调控机制研究生物学意义。如果学会了这样整合数据库,就能充分了解SNP潜在的功能,就能在不进行实验室的工作之前确定GWAS找到的SNP是否值得继续研究下去,进而缩小目标位点,帮助我们尽快找到真正有意义的东西。
参考文献

Dwek, M. and Presneau, Nadège (2017) Association analysis identifies 65 new breast cancer risk loci. Nature. ISSN 0028-0836


GWAS + 公共数据库 = Nature ???GWAS + 公共数据库 = Nature ???转发后截屏发送后台,小编送上原文献的链接和密码,可自行下载


猜你喜欢
GWAS + 公共数据库 = Nature ???








GWAS + 公共数据库 = Nature ???





版权声明:本站内容全部来自于腾讯微信公众号,属第三方自助推荐收录。《GWAS + 公共数据库 = Nature ???》的版权归原作者「生信草堂」所有,文章言论观点不代表Lambda在线的观点, Lambda在线不承担任何法律责任。如需删除可联系QQ:516101458

文章来源: 阅读原文

相关阅读

关注生信草堂微信公众号

生信草堂微信公众号:gh_e4df2502e18c

生信草堂

手机扫描上方二维码即可关注生信草堂微信公众号

生信草堂最新文章

精品公众号随机推荐