马剑竹 | 利用细胞网络模型解释基因变异
4月29日上午,清华大学智能产业研究院(AIR)成功举办以“AI赋能基因分析与新药发现”为主题的学术工作坊。本次活动邀请到彭健、唐建、晋向前、曾坚阳、马剑竹五位海内外知名学者及产业界人士参加,就AI在医药、基因、医疗等方向展开探索交流。
彭 健:结构性和功能性基因组学的机器学习算法
唐 建:基于图表示学习的新药发现
晋向前:基因即因,未来已来
曾坚阳:基于机器智能的分子识别模式解析
马剑竹:利用细胞网络模型解释基因变异
AIR学术工作坊是AIR定期举办的中大型学术交流研讨活动,旨在提供一个学术交流、思想碰撞的平台,实现信息共享。
讲者介绍
马剑竹,现担任北京大学人工智能研究院副教授,此前曾任美国普渡大学(Purdue University)生物化学系、计算机系助理教授。马博士是机器学习领域的计算机专家,主要研究科学、医学及卫生领域中数据带来的挑战。马博士曾发表多篇生物医学应用相关论文(收录于《Nature Methods》《Nature Cancer》 《Cell》《Nature Communications》 《PNAS》等),其论文、发言、海报及研究曾在RECOMB、ISMB等顶级会议中获奖。
报告内容
癌症是因为基因突变的累积导致的,且基因突变是具有不确定性的,那么如何找到与癌症相关的突变基因之间的组合方式?我们在生物网络上使用图神经网络的方法,给出一种探寻突变基因组合方式的方案,可应用于对癌症进行更好的亚型分类。另外,神经网络在药物疗效预测方面也发挥着重要作用,我们提出了一种简单有效的可解释框架来解释神经网络,可以更好地支持临床研究。
1.使用生物网络来理解癌症的异构性
马剑竹教授开场用很简洁的语言,描述了癌症发生的机理:癌症大概就是细胞疯狂增殖的一个过程,被基因突变所驱动。癌症是一个快速进化的过程,实际和我们人体或者说从达尔文的进化观点来说是很相似的,因为人的进化也是被基因突变所驱动的。我们日常生活中,受到紫外线照射或者是吃到不好的东西,都会积累一些基因突变,当基因突变积累到一定程度的时候,就会触发癌症,然后癌细胞会向着一个疯狂增殖的方向去发展,癌细胞生长越快又会积累更多的突变,然后最后在某一个程度,细胞的黏连会发生问题,癌细胞会随着血液循环、淋巴系统循环到身体的各个部位,造成癌症的转移。
癌症难以治疗的原因为不同病人的基因突变是杂乱无章的。少数基因的突变数量比较多,人群中大部分基因的突变数量比较少,这说明癌症是一个系统性的疾病,大部分癌症产生的原因可能是,群体中突变数量非常少的基因一起突变导致的。
不同癌症病人的基因突变不一致,因此很难发现这些突变之间的联系,但可以通过探索突变的这些基因之间的合作方式,使用生物网络扩大这些信号,再使用过滤等方式,得到这些突变的相似之处,进而对病人进行有意义的分类。
具体的,马剑竹教授团队提出使用生物网络作为肿瘤异质性的解决方案,使用机器学习方法对病人进行分类。生物网络可以看作是基因之间的合作网络,不同基因是通过合作的方式完成某种活动,只要基因间有合作,就在基因之间连接一条边,得到基因网络。基因网络中有些区域基因的交互比较密集,说明这些基因可能合作起来完成一项生物功能。
团队提出假设,两个有不同突变的病人可能共享基因网络中同一部分区域。基于假设,提出如下解决方案:正如下面的基因网络中,通过网络传播(随机游走)的方法,对原始网络(左图)做一下平滑。在平滑后的两组病人的基因网络图(右图)中,可以看到最终出现两个方块区域,可以认为第一块中的基因与第一类病人相关,另一块中的基因与第二类病人相关。
一个关键的问题是如何找到癌症相关的基因的组合方式,马剑竹教授团队发现癌症的突变是有互斥性的,每组病人可能都会在某一基因上发生突变,但是不会在其他基因上也出现一致的突变,左图中可以看到分布是一节一节的。
导致基因突变互斥性出现的原因主要有两方面,一是合成致死,也就是说,单一的突变不会影响癌细胞某项生物功能的正常执行,癌细胞依然可以存活,但是当某两种基因突变同时发生时,会导致癌细胞的该功能不能正常执行,因此癌细胞就会死亡。原因二是功能具有冗余性,只有当每一个功能都出现一些变异才会导致最终癌症的发生。多种突变作用在同一功能上可能不会导致癌症的产生,可能会导致其他的疾病,而作用于多种功能才更有可能导致癌症的发生。所以同一功能不太可能获得多种突变,否则会造成突变的浪费。反过来说,满足互斥性的基因突变,才表明它们可能作用于同一种功能。
进而马剑竹教授团队在开始提出的基因网络的基础上提出修改方案,先找到突变互斥的基因,将这一部分网络取出来,用这个很小的网络做网络平滑,得到右边的图,再对病人进行分类,确定病人属于哪种亚型,或者是属于某种新的亚型。
修改后的网络平滑方法,相比之前的方法在聚类表现上有更有意义的表现。如下图中右边所得到的某种癌症的三类亚型分类分得越开,在病人存活时间等指标上统计性越显著,证明提出方法的分类越正确。
2.基于神经网络可解释性的新癌症治疗预测
直接使用神经网络预测药物疗效是黑盒的,马剑竹教授团队提出一种简单的可解释的方法解释网络的作用。他们提出在训练数据里找出一些重要的病人样本(选择重要的行),同时也找出重要的致病基因(选择重要的列),来对最终网络的预测结果进行解释。
具体地,处理新的预测样本时,使用训练集合中样本在神经网络最后一层的特征的线性组合来解释网络最终的预测结果。
找到重要的样本和特征之后,马剑竹教授团队通过图神经网络的方法证明所找到样本之间存在依赖关系,验证找到的这些样本的正确性。
下图中,将所有药物按照药物的表现分为5种,使用基于样本依赖关系的图神经网络方法进行结果预测,对比使用原来的神经网络进行预测,发现图神经网络的方法使用非常少的连边的情况下就可以提高原来神经网络的预测。说明癌症训练样本分布比较不同,找到其中关键的样本而不是使用所有样本进行对测试结果进行预测是有帮助的。
精彩回顾
以下为马剑竹教授讲座完整视频
精彩内容点击回放
撰文 / 郝长盈
编辑排版 / 冼晓晴
校对责编 / 黄妍
关于AIR
往期精彩: