今天跟大家分享的是十一月份发表在BMC Genomics杂志上的一篇文章,主要是基于lncRNA的支持向量机模型对胃癌患者的MSI表型进行预测。支持向量机是传统机器学习中一个非常重要的分类算法,表现优越,应用广泛,效能强大。即使是在深度学习(2012)被广泛应用的今天,也没有完全落实。
A gastric cancer LncRNAs model for MSI and survival prediction based on support vector machine
基于lncRNA的支持向量机模型对胃癌患者的MSI表型和预后进行评估
lncRNA通过表观遗传调控、转录调控等方面参与细胞增殖、分化等多种生物学过程,在诱导肿瘤发生过程中起着至关重要的作用。微卫星不稳定性(MSI)被认为是PD-1/PD-L1单克隆抗体治疗的生物标志物。本研究目的是基于TCGA中胃腺癌lncRNA表达数据,通过支持向量机(SVM)建立lncRNAs的MSI分类模型,最终识别出16个可以用于MSI状态预测的lncRNAs标志。lncRNAs与MSI状态的相关性提示了lncRNAs在胃癌免疫治疗中的潜在作用。本研究流程图如下所示。
从公开的TANRIC数据库中下载胃腺癌的lncRNAs数据,其中包含285个肿瘤样本和33个正常样本的12727个lncRNAs信息。临床资料来源于TCGA数据库,MSI信息来源于
R包TCGAbiolinks,
只保留有MSI-PCR信息的134例患者。这些患者以7:3的比例被随机分配到训练数据和验证数据中,训练数据包括94例样本,验证数据包括40例样本。
基于主成分分析(PCA)算法识别能反映整体数据95%信息的特征,然后通过SVM算法进行数据分类以及函数逼近(matlab包LIBSVM),在10倍交叉验证的基础上确定惩罚系数C(C=2)以及参数γ(γ=0.0884)。
通过Relief算法识别每个lncRNAs在特征选择过程中的权重,权重排序如图2所示。从特征权重最高的lncRNAs开始,依次向模型中加入特征权重第二高的lncRNAs。研究者发现,当加入到第16个lncRNAs时,特征子集的AUC值已经达到一个较高的水平。即使再添加新特征,AUC值也变化不大。因此,考虑到模型的复杂性,选择这16个lncRNAs作为最优特征,16个lncRNAs信息如表1所示。
图2.基于向前选择算法(RFS)进行特征选择的权重排序
lncrna在癌症的发病机制中起着至关重要的作用,其功能异常与癌症的发生发展密切相关,通过对这16个lncRNA与体细胞突变之间的相关分析,研究者们发现这16个lncRNA与体细胞突变之间存在很强的相关性,进一步证明,本研究的识别出的这16个lncRNAs在癌症作用机制上存在重要意义。
表
1.
与训练数据中
MSI显著相关的lncRNAs
lncRNAs模型在训练数据中的AUC为0.976,在验证队列中的AUC为0.950 (图3)。分类准确性还是不错的。另外,样本2、3、5年的AUC分别为0.620、0.800和0.779图4)。
图3.基于lncRNAs模型绘制训练数据和验证数据的ROC曲线
接着,根据lncRNAs模型打分进行样本分类(阈值:DFS, 0.089;OS,0.183),将样本分成高低分数两组。如图5所示,在临床I-III期样本中,与低得分患者相比,分数较高的患者有更长的无病生存时间 (P = 0.011)。然而,I-IV期得分较低的患者有更长的总体生存时间 (P = 0.028)(图5)。
图5.基于lncRNAs模型打分进行生存分析(I-III期的样本DFS, I-IV期样本的OS)
本研究主要关注lncRNAs与MSI之间的相关性,提出了16个具有MSI预测价值的特征lncRNAs。此外,本lncRNAs模型有可能成为预测胃腺癌预后的潜在标志物。
今天的文献解读到这里就结束了,不知道小伙伴们掌握的怎么样呢。支持向量机是一种简单又强大的分类算法,同学们可以利用空闲的时间学习下,技多不压身,总会有用到那一天的嘛!最近天气寒冷,
流感也逐渐进入高发期,大家一定要记得做好预防工作,不要被小小的流感阻挡努力科研的步伐哦。
欢迎关注生信人
| | || | | value
| | | | |
| | | |
| | | | | |