今天给大家介绍由太平洋路德大学计算机科学系Kyle Hippe,等人发表在第11届ACM生物信息学、计算生物学和健康信息学国际会议中的一篇文章,“ProLanGO2: Protein Function Prediction with Ensemble of Encoder-Decoder Networks”。文章介绍了ProLanGO2方法,该方法只使用蛋白质序列作为输入,利用自然语言处理和机器学习技术进行蛋白质功能预测。并与其他几种蛋白质功能预测方法进行了比较,结果表明,本文提出的方法ProLanGO2在基于序列的蛋白质功能预测方法中取得了很好的性能。1、背景在不进行生物实验的情况下,从序列中准确有效地预测蛋白质的功能一直是计算生物学领域的主要挑战,这将使我们能够更清楚地了解蛋白质的作用。在生物医学和医药领域,蛋白质功能有广泛的应用,如药物发现。一个准确的蛋白质功能预测方法可以帮助人们从不断增加的未注释的蛋白质序列中了解蛋白质的未知特性。传统的预测蛋白质功能方法通常分为四类:基于同源的方法,基于网络的方法,基于信息的方法和基于序列的方法。基于同源性的方法包括搜索蛋白质序列数据库,以确定相似的序列和基于相似性的转移函数,当数据库中存在大量与查询序列同源的数据时,这种方法效果很好,但当相似性低或不存在时,这种方法的效果可能很差。PANNZER2是最先进的基于同源性的方法,使用同源性搜索对现有数据库进行加权K近邻分类来预测蛋白质功能。基于网络的方法是解决蛋白质功能预测问题的另一种方法。这些方法不是在数据库中搜索基于序列的相似性,而是使用蛋白质-蛋白质相互作用网络或其他关联网络来预测蛋白质功能。NetGO 2.0是基于网络的先进预测模型,它利用大量的物种数据创建了一个庞大的蛋白质-蛋白质相互作用网络,可以在CAFA3数据中成功预测蛋白质功能。基于信息的方法采用其他生物信息深入探究蛋白质的功能。如SUPERFAMILY 2.0利用隐马尔可夫模型来搜索蛋白质结构域,以确定结构的相似性并进行功能预测。基于序列的方法是使用机器学习对蛋白质序列进行特征提取,使用提取出的特征进行蛋白质功能分类。本文提出了一种新的方法ProLanGO2,它是纯粹的基于的蛋白质序列的方法,该方法不搜索蛋白质数据库或其他额外特征。其主要思想是生成一个新的蛋白质序列表示,并将蛋白质功能视为一种带有 "单词 "的语言,将蛋白质功能预测问题转化为语言翻译问题,最后将其转换为基因本体(Gene Ontology,GO)术语,用于蛋白质功能预测。 2、数据集与数据处理首先确定蛋白质序列语言ProLan。将ProLan与人类语言类比,那么一个蛋白质序列,将由单词组成。把一个单词定义为一个k-mers。k-mers是一个来自蛋白质序列的氨基酸子序列,长度从3到7不等。由于计算资源的限制,作者没有测试长度大于7的k-mers。作者从2019_11版本的UniProt数据库中提取了前2000个最频繁的k-mers,并建立了一个片段序列数据库(FSD)。这个片段序列数据库构成了ProLan,被用作训练的输入词。之后作者从FSD中过滤掉不包含任何k-mers的序列,最后提取了535,686条蛋白质序列。其次确定蛋白质功能语言GOLan。为了做到这一点,需要用某种方式将基因本体术语表示为唯一的字符串标识符。基因本体的GO术语是以有向无环图的形式来表示的。该图被进一步划分为3个子树,分别是生物过程(BP)、分子功能(MF)、细胞成分(CC)。首先通过对每个GO子树进行深度优先搜索,将树中的GO术语表示为十进制索引,之后转换为长度小于4的字符串,这就是GOLan。3、模型