vlambda博客
学习文章列表

分子优化的通用型机器学习框架

先导化合物的性质优化向来是药物研发过程中一个老大难的问题,人们既希望获得出色的靶点亲和力,又希望成药性相关的选择性、溶解性、毒性等各方面性质无一短板,每一项都不是简单的任务,联合起来就变得更为复杂。因此,真实的先导分子优化历程往往是“顾此失彼”,即使耗时耗力还不一定能获得理想的分子结构。面对这一行业难题,来自美国 IBM 研究中心的 Payel Das 团队提出了一种分子优化的通用型机器学习框架 (QMO) ,像机械的关键通用零件一般可以与其他算法工具相互兼容,优化性能极佳,相关工作发表在 Nature Machine Intelligence 期刊上 (Nature Machine Intelligence, 2022, 4(1): 21-31)
分子优化的通用型机器学习框架
-1 QMO 框架的架构示意
设计思路方面, QMO 沿用了热门的机器学习思想 ,优点是可以从领域知识和生物大数据两方面获取有效信息,特别适合解决复杂的问题。具体的架构如 -1 所示, QMO 首先需要一个自编码器来编译分子,因为真实世界中的化合物结构空间过于庞大,通常被认为有多达 10^60 种可能,这里的自编码器可以将其压缩成低维且连续的空间,方便迭代过程中的结构采样工作。然后,研究者为自编码器的结构输出连接了自由的性质预测模块,用户可以按需接入各种成熟的算法工具,例如常用的有亲和力预测,成药性预测,和结构相似性预测等。而预测的结果会为 QMO 提供反馈,需要指出的是,这里一大特色是选取了零阶优化算法将预测反馈与自编码器组成框架的迭代闭环,不同于以往基于微分的优化思路,基于差分的零阶优化算法更加适合于处理非连续的数据类型,像化学分子的 SMILES 表示或者多肽的序列表示就是这样的类型。
-2 先导化合物优化结果示意, a c 为先导化合物的预测结合模式与分子结构, b d 为优化候选分子的预测结合模式与分子结构。
测评阶段, QMO 首先在成药性与油 - (Log P) 分配系数优化的常规比较任务上与其他方法竞争,这里的评判结果是由成熟预测算法或软件计算完成。不出所料, QMO 显著优于其他经典方法,如成药性优化成功率高出第二名 DESMILES 算法 15 个百分点。

接着,为了更好地反映QMO在真实分子优化任务上的表现,研究者设置了两项前沿挑战任务-新冠病毒抑制剂亲和力优化与抗菌肽毒性改善。前一项挑战的结果如-2所示,以活性老药双嘧达莫为优化起点,QMO给出的候选结构大幅提高了预测活性(pIC50, 3.94 7.59),且结构保持了较高的相似度,Autodock Vina对接软件预测的结合位点也基本保持一致。后一项任务中,QMO优化后的抗菌肽疏水性质降低,这与已报道的多肽高疏水性易致使细胞毒性与溶血毒性的结论相呼应,表明整体的优化表现也较好。

-3 优化轨迹可视化
最后,研究者还对算法优化轨迹进行了可视化,如 -3 所示,左图中的黑点是先导分子,红点为优化结果,紫线是迭代轨迹,预先设置的活性阈值以蓝色横线表示,相似度高低以蓝绿的色度变化表示。右图则是给出了具体的迭代结构,红色部分是与先导化合物完全相同的部分。从上我们可以观察到算法有意思的摸索过程,一步一步最终满足了预设的分子性质要求。
【小结】在这项研究中,作者设计出了一套通用型的优化算法框架,打通了领域专业的分子性质预测工具与机器学习分子生成算法之间的隔阂,最终实现了优化性能的显著提升。该算法框架的相关代码也已开源,期待该工作为解决分子优化问题提供有力的技术支持。
参考文献
1 Hoffman, S. C., Chenthamarakshan, V., Wadhawan, K.,Chen, P. Y., & Das, P. Optimizing molecules using efficient queries from property evaluations. Nature Machine Intelligence. 2022, 4(1), 21-31.  doi.org/10.1038/s42256-021-00422-y