天天看点

刘琦开发大规模小分子预训练模型“X-MOL”,助力AI药物分子设计

作者:BioArtMED
刘琦开发大规模小分子预训练模型“X-MOL”,助力AI药物分子设计

基于AI的药物小分子设计加速了药物研发的进程,是近期药物研发领域的重要研究方向。对于小分子的有效表征和理解是AI药物设计的核心问题。虽然领域内各种AI模型层出不穷,但尚缺乏普适的计算框架,可以将小分子的生成、优化、属性预测以及小分子相互作用等各种单独任务进行统一建模。

近日,同济大学生命科学与技术学院生物信息学系、同济大学-上海自主智能无人系统科学中心刘琦教授课题组与百度自然语言处理组在Science Bulletin上联合发表了题为X-MOL: Large-scale pre-training for molecular understanding and diverse molecular analysis的论文,发布了大规模小分子预训练模型X-MOL(图1)及其开源模型(https://github.com/bm2-lab/x-mol)。在此项工作中,研究人员构建了一个大规模的Transformer-based模型,结合海量的训练数据与强大的计算资源,训练了对于小分子进行有效表征的大规模预训练模型X-MOL,并在五种不同的下游任务中验证了小分子预训练所带来的性能提升,这些任务包括分子活性预测、化学反应产率预测、药物-药物相互作用预测、小分子从头生成与小分子优化(图1a)。

刘琦开发大规模小分子预训练模型“X-MOL”,助力AI药物分子设计
刘琦开发大规模小分子预训练模型“X-MOL”,助力AI药物分子设计

图1. X-MOL 计算框架

在预训练过程中,X-MOL最核心的部分在于设计了一种自监督的预训练策略。研究者选取了SMILES【1】作为小分子的表示方式,并设计了一种生成式的预训练模型:即由小分子的一条random SMILES生成该小分子的另外一条random SMILES,使得模型在这个“SMILES转换”的过程中去学习SMILES的语法规则及其有效表征,使得计算机能够“理解”SMILES的语义规则。由于X-MOL中所采用的这种精心设计的生成式预训练策略与传统的Mask Language Model(MLM)模型有所区别,因此常规的Transformer【2】模型在这里并不能直接适用,为此,研究者提出了一种融合了双向注意力机制与单向注意力机制的混合注意力Transformer模型(图1b),使得X-MOL在一个Transformer encoder模型上实现了Encoder-Decoder结构的效果,达到了小分子生成的目的。

在模型规模上,X-MOL由一个12层、768维度的Transformer encoder模型构成,每一层的注意力机制包含有12个head。为了将这样一个巨大的模型进行有效的训练,该团队的研究人员使用了ZINC15【3】数据库中全部的小分子作为训练数据进行X-MOL的预训练,包含了超过11亿个小分子。模型的全部训练过程借助于百度的云计算平台完成,每一次训练调用了8/16张GPU。

领域内公开发表的预训练模型大多采用常规的MLM式预训练模型,并不适用于生成式的下游任务。而采用了生成式预训练策略的X-MOL则可以被微调至更多类型的下游任务中。这些任务包括: (1). 小分子的性质预测,包括小分子的一些理化性质和ADMET预测等。在这一类任务中,研究人员选取了MoleculeNet【4】中的7个任务,包括4个分类任务:BACE、HIV、BBBP、ClinTox,以及三个回归任务Lipophilicity、ESOL、FreeSolv,最终X-MOL在全部的7个任务中均取得了最好的表现(图2a)。(2). 化学反应产率预测。X-MOL最终达到了0.0626的RMSE,显著地超越了基线【5】的0.078的RMSE,而在R2方面也是达到了最新的Yield-BERT【6】的水平(图2b)。(3). 药物-药物相互作用。研究人员选取了经典工作DeepDDI【7】与CASTER【8】作为基线。最终X-MOL取得了0.952的预测准确率, 超过了DeepDDI的0.924,此外在ROC-AUC、PR-AUC与F1 score指标上,X-MOL的表现也都超越了两个基线工作(图2c)。(4). 小分子生成,包括Distribution-learning与Goal-directed两类生成方式【9】。前者在评估时着重考量小分子的生成质量,后者则更关注于模型所生成的小分子是否满足既定的目标。在Distribution-learning生成中,X-MOL在三个评价指标上均达到了Graph-based模型的水平。而在Goal-directed生成中,X-MOL生成的Top 3分子均达到了生成目标所设置的QED【10】值,而此前Graph-based模型最好的表现只能达到Top 2分子满足生成目标的水平(图2d)。(5). 小分子优化任务。在这一项任务中,不管是经过了预训练的X-MOL还是未经过预训练的冷启动X-MOL都能够有效地对输入小分子进行特定的优化(图2e)。

刘琦开发大规模小分子预训练模型“X-MOL”,助力AI药物分子设计

图2. X-MOL在各种下游任务上的性能比较

除了上述五种只包含小分子表征的下游任务之外,研究团队同样证明了X-MOL可以有效提升“配体-蛋白质相互作用预测”这一任务的性能,该任务中包含了除小分子之外的蛋白质实体,说明X-MOL对于小分子的有效表征可以推广至更多类型的下游任务上。

研究人员进一步尝试通过对注意力机制进行可视化来展示X-MOL在各个任务中对于小分子的理解(图3)。研究人员选取了X-MOL在被微调至小分子活性预测任务中的中间层的注意力矩阵来进行可视化。该例子进一步表明X-MOL模型具备一定的可解释性。

刘琦开发大规模小分子预训练模型“X-MOL”,助力AI药物分子设计

图3. X-MOL注意力机制的可视化

综上所述,X-MOL被证明了在不同的小分子相关的下游任务上均取得了最先进的性能,同时兼顾了良好的可解释性。X-MOL将进一步促进AI制药行业利用大规模的预训练与微调策略来统一现有的各种AI辅助小分子设计任务,为AI制药领域提供了一个可以借鉴的普适AI计算框架和开源平台。

该论文第一作者是同济大学生命科学与技术学院刘琦教授课题组的薛东雨、陈晓涵博士和百度自然语言处理部门的张涵, 通讯作者是刘琦教授和百度李宇琨, 百度公司的孙宇, 田浩, 吴华等为该工作提供了有益的指导。该工作同时获得了百度飞桨平台和同济大学-上海自主智能无人系统科学中心智能学科方向的大力支持。

原文链接:

https://www.sciencedirect.com/science/article/abs/pii/S2095927322000445

制版人:十一

参考文献

[1] Weininger D. Smiles, a chemical language and information system. 1. Introduction to methodology and encoding rules. Journal of chemical information and computer sciences, 1988, 28: 31-36

[2] Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need. In: Proceedings of the Advances in neural information processing systems, 2017.

[3] Sterling T, Irwin JJ. Zinc 15–ligand discovery for everyone. Journal of chemical information and modeling, 2015, 55: 2324-2337

[4] Wu Z, Ramsundar B, Feinberg EN, et al. Moleculenet: A benchmark for molecular machine learning. Chemical science, 2018, 9: 513-530

[5] Ahneman DT, Estrada JG, Lin S, et al. Predicting reaction performance in c–n cross-coupling using machine learning. Science, 2018, 360: 186-190

[6] Schwaller P, Vaucher AC, Laino T, et al. Prediction of chemical reaction yields using deep learning. Machine Learning: Science and Technology, 2021, 2: 015016

[7] Ryu JY, Kim HU, Lee SY. Deep learning improves prediction of drug–drug and drug–food interactions. Proceedings of the National Academy of Sciences, 2018, 115: E4304-E4311

[8] Huang K, Xiao C, Hoang T, et al. Caster: Predicting drug interactions with chemical substructure representation. In: Proceedings of the Proceedings of the AAAI Conference on Artificial Intelligence, 2020.

[9] Nathan, Brown, Marco, et al. Guacamol: Benchmarking models for de novo molecular design. Journal of chemical information and modeling, 2019,

[10] Bickerton GR, Paolini GV, Besnard J, et al. Quantifying the chemical beauty of drugs. Nature chemistry, 2012, 4: 90-98

转载须知

【非原创文章】本文著作权归文章作者所有,欢迎个人转发分享,未经允许禁止转载,作者拥有所有法定权利,违者必究。

继续阅读