天天看點

劉琦開發大規模小分子預訓練模型“X-MOL”,助力AI藥物分子設計

作者:BioArtMED
劉琦開發大規模小分子預訓練模型“X-MOL”,助力AI藥物分子設計

基于AI的藥物小分子設計加速了藥物研發的程序,是近期藥物研發領域的重要研究方向。對于小分子的有效表征和了解是AI藥物設計的核心問題。雖然領域内各種AI模型層出不窮,但尚缺乏普适的計算架構,可以将小分子的生成、優化、屬性預測以及小分子互相作用等各種單獨任務進行統一模組化。

近日,同濟大學生命科學與技術學院生物資訊學系、同濟大學-上海自主智能無人系統科學中心劉琦教授課題組與百度自然語言處理組在Science Bulletin上聯合發表了題為X-MOL: Large-scale pre-training for molecular understanding and diverse molecular analysis的論文,釋出了大規模小分子預訓練模型X-MOL(圖1)及其開源模型(https://github.com/bm2-lab/x-mol)。在此項工作中,研究人員建構了一個大規模的Transformer-based模型,結合海量的訓練資料與強大的計算資源,訓練了對于小分子進行有效表征的大規模預訓練模型X-MOL,并在五種不同的下遊任務中驗證了小分子預訓練所帶來的性能提升,這些任務包括分子活性預測、化學反應産率預測、藥物-藥物互相作用預測、小分子從頭生成與小分子優化(圖1a)。

劉琦開發大規模小分子預訓練模型“X-MOL”,助力AI藥物分子設計
劉琦開發大規模小分子預訓練模型“X-MOL”,助力AI藥物分子設計

圖1. X-MOL 計算架構

在預訓練過程中,X-MOL最核心的部分在于設計了一種自監督的預訓練政策。研究者選取了SMILES【1】作為小分子的表示方式,并設計了一種生成式的預訓練模型:即由小分子的一條random SMILES生成該小分子的另外一條random SMILES,使得模型在這個“SMILES轉換”的過程中去學習SMILES的文法規則及其有效表征,使得計算機能夠“了解”SMILES的語義規則。由于X-MOL中所采用的這種精心設計的生成式預訓練政策與傳統的Mask Language Model(MLM)模型有所差別,是以正常的Transformer【2】模型在這裡并不能直接适用,為此,研究者提出了一種融合了雙向注意力機制與單向注意力機制的混合注意力Transformer模型(圖1b),使得X-MOL在一個Transformer encoder模型上實作了Encoder-Decoder結構的效果,達到了小分子生成的目的。

在模型規模上,X-MOL由一個12層、768次元的Transformer encoder模型構成,每一層的注意力機制包含有12個head。為了将這樣一個巨大的模型進行有效的訓練,該團隊的研究人員使用了ZINC15【3】資料庫中全部的小分子作為訓練資料進行X-MOL的預訓練,包含了超過11億個小分子。模型的全部訓練過程借助于百度的雲計算平台完成,每一次訓練調用了8/16張GPU。

領域内公開發表的預訓練模型大多采用正常的MLM式預訓練模型,并不适用于生成式的下遊任務。而采用了生成式預訓練政策的X-MOL則可以被微調至更多類型的下遊任務中。這些任務包括: (1). 小分子的性質預測,包括小分子的一些理化性質和ADMET預測等。在這一類任務中,研究人員選取了MoleculeNet【4】中的7個任務,包括4個分類任務:BACE、HIV、BBBP、ClinTox,以及三個回歸任務Lipophilicity、ESOL、FreeSolv,最終X-MOL在全部的7個任務中均取得了最好的表現(圖2a)。(2). 化學反應産率預測。X-MOL最終達到了0.0626的RMSE,顯著地超越了基線【5】的0.078的RMSE,而在R2方面也是達到了最新的Yield-BERT【6】的水準(圖2b)。(3). 藥物-藥物互相作用。研究人員選取了經典工作DeepDDI【7】與CASTER【8】作為基線。最終X-MOL取得了0.952的預測準确率, 超過了DeepDDI的0.924,此外在ROC-AUC、PR-AUC與F1 score名額上,X-MOL的表現也都超越了兩個基線工作(圖2c)。(4). 小分子生成,包括Distribution-learning與Goal-directed兩類生成方式【9】。前者在評估時着重考量小分子的生成品質,後者則更關注于模型所生成的小分子是否滿足既定的目标。在Distribution-learning生成中,X-MOL在三個評價名額上均達到了Graph-based模型的水準。而在Goal-directed生成中,X-MOL生成的Top 3分子均達到了生成目标所設定的QED【10】值,而此前Graph-based模型最好的表現隻能達到Top 2分子滿足生成目标的水準(圖2d)。(5). 小分子優化任務。在這一項任務中,不管是經過了預訓練的X-MOL還是未經過預訓練的冷啟動X-MOL都能夠有效地對輸入小分子進行特定的優化(圖2e)。

劉琦開發大規模小分子預訓練模型“X-MOL”,助力AI藥物分子設計

圖2. X-MOL在各種下遊任務上的性能比較

除了上述五種隻包含小分子表征的下遊任務之外,研究團隊同樣證明了X-MOL可以有效提升“配體-蛋白質互相作用預測”這一任務的性能,該任務中包含了除小分子之外的蛋白質實體,說明X-MOL對于小分子的有效表征可以推廣至更多類型的下遊任務上。

研究人員進一步嘗試通過對注意力機制進行可視化來展示X-MOL在各個任務中對于小分子的了解(圖3)。研究人員選取了X-MOL在被微調至小分子活性預測任務中的中間層的注意力矩陣來進行可視化。該例子進一步表明X-MOL模型具備一定的可解釋性。

劉琦開發大規模小分子預訓練模型“X-MOL”,助力AI藥物分子設計

圖3. X-MOL注意力機制的可視化

綜上所述,X-MOL被證明了在不同的小分子相關的下遊任務上均取得了最先進的性能,同時兼顧了良好的可解釋性。X-MOL将進一步促進AI制藥行業利用大規模的預訓練與微調政策來統一現有的各種AI輔助小分子設計任務,為AI制藥領域提供了一個可以借鑒的普适AI計算架構和開源平台。

該論文第一作者是同濟大學生命科學與技術學院劉琦教授課題組的薛東雨、陳曉涵博士和百度自然語言處理部門的張涵, 通訊作者是劉琦教授和百度李宇琨, 百度公司的孫宇, 田浩, 吳華等為該工作提供了有益的指導。該工作同時獲得了百度飛槳平台和同濟大學-上海自主智能無人系統科學中心智能學科方向的大力支援。

原文連結:

https://www.sciencedirect.com/science/article/abs/pii/S2095927322000445

制版人:十一

參考文獻

[1] Weininger D. Smiles, a chemical language and information system. 1. Introduction to methodology and encoding rules. Journal of chemical information and computer sciences, 1988, 28: 31-36

[2] Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need. In: Proceedings of the Advances in neural information processing systems, 2017.

[3] Sterling T, Irwin JJ. Zinc 15–ligand discovery for everyone. Journal of chemical information and modeling, 2015, 55: 2324-2337

[4] Wu Z, Ramsundar B, Feinberg EN, et al. Moleculenet: A benchmark for molecular machine learning. Chemical science, 2018, 9: 513-530

[5] Ahneman DT, Estrada JG, Lin S, et al. Predicting reaction performance in c–n cross-coupling using machine learning. Science, 2018, 360: 186-190

[6] Schwaller P, Vaucher AC, Laino T, et al. Prediction of chemical reaction yields using deep learning. Machine Learning: Science and Technology, 2021, 2: 015016

[7] Ryu JY, Kim HU, Lee SY. Deep learning improves prediction of drug–drug and drug–food interactions. Proceedings of the National Academy of Sciences, 2018, 115: E4304-E4311

[8] Huang K, Xiao C, Hoang T, et al. Caster: Predicting drug interactions with chemical substructure representation. In: Proceedings of the Proceedings of the AAAI Conference on Artificial Intelligence, 2020.

[9] Nathan, Brown, Marco, et al. Guacamol: Benchmarking models for de novo molecular design. Journal of chemical information and modeling, 2019,

[10] Bickerton GR, Paolini GV, Besnard J, et al. Quantifying the chemical beauty of drugs. Nature chemistry, 2012, 4: 90-98

轉載須知

【非原創文章】本文著作權歸文章作者所有,歡迎個人轉發分享,未經允許禁止轉載,作者擁有所有法定權利,違者必究。

繼續閱讀