天天看點

Nature Machine Intelligence | 自适應圖學習預測分子作用

作者:AItellU

編者 | 黃俊傑

制版 | 張靖雯

Nature Machine Intelligence | 自适應圖學習預測分子作用

第一作者:Li Yuquan

通訊作者:姚小軍

第一機關: 蘭州大學

DOI:10.1038/s42256-022-00501-8

一、全文一句話速覽

本文開發自适應圖學習pipeline,從資料集學習并輸出預測器,在未加任何人工幹預的情況下,pipeline在大量資料集上的預測性能遠好于基于人工設計的神經網絡以及其他傳統方法,并具備了極佳的魯棒性,是預測分子互相作用與性質的可靠方法。

二、研究背景

提高藥物發現效率是藥物發現的核心和長期挑戰。為此,人們開發出諸多圖學習方法來快速、低成本地搜尋候選藥物。然而,在數量有限的資料集上追求高預測性能已經使這些方法的模型架構和超參數固化,使它們喪失重新利用藥物新生資料進一步訓練模型的能力。是以,作者基于圖學習提出自适應網絡(GLAM),其能夠适應任何資料集,并可在沒有人工幹預的情況下做出準确預測。

三、全文亮點

1.自适應網絡可以适應廣泛的資料集,極大提高了模型的魯棒性。

2.模型自動完成架構設計、超參數設定、優化器以及損失函數選擇,減小研究人員的學習成本。

四、圖文解析

1.方法概述

利用自動化pipeline學習資料集(圖1),提出建構配置空間,自動完成原本依賴專家經驗的模型架構設計、超參數設定、優化器以及損失函數選擇,建構預測器(圖2)。設計2個預測器,分别用于預測分子互相作用與分子性質。以分子圖和蛋白質圖作為輸入,其中分子圖以原子為節點,鍵為邊;蛋白質圖以氨基酸為節點,RaptorX計算出的聯系資訊為邊。

Nature Machine Intelligence | 自适應圖學習預測分子作用

圖1 GLAM與其他方法比較

Nature Machine Intelligence | 自适應圖學習預測分子作用

圖2 GLAM pipeline細節

2. 模型适應性

比較了GLAM與傳統方法在包括藥物-蛋白質互相作用、藥物-藥物互相作用、實體化學性質、生物活性、藥代動力學和毒性等方面共14個資料集上的預測表現。與以往報道的結果相比,GLAM在14個資料集上的預測誤差比傳統方法的最好結果平均降低了18.7%;同時在無人工幹預的情況下獲得最好的預測分數,而作為對比的其他方法的預測性能則參差不齊(表1)。

Nature Machine Intelligence | 自适應圖學習預測分子作用

表1 各模型預測性能對比

3. 模型魯棒性

對PhyProp資料集進行屬性輕微影響擾動,建構真實擾動資料集并進行魯棒性實驗。總體而言,GLAM受分子結構擾動的影響較小,具有比傳統方法更高的魯棒性。這是因為,GLAM的最終預測結果通過平均幾個混合模型最終預測得出,即使擾亂分子結構可能會影響單個預測值,也難以影響全部混合模型。

4. 模型分析

首先比較各方法在計算時間、計算裝置、訓練細節等方面的時間消耗和資源消耗,GLAM的時間消耗是其他方法的10倍,資源消耗是4倍,但是考慮到其取得的高性能,這些消耗是值得的。其次,分析GLAM的配置偏好,發現其在所有資料集上更偏好全局池方法和Adam優化器;面對小資料集時偏好使用消息傳遞網絡;面對大資料集時偏好複雜核心。最後,還發現模型的性能随Ensemble size增加而增加。

五、通訊作者介紹

姚小軍,蘭州大學化學化工學院教授。研究方向:1.機器學習算法在化學和生物學中的應用;2.計算機輔助分子設計;3.生物大分子與藥物小分子之間的互相作用研究;4.生物資訊學。

六、編者有話說

作者抓住模型對新資料的适應性這一問題,開發GLAM适應大量測試的資料集,并自動做出準确的預測,極大提升了模型的應用潛力,确實獨具慧眼。但本文模型解釋部分的闡釋稍有瑕疵。在模型可視化中,例舉的分子數稍少,如若想要進行完善的模型解釋,更為有效的辦法依舊是提供具有統計意義的資料,詳細地闡釋模型的發現。

原文連結:https://www.nature.com/articles/s42256-022-00501-8

【原創文章】AItellU原創文章,歡迎個人轉發分享,未經允許禁止轉載,所刊登的所有作品的著作權均為AItellU所有。AItellU保留所有法定權利,違者必究。

繼續閱讀