天天看點

ICML2020 | G2Gs:不依賴模闆的的逆合成預測新架構

ICML2020 | G2Gs:不依賴模闆的的逆合成預測新架構

今天給大家介紹的是來自北京大學計算機系大學生史晨策等發表在ICML2020上的關于逆合成預測的一篇文章。在本文中,作者通過将目标分子圖轉化為一組反應物分子圖,提出一種稱為G2Gs的不依賴模闆的架構以解決逆合成預測問題,該方法性能優越,排除了對領域知識的需要,并且具有很好的擴充性。

1

背景

計算化學中的一個基本問題是找到一組反應物以合成目标分子,也就是逆合成預測,而這種技術通常用于藥物發現。由于所有可能的轉換的搜尋空間都很大的,是以随着計算機廣泛應用于各個領域,這幾十年學者們一直也在尋找如何通過計算機輔助逆合成分析,現代計算機的發展讓機器學習成為這個時代的标志,很自然的想到利用機器學習進行逆合成預測。用于逆合成分析的機器學習一類是需要基于模闆的目标分子與大量反應模闆相比對的方法,可是現有技術水準使得該方法計算量非常大,并且存在在新的目标結構和反應類型上的泛化能力差等問題。而基于無模闆的逆合成研究将逆合成預測表述為序列間問題,又存在無法有效反映分子中原子之間的複雜關系等問題。是以,這些方法無法捕獲豐富的化學環境及其分子之間的互相作用,進而導緻性能不佳。

針對上述問題,作者提出了一種新的無需基于模闆的模型——G2Gs(Graph to Graph),将每個分子表示為一個圖,并将逆合成預測表述化為一個圖到圖的翻譯問題。利用分子的強大圖形表示方法,并通過大量的分子反應資料訓練證明G2Gs的性能明顯優于現有的無模闆基線,具有應用于真實世界的潛力。

2

架構

G2Gs架構由兩個關鍵部分組成:(1)反應中心識别子產品,它從目标分子中分離合成子,并将一對多圖翻譯問題簡化為多個一對一翻譯過程;(2)變分圖翻譯子產品,其将合成子翻譯成最終反應物圖。由于合成子可能會在不同的反應環境中轉化為不同的反應物,是以引入了低維潛變量來處理反應物預測的不确定性。

作者将逆合成任務表述為一對多的圖到圖轉換問題。具體來說,首先使用圖神經網絡來估計産物圖的所有原子對的反應性分數,并且具有高于門檻值的最高反應性分數的原子對将被選擇作為反應中心。然後,通過斷開反應中心的鍵,将産物圖拆分為合成子。最後,基于獲得的合成子,通過一系列圖變換生成反應物,其中使用潛向量來鼓勵模型捕獲變換的不确定性并生成各種預測。架構如圖1所示。

ICML2020 | G2Gs:不依賴模闆的的逆合成預測新架構

圖1 所提出方法的總體架構

G2Gs辨別的反應中心用紅色标記。首先通過斷開反應中心将産物圖分成合成子。然後,基于所得的合成子通過一系列圖轉換生成反應物。生成的分子支架由藍色邊界框框柱。

3

實驗

作者在從專利資料庫中獲得的基準資料集USPTO-50k上評估模型,并将其與基于模闆和無模闆的方法進行比較,通過将預測分子的規範SMILES字元串與基本事實進行比對來計算準确性,使用top-k精确比對的準确性作為評估名額。

實驗在已知的反應類别和未知的反應類别中評估了所提出方法的top-k精确比對準确性,結果分别列于表1和表2。

表1 已知反應類别時的Top-k精确比對度

ICML2020 | G2Gs:不依賴模闆的的逆合成預測新架構

表2未知反應類别時的Top-k精确比對度

ICML2020 | G2Gs:不依賴模闆的的逆合成預測新架構

通過實驗表明,G2Gs的性能明顯優于現有的無模闆方法,當反應類别已知時,top-1的精确比對準确度相對提高了63%(表1中的第二列),當反應類别未知時,相對提高了29%(表2中的第二列)。

當與基于模闆的方法進行比較時,表1和表2的結果表明,G2Gs接近或優于最新方法GLN,尤其是在k較小的情況下。但該方法排除了對領域知識的需要,并且可以很好地擴充到更大的資料集,這使得它在實踐中特别有吸引力。

4

案例可視化

ICML2020 | G2Gs:不依賴模闆的的逆合成預測新架構

圖2 成功案例的可視化

圖2展示了G2Gs成功識别反應中心并将産物圖轉化為一組符合基本事實的反應物圖的情況。圖2所示的合成路線可分為兩組,每組對應于圖底部所示的反應模闆。這些數字表明G2Gs确實從資料集中學習了領域知識。這種特性使其成為解決模闆知識有限的實際問題的理想解決方案。

ICML2020 | G2Gs:不依賴模闆的的逆合成預測新架構

圖3 不比對案例的可視化

在圖3中,作者還提出了一種情況,其中沒有預測與實際情況相符。但這并不一定意味着G2Gs無法預測目标分子的合成路線。這是因為分子可以通過多種方式合成,而資料集中的基本事實并不是唯一的答案。為了驗證這一假設,作者采用了正向反應預測模型,根據G2Gs産生的反應物預測産物分子。如圖3底部所示,預測産物與逆向合成問題的目标分子完全比對,這證明了G2Gs所做的預測确實有潛在的有效性。