天天看點

ACM SIGKDD | MoFlow:基于流的分子圖生成模型

ACM SIGKDD | MoFlow:基于流的分子圖生成模型

今天給大家介紹的是康奈爾大學醫學院(Weill Cornell Medicine)健康科學系(Department of Population Health Sciences)的博士後研究助理臧承熙于2020年4月發表在ACM SIGKDD的一篇論文,這篇文章提出一種新的基于流的深度圖生成模型MoFlow,用于分子圖的生成,是同類的第一個不僅可以一次通過可逆映射有效地生成分子圖,而且還具有化學有效性保證的流模型。

1

背景

藥物發現是一個漫長、成本高昂以及失敗率高的過程,而深度生成模型的出現以資料驅動的方式探索較大的化學空間很好地加快了藥物發現的過程。這些模型通常是對分子圖進行編碼來學習一個連續的潛空間,由目标特性引導通過對學習的潛空間解碼生成新分子,包括基于變分自編碼器的,基于生成對抗網絡的以及基于自回歸的模型,但是使得生成的新分子具有化學有效性是十分困難的,因為在保證生成的原子和鍵是多類型的同時,還要滿足化學鍵價的限制。近年來基于流的模型相繼出現,例如NICE,RealNVP以及Glow模型,用于分子圖生成的主要包括GraphAF,GraphNVP和GRF,GraphAF模型是基于自回歸流的模型,在分子圖生成中達到了最先進的性能。GraphAF通過添加每個新原子或鍵,然後進行有效性檢查,以順序方式生成分子。GraphNVP和GRF也用于生成分子圖,但是無法保證化學有效性,是以在産生有效且新穎的分子方面表現不佳。不過值得注意的是,基于流的模型是唯一可以記住并精确重建所有輸入資料的模型,同時具有生成更多新穎,獨特和有效分子的潛力。

作者基于流模型又提出了一種新的稱為MoFlow的分子圖生成模型,其主要貢獻在于該模型不僅通過可逆映射一次性生成分子圖,而且具有化學有效性保證,并且提出了Glow模型的變體來生成鍵(邊),以及通過新的圖條件流生成給定鍵的原子,然後将它們組裝成有效的分子圖,并且MoFlow與目前最先進的基于VAE的模型,基于自回歸的模型和三個基于流的模型相比,在分子圖的生成,重構,優化等方面獲得了最優性能。

2

模型

将分子圖視為由原子作節點,鍵作邊組成的無向圖,其數學符号可記為

ACM SIGKDD | MoFlow:基于流的分子圖生成模型

其中,集合有n個原子,k種原子類型,A(i,k)=1代表節點i是k型原子,集合代表鍵(邊),鍵有c種類型,B(c,i,j)=1代表原子i和j之間以c類型的鍵連接配接。

該模型的目标函數如下:

ACM SIGKDD | MoFlow:基于流的分子圖生成模型

上述式子是利用條件機率,将整個模型分成兩個部分,一部分是學習在給定鍵下的原子(節點)的條件分布和另外一部分學習鍵(邊)的分布。

我們知道在生成模型中一個重要的目标是得到資料的機率分布和學習資料内部的隐藏結構,而途徑之一是學習資料表示,是以首先利用圖條件流學習原子的表示。假設

ACM SIGKDD | MoFlow:基于流的分子圖生成模型

是給定鍵下的原子資料的表示,

ACM SIGKDD | MoFlow:基于流的分子圖生成模型

為映射,為了可以直接采用且不丢失資訊,這要求

ACM SIGKDD | MoFlow:基于流的分子圖生成模型

是可逆的,一旦我們得到了

ACM SIGKDD | MoFlow:基于流的分子圖生成模型

的分布,便可以從中抽樣,利用逆映射得到A|B,并且利用雅克比矩陣給出A|B的機率分布,下述公式為其對數形式:

ACM SIGKDD | MoFlow:基于流的分子圖生成模型

和基于流的RealNVP、Glow模型一樣,為了得到可逆映射,都引入了仿射耦合層,隻不過由于MoFlow是在圖上的模型,是以需要依靠圖卷積操作來完成,這裡的圖卷積是利用關系圖卷積網絡(R-GCN)來完成的,而且仿照RealNVP引入mask操作,将輸入分割成兩個部分A1和A2。

ACM SIGKDD | MoFlow:基于流的分子圖生成模型

将上述式子求逆,即可得到A1和A2。

在學習原子表示的時候,為了保證資料穩定性,最後還加入了Glow模型提出的ActNorm層,來取代BN層,方法為利用初始的batch的均值和方差去初始化

ACM SIGKDD | MoFlow:基于流的分子圖生成模型

兩個參數,具體做法是

ACM SIGKDD | MoFlow:基于流的分子圖生成模型

,類似于NICE模型中的尺度變換。

在學習鍵的資料表示上,采用了基于Glow的思想,和上述學習原子表示的步驟相似,并且為了資料穩定性,同樣引入了Glow模型中的1*1卷積操作。

最後是進行化學有效性驗證,主要是對原子和鍵組合後是否符合化學上鍵價的限制,采用的公式如下:

ACM SIGKDD | MoFlow:基于流的分子圖生成模型

其中,c為鍵的類型(單鍵,雙鍵,三鍵),與其他的模型不同,作者加入了形式電荷Ch的限制,這種效應可能為帶電原子引入額外的鍵。例如,铵[NH4]+的N可能具有4個鍵,而不是3。類似地,S+和O+的可能具有3個鍵而不是2。

ACM SIGKDD | MoFlow:基于流的分子圖生成模型

3

實驗

作者從以下四點出發進行全方面的驗證MoFlow的性能,主要包括1)分子圖生成和重建;2)可視化連續潛空間;3)生成具有優化特性的新式分子圖;4)化學相似性。同時作者與JT-VAE、GCPN、MolecularRNN、GraphNVP、GRF、GraphAF這6個模型在資料集QM9和ZINC250K進行了比較。

分子圖生成和重建

ACM SIGKDD | MoFlow:基于流的分子圖生成模型

作者想通過實驗驗證MoFlow是否可以記憶和重建所有訓練分子資料集以及是否可以生成盡可能多的新穎,獨特和有效的分子,實驗證明在QM9和ZINC250k資料集上,MoFlow在所有六個名額上均優于最新模型。由于基于流的模型具有可逆性,MoFlow建立了從輸入分子M到其對應的潛向量Z的一對一映射,進而實作了100%的重建率。

可視化連續潛空間

ACM SIGKDD | MoFlow:基于流的分子圖生成模型

該實驗驗證了MoFlow是否可以将分子圖嵌入到連續潛空間中,并具有合理的化學相似性,上圖可發現潛空間非常平滑,并且兩個潛在點之間的插值僅稍微改變了分子圖,在MoFlow學習到的這樣一個連續的潛空間中進行搜尋是分子特性優化和限制優化的基礎。

生成具有優化特性的新式分子圖

ACM SIGKDD | MoFlow:基于流的分子圖生成模型

此項實驗意為驗證MoFlow是否可以生成具有優化特性的新分子圖,結果表明MoFlow生成了比所有基線都具有最佳QED值的新分子。

化學相似性

ACM SIGKDD | MoFlow:基于流的分子圖生成模型

作者驗證了MoFlow能否生成具有優化特性的新穎分子圖的同時盡可能保持化學相似性,結果表明MoFlow發現了最相似的新分子,與最新的VAE模型JT-VAE相比, MoFlow具有更高的相似性評分和更好的性能。

4

總結

作者提出了一種用于分子圖生成的新型深度圖生成模型MoFlow。MoFlow是最早的基于流的模型之一,該模型不僅通過可逆映射一次性生成分子圖,而且具有化學有效性保證。MoFlow包含用于鍵的Glow模型的變體,用于給定鍵的原子的新型圖條件流,然後将它們和有效性校正相結合。MoFlow在分子生成,重建和優化方面達到了最先進的性能。對于将來的工作,作者嘗試結合順序生成模型和一次性生成模型的優點來生成化學上可行的分子圖。

繼續閱讀