近年來分子生成問題收到了很多關注。但是現有的方法都是基于深度神經網絡,需要在很大的資料集上訓練。在實踐中,由于勞動密集型實驗和資料收集,特定類别化學資料集的規模通常是有限的(例如,幾十個樣本)。這對深入學習生成模型全面描述分子設計空間提出了相當大的挑戰。另一個主要挑戰是隻産生實體上可合成的分子。這對于基于神經網絡的生成模型來說是一項非常重要的任務,因為相關的化學知識隻能從有限的訓練資料中提取和概括。
此篇論文中,作者提出了一個資料高效性的生成模型,可以從比普通基準小幾個數量級的資料集中學習。此方法的核心是一個可學習的圖文法,它可以通過一系列的生成法則來生成模型。不需要任何人工幫助,這些生成規則可以從訓練資料中自動建構。此外,附加的化學知識可以通過進一步的文法優化來加進模型裡。學習完的圖文法僅僅通過三個各包含約20個樣本的機關資料集,就可以在生成高品質分子任務中獲得最先進的結果。此論文的方法在隻有117個訓練樣本的化合物合成任務中獲得了很好的結果,與使用了81k的資料點的現有方法性能相當。

1.介紹
本文提出了一種将複雜圖文法構造與相對簡單有效的學習技術相結合的生成模型。特别是,該文法包含了不同大小的子結構(即原子級以上),建構過程直接優化了各種化學名額(如分布統計和合成能力),同時滿足特定的化學限制(如價限制)。此外,此方法具有符号知識表示的優點:可解釋性和資料高效性。此論文的評估重點是聚合物,特别是他們的單體建構塊。作者表示,此模型适用于任意分子。
2.方法
分子超圖
圖1 萘二異氰酸酯的超圖表示
形式文法
圖文法
論文專注于分子圖的形式文法——圖文法,而不是字元串。如圖3所示,生成規則的左右側都是圖。這些圖包含非終點節點、終點節點、代表性原子。白色節點是錨節點,它不會從左側變為右側。
圖3 使用圖2的圖文法的萘二異氰酸酯的生成過程
基于圖文法的分子圖類似于基于字元串文法的圖(如圖3)。為了确定生成規則是否适用于每一步, 作者用子圖比對來測試目前圖是否包含與規則左側同态的子圖。由于子圖通正常模較小,是以比對過程在實踐中是有效的。
整體流程
圖4
如圖4所示,作者的算法是由一組分子結構和一組評估名額(如多樣性和可合成性)構成。目的是學習一種可以用于分子生成的文法。為此,首先将分子看作一個超圖。
圖5
文法構造是一個自底向上的過程,通過壓縮超邊(如圖5)來疊代地創造生成規則。壓縮超邊是由一個含參函數來确定,以神經網絡的形式來實作。作者同時執行多個随機搜尋來獲得多個文法,由輸入的路徑成本來計算。此方法學習如何建構文法,用最大化輸入名額地對分子進行采樣。是以特定領域地知識可以應用到基于文法的生成模型裡。
建構自底向上的圖文法
自底向上的搜尋是用來從最基層開始建構生成規則,包含了分子超圖的單個超邊。通過疊代采樣一組超邊,然後将他們壓縮成一個節點來建構文法。
壓縮的每一步裡,都會構造一個生成規則并加入到文法裡。這樣就會得到有着更少的節點和邊的新超圖。作者同時對所有的輸入分子進行超邊選擇和規則建構,直到所有的超邊被壓縮。
此方法有幾個特點:(1)作為生成模型,文法可以複制所有的輸入分子。(2)由于生成規則是由真實的分子的子圖構造而成,是以自然符合化合價的條件。是以,生成的所有分子都是有效的。(3)生成不僅包含訓練資料。而且還可推測生成先前所見示例分布之外的分子結構。(4)所建構的文法基本遵守Chomsky範式,易于分析,易于解釋。
優化圖文法
觀察到到文法結構完全由被選擇的超邊集序列決定,作者将文法的優化轉變成被選擇的超邊序列的優化。是以,優化問題的變量是選擇序列,目标是使評價名額最大化。
作者将超邊序列的搜尋定義為MSF(最小生成森林)問題。自底向上的文法建構過程可以看作是搜尋所有輸入圖的森林。注意此論文關注的是加入MSF的超邊順序,而不是MSF本身的架構。超邊的順序由邊權函數決定,它将分子超圖中的每條超邊映射為标量。超邊選擇的優化相當于邊權函數的優化。
3.結果
作者使用了三個小的資料集,每個資料集都代表了一個特定的單體類。這些都是作者從資料中手動整理的:丙烯酸酯,擴鍊劑和異氰酸酯,分辨包含了32個,11個,11個樣品。
為了比較以及預訓練基線,作者還使用了來自St.John等人和Jin等人的81k個單體的大型資料集。作者比較了多種方法:GraphNVP,JT-VAE,HierVAE,MHG,STONED。本文的方法縮寫為DEG。
在小規模,特殊屬性的資料集上的結果
表1:在異氰酸鹽上的結果:作者省略了創新性,因為所有方法都達到了100%;由GraphNVP生成的分子有效率較低,無法對某些名額進行合理的評價(-)。
表2:丙烯酸酯和擴鍊劑的結果。由于GraphNVP生成的分子效度較低,無法對某些名額進行合理的評價(-)。
觀察發現,GraphNVP的性能相當差。VAEs和現有的基于文法的系統在某些名額上表現得很好,但在RS和Membership名額上得分很低。相比之下,對于三個資料集上的Membership和Retro*分數,作者的方法明顯優于其他方法。而且在其他名額上也是最好的或極具競争性的。
在大規模的資料集上的結果
表3:聚合物大型資料集上的結果。GraphNVP和SMILESVAE生成的分子效度較低,無法對某些名額進行合理評估(-)。DEG在0.15%的訓練資料(117個樣本)上進行訓練。
結果如表3所示。總而言之,一些SOTA系統,如SMILESVAE和GraphNVP,無法捕獲任何分布細節,大多生成無效分子。JT-VAE和基于文法的基線(MHG、STONED)雖然相對于前者表現較差,但它們的樣本品質是合理的。HierVAE在除倒角距離外的所有名額上都表現得非常好。作者的方法大體上可以與後者相競争(僅在0.15%的資料上訓練),而且可以獲得更好的樣本品質,特别是倒角距離是後者的兩倍高。
4.總結
作者提出了一種結合圖文法構造和領域優化的資料高效性生成模型。文法包含了不同大小的子結構,結構可以直接優化各種化學名額。在三個小尺寸聚合物資料集和一個大資料集上的大量實驗證明了該方法的有效性。這個的系統是唯一一種能夠在特定的類中生成單體且有高成功率的系統。将屬性預測模型與此論文的圖文法結合起來,将有助于生成優良分子。