天天看點

J. Cheminform. | 基于SMILES的利用骨架的分子生成模型

J. Cheminform. | 基于SMILES的利用骨架的分子生成模型

今天給大家介紹的是瑞典制藥公司阿斯利康,伯爾尼大學和廣州再生醫學與健康中心廣東省實驗室于2020年2月4日聯合發表在Journal of Cheminformatics的一篇論文,這篇文章提出了一種新的基于SMILES的分子生成模型,該模型可從骨架中生成分子,并且可以從任意分子集中進行訓練。作者認為這種基于SMILES的生成模型将成為對已經存在的基于SMILES的體系結構的有用補充,并且可以替代基于圖的裝飾方法。

1

背景

深度生成模型因其可以從有限的數量中生成新資料,目前已成功應用于生成文本、圖像、視訊等領域。令人關注的是,其在藥物發現領域的重要作用,使得許多新方法可用于探索化學空間,例如RNN,VAE,GAN等。在這些模型中,常用兩種方式來表示分子資料,一類是利用SMILES字元串,一類是利用分子圖。基于SMILES字元串的模型因為SMILES字元串的簡單結構可以使得模型更快的進行訓練,并且2019年Josep Arús‑Pous等人提出的在分子生成模型中引入Randomized SMILES可以大大改善生成結果,使得模型的收斂效果更好,過拟合較少。但是由于SMILES本身文法的限制,其結構不允許從骨架(scaffold,即具有明确連接配接點的部分建構的分子,譬如去除一個化合物的所有取代基)中生成分子,當然在之前的研究中有學者利用雙向RNN從兩側完善一個SMILES,可是這樣使得連接配接點的個數局限于兩個,另外雖然圖神經網絡可在無限定連接配接點的情況下裝飾骨架,但是由于本身的實驗性結構,進而要求在實驗中進行大量的訓練和采樣。

作者提出了一種可以基于SMILES生成模型通過骨架生成分子的架構,該架構可以分兩步生成分子,并且可以生成訓練集,以幫助模型針對各種骨架進行泛化。此外,骨架和裝飾器可以進一步過濾,隻允許具有特定屬性的骨架和裝飾器。作者表明,通過過濾使裝飾器模型能夠學習有關如何裝飾骨架的特定資訊。

2

架構概括

整個分子生成過程可分為兩個步驟:骨架生成器(scaffold generator)和裝飾器(decorator)。生成器是基于Randomized SMILES的RNN,裝飾器為編碼器-解碼器體系結構,其編碼器是一個雙向RNN,解碼器是一個單向RNN。SMILES文法使用标記“[*]”進行了擴充,該标記由部分化學軟體庫支援,作為部分建構的分子中的連接配接點。首先,由骨架生成器或者手動輸入生成Randomized SMILES,之後将骨架輸入到裝飾器模型中,這裡需要訓練兩個裝飾器,一個裝飾器一次僅裝飾一個連接配接點,另一個裝飾器一次裝飾所有連接配接點。在第一種情況下,模型會裝飾骨架的SMILES字元串中的第一個連接配接點,然後将生成的裝飾重新連接配接到骨架上,并将半建構的分子回報到裝飾器中。重複該過程,直到裝飾了所有連接配接點。半裝飾分子的随機SMILES表示在每個步驟都會改變,是以會移動SMILES字元串中連接配接點的相對位置。這個過程允許在裝飾帶有n個連接配接點的分子時考慮所有可能的排序。第二種情況裝飾所有連接配接點時和第一種相似,但僅通過一步,使用“|”字元作為分隔按SMILES字元串中出現的順序生成所有裝飾。

J. Cheminform. | 基于SMILES的利用骨架的分子生成模型

3

訓練集生成

裝飾器模型需要訓練集,其中每個item都包括骨架及其裝飾,這裡不是選擇已經建立的化合物(例如專利資料),而是通過詳盡地對分子資料庫中的所有分子徹底删除c個非環鍵進行切片來建立資料集,将産生的碎片分為骨架和裝飾。從分子切片中,如果不存在連接配接點數=c的片段,則将組合丢棄。這些item中的每一個("骨架裝飾元組”)都由骨架和與其具有同樣連接配接點的裝飾組成。下圖為DRD2拮抗劑桂利嗪切片的三種可能組合。

J. Cheminform. | 基于SMILES的利用骨架的分子生成模型

4

實驗

(1)在DRD2上生成預測活性分子

骨架裝飾器的主要目的是盡可能有意義地裝飾任何輸入骨架。在第一個實驗中,一個小型資料集由4211個多巴胺受體D2(DRD2)活性調節劑組成,用于訓練裝飾器模型(多步和單步)。然後,這些模型在不同的骨架上進行了測試,這些骨架與訓練集資料相似。從每個骨架中獲得一系列分子,然後使用活性預測模型(APM)将其與随機裝飾的分子進行比較。

首先通過除去具有五個随機選擇的骨架的所有元組以及從具有這些骨架的152個分子中的任何一個獲得的所有元組,來提取由5532個骨架裝飾元組組成的驗證集。

J. Cheminform. | 基于SMILES的利用骨架的分子生成模型

使用多步裝飾器模型對五個標明的骨架進行多次裝飾,從上表可以看出,總共産生14,300個獨特的分子,其中包括驗證集中存在的63個分子(占41.4%),預測的活性分子的百分比始終低于從裝飾的分子中獲得的百分比。

從使用訓練集中的骨架訓練的分子生成模型中采樣然後使用多步骨架裝飾模型進行多次裝飾。結果表明,預測為有活性的生成分子的比例通常很高,從45.4%增至98.9%(表2)。但是最重要的是,裝飾分子始終比ChEMBL和訓練集誘導劑具有更高的預測活性分子比。

J. Cheminform. | 基于SMILES的利用骨架的分子生成模型

另外,通過單步結構模型裝飾骨架結果表明,單步結構模型能夠從驗證集中生成152個分子中的90個(59.2%)。盡管比多步模型更好,但其實多步模型和單步模型之間的比較必須相對進行,因為多步體系結構采樣過程的性質不允許控制要采樣的分子數量。

作者在此實驗中對生成分子相似性也做了研究,從訓練集中的分子樣本,兩個骨架集和兩個誘導劑集産生的分子樣本中,分别計算出四個數值:分子質,cLogP, SA得分和QED,得出用裝飾模型生成的分子比誘導劑更傾向于遵循訓練集分布。

(2)用合成化學感覺模型裝飾骨架

在第二個實驗中,通過使用僅由符合合成化學RECAP規則的鍵連接配接的裝飾和類藥骨架進行訓練的裝飾器模型,ChEMBL資料庫得到使用和過濾。。與之前的實驗一樣,兩組骨架:一組僅存在于驗證集中的42個骨架,以及一組由生成模型生成的不在ChEMBL資料集的40個骨架。使用多步裝飾器模型對兩組骨架進行多次裝飾,每個骨架平均總共可産生12294和11504個不同的分子。驗證集件骨架上裝飾的分子占35.4%,結果略低于DRD2實驗中的結果。

J. Cheminform. | 基于SMILES的利用骨架的分子生成模型

上圖驗證了生成的分子的品質。結果表明裝飾模型能夠建立分子,這些分子除了在連接配接點上滿足RECAP規則外,還具有類藥物性,并且可以在任何骨架下合成。

另外,還使用與多步裝飾器相同的超參數和訓練集對單步裝飾器模型進行了訓練,裝飾了相同的骨架組,當計算上一節中所述的值時,下表可以看出整體性能稍差。

J. Cheminform. | 基于SMILES的利用骨架的分子生成模型

5

總結

作者提出了一種新的基于SMILES的分子生成模型,該模型可以從骨架生成分子。除此之外,還定義了一種算法,通過窮盡地切片分子的無環鍵并獲得所有可能的組合,将任意分子集處理為由骨架裝飾元組組成的集合。此外,它是一種資料增強技術,可以很容易地與随機SMILES結合使用小型分子集獲得更好的結果,該模型可以直接與各種已提出的技術結合,例如強化學習和遷移學習,以進一步指導分子的産生。