天天看點

J Cheminform.|基于子結構的神經機器翻譯用于逆合成預測

随着機器翻譯方法的快速改進,神經機器翻譯已經開始在逆合成設計中發揮重要作用,為目标分子找到合理的合成路徑。以往的研究表明,利用神經機器翻譯的序列到序列架構是解決逆合成設計問題的一種有前途的方法。這項工作中,研究人員使用一個無模闆的序列到序列的模型将逆合成設計問題重構為語言翻譯問題。該模型是以端到端和完全資料驅動的方式進行訓練。與之前翻譯反應物和産物的SMILES字元串的模型不同,研究人員引入了一種基于分子片段的新的化學反應表示方式。事實證明,新方法比目前最先進的計算方法産生了更好的預測結果。新方法解決了現有逆合成方法的主要缺點,如生成無效的SMILES字元串。此外,研究人員的方法比現有的方法産生更穩健的預測。

J Cheminform.|基于子結構的神經機器翻譯用于逆合成預測

方法

資料集

本研究中,研究人員使用了過濾後的美國專利反應資料集USPTO,該資料集是通過文本挖掘的方法獲得的。Schwaller等人在沒有原子映射的情況下,消除了資料集中重複的反應字元串。使用RDKit删除了780個由于SMILES規範化失敗的反應。資料的固有局限性在于,絕大多數條目都是單産物反應。是以,本研究中隻使用了對應92%的資料集的單産物案例。

研究人員的方法中,分子被表示為一組使用由166個預定義子結構組成的MACCS鍵的片段。這種基于二進制位的分子描述符将分子轉換為166個位向量,其中每個位表示存在一個從預定義的SMARTS模式字典中提取的特征。

描述符策劃

研究人員的方法中,一個分子被表示為一組使用MACCS鍵的片段。研究了資料集中每個MACCS鍵的出現次數。此外,研究人員還比較了100萬個随機抽樣的類藥小分子的結果,是由9.75億個分子組成的GDB-13的子集。本研究中,省略了5個從未出現過的鍵和9個在USPTO資料庫中不常出現的鍵。根據比較,還排除了GDB-13資料庫中從未或幾乎沒有觀察到的另外26個密鑰。

J Cheminform.|基于子結構的神經機器翻譯用于逆合成預測

反應預處理

研究人員的模型隻考慮策劃MACCS鍵的非零指數。英語字母根據其頻率的排序被配置設定到非零MACCS鍵上,形成獨特的人工 "單詞"。這種進一步的編碼将産物和反應句轉化為基于頻率排序的字母鍵版本,意味着單詞的位置資訊,并使研究人員的方案适合使用序列到序列架構。單字母單詞使用英語中最常見的21個字母的大寫和小寫生成。雙字母詞是通過為每42個單字母添加 "x "和 "z "來建構的,這使得可以覆寫所有126個MACCS鍵。是以,研究人員的字母片段詞彙的長度固定為126個。

J Cheminform.|基于子結構的神經機器翻譯用于逆合成預測

反應資料集管理

産物-反應物對資料集在經過研究人員的翻譯機處理之前被進一步整理。用126個截短的MACCS鍵代表每個分子後,應用了一系列過濾器以去除相同的産物-反應物對和内部孿生分子。隻要化學變化超出了基于MACCS鍵的表示的敏感性,它們就會出現。由于将分子與MACCS鍵關聯以在子結構子空間上進行操作,是以會丢失一定數量的資訊。

然後将産物-反應物對放入内射圖生成器中,以確定産物和反應物句子之間一一對應。如果一個反應物句子由兩個反應物組成,研究人員将根據它們的序列長度按降序對它們進行排序。反應物之間用“ –”号分隔。所整理的資料集總共包含352,546個産物-反應物對,進一步按每對中反應物分子的數量細分為兩個不相交的子集:單一反應物和雙重反應物資料集。以這種方式組織資料集對于獨立評估模型性能至關重要。

J Cheminform.|基于子結構的神經機器翻譯用于逆合成預測

模型架構

研究人員序列到序列神經網絡由兩個雙向LSTM組成:一個用于編碼器,另一個用于解碼器。此外,他們使用單向LSTMs來量化使用雙向LSTMs後模型性能的提升。編碼器和解碼器層通過Luong的全局注意力機制連接配接,該機制捕捉了源序列所有元素之間的非局部關系。注意機制允許神經網絡關注源句子的不同部分,并在訓練過程中考慮詞之間的非線性關系。本研究中使用的全局注意力機制,本質上類似于Bahdanau等人提出的第一個注意力機制,用于機器翻譯任務。全局方法将 "注意力 "集中在源句上的所有詞上,以計算出解碼單元中每個目标詞在每個時間步的全局上下文向量。是以,全局上下文向量代表了所有源隐藏狀态的權重和。這些上下文資訊可以提高預測精度。

結果與讨論

預測精度

J Cheminform.|基于子結構的神經機器翻譯用于逆合成預測

基于雙向LSTM的模型優于基于單向LSTM的模型。對于所有資料集,精确比對的成功率始終降低約6%。這可能是由于基于分子的MACCS密鑰表示不依賴于密鑰的順序。換句話說,有關分子和化學反應的大多數資訊都嵌入到鍵的共現中。

資料與代碼

https://github.com/knu-chem-lcbc/fragment_based_retrosynthesis

結論

研究人員開發了一種序列到序列的NMT模型,通過學習子結構層面的關系,自動提取化學反應的反應規則。通過建構小尺寸固定長度詞彙的MACCS鍵非零元素的抽象語言,共同解決了三個概念性問題。(1)不穩定的預測。基于SMILES的表示方法使得模型結果容易出錯;(2)合成可用性:預測的分子可能無法合成;(3)精度名額:模型提出的建議可能因模型運作而不同。對比和品質檢查表明,研究人員的方法在0.90<Tc≤1.00的區域内成功地産生了候選反應物,實作了較高的整體準确度,特别是在官能團互換或鍵的斷開和反應性官能團處。研究人員認為,這種提出的方法在有機化學領域具有很高的廣泛應用潛力。