天天看點

Chem. Commun. | 利用基于遷移學習政策的transformer 模型進行Heck反應預測

今天給大家介紹的是浙江工業大學智能制藥研究院的段宏亮教授研究團隊發表在Chemical Communications上的文章 "Heck reaction prediction using a transformer model based on a transfer learning strategy"。

遷移學習是一種将某個領域或任務中學習到的基礎知識或模式應用到不同但相關問題中的方法,可以有效緩解因目标任務訓練樣本過少造成的負面影響。由于該方法的強大應用性,因而引發了研究者對其在化學領域的應用探索。作者以經典的小資料-Heck人名反應為代表,證明了遷移學習這一方法在反應預測任務上具有強大性能,同時進一步擴充了transformer這一語言翻譯模型在化學領域的應用,突破性地解決了有限資料預測的難題,為後續的人工智能輔助化學研發提供了重要的現實依據。

Chem. Commun. | 利用基于遷移學習政策的transformer 模型進行Heck反應預測

1.研究背景

Transformer模型是谷歌公司于2017年研發的一種語言翻譯模型。與經典的神經循環網絡(Recurrent Neural Network, RNN)不同,該模型完全依賴于注意力機制(attention mechanism)并且能夠更好地捕捉文字序列相關資訊。近年來,化學家逐漸将目光投向這一模型的實際化學應用并取得重大的突破。但是受限于化學資料的規模較小,對于小資料反應transformer模型的預測效果并不顯著。該文研究者創新性地提出使用遷移學習(transfer learning)來突破這個困局,使小資料的高精度預測能夠成為現實。值得注意的是,該文所使用的遷移學習,是一類經典的機器學習優化手段。該方法通過将化學領域的基礎知識轉移到特定的小資料預測,可以有效地提高模型對于小資料集的知識了解和性能預測。

在該篇文章中,作者選擇Heck反應作為代表反應用于驗證transformer + 遷移學習這一實驗政策方案的有效性。雖然Heck反應具有的區域選擇性和位點選擇會大大增加反應預測任務的難度(如圖1),但是考慮其是一個經典的人名反應,并且對于建構碳-碳鍵相關反應的基礎研究具有重大的意義,是以該實驗圍繞Heck反應預測為中心任務,以transformer模型和遷移學習優化手段為兩大有力工具,展開小資料預測探索的研究工作。

Chem. Commun. | 利用基于遷移學習政策的transformer 模型進行Heck反應預測

圖1. Heck反應通式及反應機理。

2.方法

2.1 實驗流程

作者通過建構一系列的對比實驗來評估transformer模型在Heck反應預測這一目标任務的表現。在該文章中,加入遷移學習的模型命名transformer-transfer learning模型,未含有遷移學習的參照模型則稱為transformer-baseline模型。

Chem. Commun. | 利用基于遷移學習政策的transformer 模型進行Heck反應預測

圖 2. Transformer模型預測Heck反應産物的方法示意圖。淺綠色背景中顯示的是加入遷移學習的Heck反應預測過程,右側白色背景中展示的是未加入遷移學習的Heck反應預測過程。

Transformer-transfer learning模型的訓練步驟主要分為兩步:預訓練和遷移訓練。第一步,transformer模型首先在含有大量基礎化學反應的資料庫上進行端到端的訓練,進而獲得基礎的化學知識。第二步,transformer模型将所學的這些基礎化學知識遷移到Heck反應預測的目标任務中并且在Heck反應資料集上進一步訓練,進而結合基礎化學知識以及Heck特有的化學資訊特征。最後,模型根據預訓練和遷移訓練過程中學習到的知識要素做出相應的Heck反應産物的預測。而transformer-baseline模型作為對比組,僅僅在Heck反應資料集上進行訓練,然後做出相應的預測。具體的步驟如圖2所示。

2.2 實驗資料

該實驗涉及兩個資料集:預訓練資料集和Heck反應資料集。預訓練資料集是用于學習基礎的化學反應知識進而彌補目标小資料集因資料缺乏導緻的基礎資訊過少的缺陷。該資料集來源于美國專利資料庫,共包含37萬個實際應用化學反應,涵蓋大部分的基礎化學知識。而Heck反應資料集則是該文作者自己進行資料挖掘工作建立的。研究者從Rexays商業庫中下載下傳實驗資料,經過一系列的資料清洗工作,最終獲得9959個符合要求的Heck反應用于驗證明驗的有效性。這裡值得注意的是,為了避免模型直接從預訓練資料中獲得關于Heck反應的資訊導緻對于遷移學習這一政策評估混淆,該實驗特地删除了預訓練資料中關于Heck反應的有效資訊,進而保證了評估模型性能的真實性。表1為具體的Heck反應資料集資訊。

表1. Heck反應資料集分布。

Chem. Commun. | 利用基于遷移學習政策的transformer 模型進行Heck反應預測

3.研究結果

3.1 模型表現

Transformer-transfer learning模型無論對于分子間還是分子内Heck反應的預測都具有非常強大的預測性能:對于分子間的Heck反應預測,transformer-transfer learning模型的top-1準确率能達到95.3%,而對于資料量較少且更為複雜的分子内Heck反應預測,transformer-transfer learning模型的top-1準确率仍能達到87.7%。但是與之相比, transformer-baseline模型對于這兩類反應的預測表現并不使人滿意,分别隻有66.7%和58.7%的準确率。表2為具體的結果分析,從這些結果中可以展現transformer + 遷移學習這一實驗政策方案的強大之處。同時,研究者也指出遷移學習的确能夠非常有效地增進transformer模型對于資料資訊的提取。無論是化學資訊還是序列之間的對應關系,transformer模型通過遷移學習能夠對其有更深刻的認識。

Chem. Commun. | 利用基于遷移學習政策的transformer 模型進行Heck反應預測

考慮到分子間Heck反應能為工業上和醫學上各種重要的取代烯烴和二烯烴的合成提供了簡便途徑,作者又根據反應物的類型(乙烯、單取代烯烴、二取代烯烴和三取代烯烴)來進一步展開讨論transformer對于分子間Heck反應的預測性能,并且希望通過該分析能夠對于實際的合成産生現實意義的引導。

表3. Transformer-transfer learning模型和transformer-baseline模型對于一取代烯烴作為反應物參與的分子間Heck反應預測的top-1準确率。

Chem. Commun. | 利用基于遷移學習政策的transformer 模型進行Heck反應預測

如表3所示,對于以乙烯作為反應物的分子間Heck反應,transformer-transfer learning模型的top-1準确率達到97.1%,展現了該模型的高精度預測性能。雖然研究者指出一取代烯烴在發生分子間Heck反應的過程中會面臨區域選擇性問題,導緻模型對于這一類反應的預測難度的增加,但是對于這一涉及複雜的區域選擇性反應的預測,transformer-transfer learning模型仍表現其強大的預測能力。此外針對涉及到以二取代和三取代烯烴作為反應物的分子間Heck反應, transformer-transfer learning 模型仍然能取得較好的預測效果。

與此同時,作者指出,含有多個鹵素或雙鍵的反應物在發生Heck反應時也會涉及到位點選擇性問題。在Heck反應資料集中,共有375個Heck反應具有含多個雙鍵的反應物。對于這一類反應,transformer-transfer learning 模型也取得了不俗的成績,獲得了85.3%的top-1準确率。而對于反應物中含有多個鹵素的Heck反應,transformer-transfer learning 模型的top-1準确率能達到91.9%。

Chem. Commun. | 利用基于遷移學習政策的transformer 模型進行Heck反應預測

圖3.Transformer-transfer learning模型預測正确的Heck反應示例。A, 涉及區域選擇性的反應例子:(a) β位插入,得到 (E)-1, 2-二取代烯烴;(b) α位插入以獲得1, 1-二取代烯烴;(c) β位插入以獲得 (Z)-1,2-二取代烯烴。B, 涉及位點選擇性的反應例子:(a) 烯烴反應物中存在多個碳-碳雙鍵;(b) 烯烴反應物中存在多種鹵素。

3.2 實驗驗證

為了證明transformer-transfer learning模型的實際應用性,作者根據模型的預測方案進行化學實驗。根據實驗結果,該研究獲得了兩個文獻中未報導的Heck反應産物。作者指出transformer + 遷移學習這一政策方案的确可以作為化合物設計的先導手段對實驗合成提供有效的方向指導。

Chem. Commun. | 利用基于遷移學習政策的transformer 模型進行Heck反應預測

圖4. 化學實驗得到的産物與transformer-transfer learning模型預測産物的比較。

4.結論

在這項工作中,作者将遷移學習政策與transformer模型結合,以Heck反應作為代表,進行小資料的化學反應預測。經實驗證明,在引入遷移學習政策後,Heck反應預測的top-1準确率從66.3% 提高到94.9%,展現出遷移學習對于transformer模型強大的性能增強作用。同時,該研究也指出transformer + 遷移學習這一政策方案這種方式的确可以有效解決以資料為驅動的模型在小資料領域的應用困局。為了驗證這一方法的現實适用性,作者通過以模型給出的候選方案進行實驗合成,并且成功地獲得了兩個未報導的涉及區域選擇性和位點選擇性的Heck反應産物。通過理論和實驗的結合,該研究充分顯示了Transformer-transfer learning模型在現實上的應用價值。

在人工智能輔助化學反應預測這一領域,化學資料的缺乏極大地阻礙了這一方向的進展,該研究創造性地提出使用遷移學習優化手段以及transformer模型來突破這一難關。我們有理由相信這一優化政策可以應用到更多的化學反應預測任務并且極大提高這類方法的實際應用能力。