天天看點

Nature | 有機合成的數字化

2019年7月,普林斯頓大學的Ian W. Davies學者在Nature上發表了一篇文章——有機合成的數字化。

Nature | 有機合成的數字化

1

摘要

有機合成基本上是由學術實驗室進行的,這些實驗室由專門研究某些特定化合物或合成步驟的資助。盡管現代合成方法可以幫助我們獲得相當複雜的分子,但是預測單個化學反應的結果依舊存在困難。隻有通過智能決策幫我們選擇最優的合成步驟(包括效率、品質和産量在内的名額為指導),關于預測“箭頭上方”的反應條件的技術才能獲得進步。是以通信和資料共享的方法需要從傳統工具發展為機器可讀的方法和開放式協作架構。這将會加速創新并需要建立具有标準化資料處理,管理和名額的化學物質公共資源。

2

背景

20世紀60年代,關于計算機輔助設計化學合成這個想法已初見苗頭,但遭受到大多化學家的質疑,最終以失敗告終。而如今,計算機輔助設計有機合成變得十分普遍。

3

簡介

這篇文章從四個方面介紹了目前計算機輔助設計有機合成的情況。

面對傳統文化和資料收集的挑戰

有機化學合成的複雜性

新出現的利用強化資料的方法進行創新的例子

加速未來發展

4

4.1 深度學習算法概念

Nature | 有機合成的數字化

圖 1

每一位化學家都接受過良好的訓練,有着一定的知識儲備量,當他們面臨一個新的合成問題時,都會與自己之前所學習到的知識進行比較,這與深度學習算法概念類似。

在進行有機合成設計時,要考慮到很多因素,如:産率、選擇性、溫度、溶劑、配體等。如果隻是人類依靠在筆記本上寫寫畫畫,很難進行順利。這時我們不得不依靠深度學習算法,讓計算機來幫助我們。

4.2 面臨的挑戰

(1)在沒有多種起始材料的情況下,資料通常是破碎的且很難整理。

(2)與人性有關的另一個障礙是,當反應失敗時,實驗者通常不關心完整的實驗記錄,而是選擇放棄,開始另一項任務。

4.3 解決方法

不得不進行統一收集、清理和标記資料,希望科學家們可以共享自己的實驗資料并呼籲政府和慈善機構調整獎勵機制,使資料廣泛可得。

5

執行有機合成的複雜性

5.1 有機合成反應複雜

Nature | 有機合成的數字化

圖 2 針對maoecrystal V化合物合成中某個步驟進行優化

上圖中是天然産物Maoecrystal V合成路線中第七個步驟所要考慮的因素,包括:溶劑、試劑、添加順序、溫度、反應時間等16個因素。該圖很好地說明了有機合成的複雜性。

5.2 文化影響

受過良好訓練的有機化學家會閱讀文獻,并生成最合理地滿足他們目标的反應步驟。但是,這些人為的預測通常會因為文化或公司以前的路線選擇而有偏差。

5.3 商業利益和監管壓力

商業和監管方面的壓力使得科學家在早期發現的一系列潛在途徑中,不得不采用單一方法進行驗證進而商業化。

6

6.1 Merk公司

Merk公司使用高通量實驗和分析技術系統建構工具,以解決資料的空白。詳情:以普遍的钯催化交叉偶聯反應為例,結合機器人技術和高通量分析技術,在室溫下進行自動化反應。使用這種裝置,每天可以進行1500個實驗,且每個反應隻需要0.02mg的起始原料。為了減少分析時間,高通量實驗可以與先進的質譜方法聯用,在幾分鐘内對就可以對數千個實驗進行分類。

6.2 The Doyle laboratory

Doyle實驗室使用了一種機器人同時進行的評估方法,該方法具有三個1,536孔闆,該闆由芳基鹵化物,Buchwald配體,堿和添加劑的完整矩陣組成,總共進行了4,608個反應。這些反應的産量用作模型輸出,并提供了一個幹淨,結構化的資料集,其中包含的反應維數大大超過了以前使用機器學習檢查的反應維數。大約30%的反應無法提供任何産物,其餘的則在非零産量範圍内相對均勻地分布。使用Sigman小組推廣的概念,建構了腳本來計算和提取交叉耦合元件的原子,分子和振動描述符。使用這些描述符作為輸入,并以反應産率作為輸出,發現随機森林算法可提供較高的預測性能。

為了訓練此反應的模型,對脫氧氟化反應的640個篩選反應中使用的底物和試劑制成表格。使用了随機森林算法,并對70%的篩選條目進行了訓練。使用包含192個反應的測試集評估模型,并在訓練集之外的5種結構不同的底物上進行驗證。模型對這些反應的産率進行了合理的準确預測,可以讓化學家評價反應的可行性和選擇初始反應條件。與以前的研究相比,該訓練集小80%,涵蓋了更廣泛的底物多樣性,并納入了多種機制。若将該脫氧氟化反應的訓練集進行擴充,将其他變量(即化學計量,濃度,溶劑和溫度)也考慮進去,從可能會使複雜反應空間更準确、更全面。

Nature | 有機合成的數字化

圖 3 利用機器學習預測脫氧氟化反應

6.3 流體化學

流體化學為加速反應提供了另一個發展機會。輝瑞團隊最新推出的基于連續流體化學的自動化合成平台,克服了一個常見的問題,即有限的材料量不允許應用流體化學篩選。該團隊使用喹啉(3a-g)和吲唑酸(4a-d)證明平台具有制備有用數量材料的能力,該團隊根據篩選的最佳條件對100個連續片段的進樣進行了程式設計,進而每小時可制備約100 mg目标分子。

該團隊對反應條件涉及到的4種溶劑,11種催化劑,7種堿,以及兩個反應物可能帶的不同活性基團的總計5760種反應組合進行了評估。并利用其液質聯機實時分析的優勢得到了産率熱圖(圖4a)。

化學合成可能不再僅僅是人類活動。在一項Cronin實驗室最近的研究表明,由機器學習算法控制的機器人反應處理系統可能能夠比人工過程探索有機反應快一個數量級。機器人方法能夠以結構化的方式捕獲有關失敗或非反應性實驗的資訊,使其可用于反應作圖。在考慮大約10%的資料集結果後,強大的機器學習算法能夠從上述輝瑞資料集中預測1,000種反應組合的反應性,且準确性高于80%。

這三個機器學習示例中的一個共同主題是:可以使用相對較小的資料集進行預測,在某些情況下,資料集僅占反應總數的10%,就可以預測剩下的90%的結果,而無需身體進行實驗。高保真資料可以源自高通量篩選,流體化學或單個科學家,但最重要的是能夠提供有效,安全和準确的資料。這很重要,因為目前尚不知道這些資料集需要多大才能預測藥物空間的分子。自然地,某些反應性趨勢可能反映了各個實驗的進行方式,但并不能真正說明特定的催化劑或配體。作者提出了一種使用經整理後的類藥物分子庫進行診斷的方法,即“資訊庫”,以更好地捕獲反應範圍和反應條件,但是随着時代的發展,這隻是我們要做的一小步。

Nature | 有機合成的數字化

圖 4 加速流體化學和反應預測的發展

7

在有機合成的200年曆史中,還沒有開發出合适的收集、清理和标記資料的方法。在人類基因組中,所有的DNA序列資訊都是免費的且公開的。研究者可以在政府和慈善機構的幫助下進行資料共享,采用現代化方法避免主資料重複。未來,有機合成的數字化會持續發展,計算機能力不再是問題。

繼續閱讀