天天看點

Nat. Commun. | 機器學習在化學發現中的應用

2020年8月17日發表在nature communications上的一篇關于"Machine learning for chemical discovery"評論的文章,通訊作者是盧森堡大學實體和材料科學系的Alexandre Tkatchenko教授。發現具有所需屬性的化學物質是一個漫長而艱辛的過程。包含數百萬個分子的可靠量子力學特性的精選資料集變得越來越可用。從這些資料集中擷取化學知識的新型機器學習工具的開發具有革新化學發現過程的潛力。作者對這個新興領域的最新突破發表評論,并讨論未來幾年的挑戰。

邁向化學發現革命

分子和材料的計算設計和發現依賴于對日益增長的化學空間的探索。新藥、抗病毒藥、抗生素、催化劑、電池材料,以及一般具有定制特性的化學品的發現和配制,都需要轉變範式,在廣闊的化學空間中進行未知的大片搜尋 從量子力學(QM)的基本視角來看,這種範式的轉變源于分子特性表現出複雜的相關性,在多特性優化算法中,可以得到候選分子的整個帕累托前沿,實作 "設計自由"。以10多萬個類藥物小分子的資料為例,發現它們的分子電子(最高占用分子軌道-最低未占用分子軌道)間隙與它們的極化性完全不相關,這與廣泛引用的化學規則相反。這意味着有可能設計出高導電性和弱互相作用的分子,或者表現出穩定的介電擊穿但又具有強互相作用的分子。

Nat. Commun. | 機器學習在化學發現中的應用

顯然,化學發現不僅涉及到尋找 "特殊的分子",而且還涉及到預測反應途徑和分子之間的互相作用,優化催化條件,消除不受歡迎的副作用,以及其他許多重要的自由度。鑒于這種巨大的可能性空間,用統計學的觀點來進行化學設計和發現是必須的。這也是目前應用于分子和材料科學的機器學習(ML)技術興起的主要原因。目前的情況可以與20世紀80年代和90年代用于分子和材料模組化的量子化學和固态電子結構代碼的持續發展所取得的巨大進步相比較。穩步發展的更精确的量子力學近似和越來越高效的電子結構代碼導緻了 "化學模組化革命"。同樣,結合量子力學和統計力學的第一原理,并以越來越多的分子大資料為基礎,開發新的ML方法,可能導緻 "化學發現革命"。

化學發現和ML必将共同發展,但實作它們之間的真正協同作用需要解決許多突出的挑戰。利用ML提高分子模拟的準确性和效率的潛力已經毋庸置疑。資料驅動的高通量材料發現也已被确立為自己的領域。實體啟發的ML算法可以識别新的候選藥物,發現非晶材料中的新相,以基本精确的量子力進行分子動力學,并對化學環境提供前所未有的統計見解。到目前為止,這些應用大多是在理想化的條件下完成的。未來的工作應該集中在使分子模拟和ML方法更緊密的嵌入,通過ML算法結合QM和統計力學,開發共價和非共價分子互相作用的通用ML近似,并開發大型化學空間的定向探索算法。顯然,所有這些進展都應該在不斷增長的社群策劃的微觀和宏觀分子特性資料集上進行持續評估。

從分子大資料到化學發現

任何科學領域的ML模型的品質和可靠性都取決于資料的不斷增加。2010-2012年ML在分子和材料模組化中的首次應用依賴于包含100-1000 QM系統特性的小資料集。實體學啟發的ML模型和複雜的原子論描述符的發展是至關重要的,過去的8年中,ML模型的預測能力至少提高了兩個數量級,這是一個令人難以置信的科學進步。如今,先進的ML模型能夠通過僅從1%到2%的資料中學習來實作大分子資料集的QM特性的預測準确性。這樣的資料效率和準确性對于計算機化學發現至關重要。

最近,重點已轉移到建構和探索越來越大的化學空間。諸如QM9 ,ANI-1x 和QM7-X 之類的資料集包含多達10的7次方個分子結構的QM屬性,并能夠基本完全覆寫小類藥分子的化學空間。這些資料已被用于許多應用,如考證建構小分子的快速評估神經網絡勢能,開發改進的半經驗量子方法,以及對分子量子特性劃分為原子和碎片貢獻的新見解。

ML在分子模組化中的另一個獨特應用是ML驅動的分子動力學模拟。ML力場能夠結合高層次QM的準确性與經典力場的效率。例如,梯度域ML力場可以對小分子進行MD模拟,對電子和原子核進行基本精确的量子處理。對于元素固體,高斯近似勢(GAP)如今被用于對數千個原子的機關單元進行MD模拟,并獲得對物質的非晶态等的新認識。

化學空間的廣泛探索和單分子的長時間MD模拟都是化學發現的有利工具。ML的另一個重要應用是具有目标特性的分子的逆合成設計。最終,ML還應該能夠引導基于計算的新分子和材料發現,并通過實驗資料來證明這些發現。事實上,在尋找有機發光二極管、氧化還原流電池和抗生素等許多例子中,已經成功地進行了ML驅動的發現。

ML在化學發現中最顯著的方面是,對化學空間的相應的統計學觀點往往能夠提出新的問題并獲得新的見解。對大量化學空間的整體分析可以發現具有意想不到性質的分子,為新的化學反應機制提供提示,甚至提出新的實體化學關系。這種新的發現往往是由跨學科的研究團隊做出的,他們能夠協同結合他們的實體定律和專家知識,化學直覺和複雜的ML算法。

化學發現的機器學習前景

目前ML在化學發現方面的成功應用隻是觸及了可能性的表面。為了實作 "化學發現革命",還有許多概念上、理論上和實踐上的挑戰等待解決。在這裡,作者讨論一下認為目前最緊迫、最有趣的挑戰。

通用ML方法應具有準确預測分子的能量和電子性質的能力。此外,這種方法應統一描述在相同基礎上的組成和構型自由度。大多數現有的機器學習方法僅描述了相關自由度和理化觀測值的有限子集。該領域的進一步進步要求針對各種系統和理化特性開發通用的ML模型  。

從原子互相作用的角度來看,目前的ML表示法已成功地描述了局部化學鍵合,但它們完全錯過了長距離靜電,極化和範德華分散互相作用。分子間互相作用理論與ML的結合是研究複雜分子系統未來發展的重要方向。

一個新的想法是将ML與近似哈密頓量相結合,以基于密度泛函理論、分子軌道技術或多體分散方法的電子互相作用。ML方法用于預測哈密頓參數,并通過相應哈密頓量的對角化來計算量子力學可觀測值。挑戰在于在ML和近似哈密頓量之間實作更緊密的內建,并在預測精度和計算效率之間找到适當的平衡。

ML預測的驗證最終需要與實驗可觀察到的進行比較,例如反應速率、光譜、溶劑化能、熔融溫度以及其他相關參數。計算這些可觀察實體量需要将QM、統計模拟和快速ML預測緊密內建,所有這些都內建在一個全面的分子模拟架構中。

解決以上挑戰将需要提出創新的跨學科方法,将量子和統計力學、化學知識和複雜的ML工具緊密結合在一起,并以不斷增長的資料集為基礎,這些資料集涵蓋了廣闊的化學領域,并且領域越來越廣。

繼續閱讀