天天看點

化學合成的資料科學革命加速,自動化、實時分析和 AI 是「催化劑」

作者:ScienceAI
化學合成的資料科學革命加速,自動化、實時分析和 AI 是「催化劑」

編輯 | 綠蘿

自動化和實時反應監測使資料豐富的實驗成為可能,這對于駕馭化學合成的複雜性至關重要。将實時分析與機器學習和人工智能工具相結合,可以加速最佳反應條件的識别并促進無差錯的自主合成。

不列颠哥倫比亞大學的研究人員在《Nature Synthesis》發表題為「Automation, analytics and artificial intelligence for chemical synthesis」的評論,強調了資料豐富的實驗和跨學科方法在推動合成化學未來發展方面的重要性越來越大。

化學合成的資料科學革命加速,自動化、實時分析和 AI 是「催化劑」

自動化在合成「迷宮」中的作用

合成大多數分子需要進行多步轉化、平衡輸入材料(溶劑、試劑、催化劑)、反應參數(溫度、添加順序、時間)以及後處理和純化政策。穿越這個多因素挑戰類似于在資源有限的迷宮中搜尋。

從曆史上看,化學家必須借鑒以前的經驗,制定謹慎的政策并根據有限的資料做出決定。實驗室自動化等使能技術(Enabling technology)從根本上改變了現狀,提高了分析反應資料的數量和準确性,進而可以在更短的時間内做出更好的決策。可以部署諸如高通量實驗 (HTE) 之類的技術來快速調查可能的反應條件,但這些技術通常隻能提供固定反應時間的分析産率百分比,而放棄與反應機制或動力學有關的關鍵細節。

化學合成的資料科學革命加速,自動化、實時分析和 AI 是「催化劑」

圖 1:通過超高效液相色譜分析的 Suzuki–Miyaura 交叉偶聯顯示了起始材料以及産物和常見副産物的不同峰面積與時間的關系。(來源:論文)

推論政策,稱為資料豐富的實驗 (DRE),側重于提取實時反應程序資料,量化所有可測量的物種或參數,并為單個反應提供全面的逐個播放。使用實時監控進行路線偵察和優化可提供反應動力學的詳細圖檔,揭示反應中間體、速率常數和副産物反應途徑等關鍵資訊。

自動化是使 DRE 方法成為可管理和富有成效的努力的關鍵使能工具。首先,需要硬體和儀器自動化來準确地協調整個反應過程中反應等分試樣的捕獲和分析。這取決于選擇的分析技術(高效液相色譜-質譜、核磁共振光譜、高分辨率質譜)在不同程度上适用,但在所有情況下,反應過程測量所需的頻率,精度和延長的持續時間都不利于人工操作。其次,反應分析資料的龐大數量和複雜性需要軟體自動化技術來幫助注釋、處理原始資料并将其轉換為代表每個反應組分的濃度與時間陣列的趨勢。最後,複雜的反應操作可以自動化執行,例如溫度或催化劑劑量的精确變化,允許從單個反應中提取資料,這通常需要多次實驗。

用「規則」和「目标」代替發條式執行

目前的資料驅動反應研究範式幾乎完全側重于使用人在回路中的步驟将資料轉換為資訊。這意味着分析工具建立實時反應趨勢,然後由操作員解釋以計劃或指導實驗活動。固定的多變量統計工具,例如實驗設計或優化政策(例如批處理貝葉斯優化)利用自動化來擷取大型資料集,但最終的解釋和腳本編寫是手動的。

現在存在一個緊急機會,實時監控的遙測技術可用于顯著加速過程優化和反應發現。可以利用實時資料,使自動化系統能夠接收有關流程的關鍵回報。這既確定了預期實驗的準确執行,又增強了自動合成協定的可轉移性和可重複性。可以使用相同的資料集來允許自動反應硬體适應變化的環境。這在嘗試執行多步轉換時具有令人難以置信的影響,因為必須在合成進行之前形成前體。代替在設定時間添加強定數量材料的寫死腳本,可以訓練反應器在第一個反應完成時添加足夠的試劑。這些條件參數允許進行更典型的傳統研發工作流程的即時更正,并通過提供遵循實驗「規則」實作的合成「目标」,為無差錯自主合成打開大門。

人工智能和機器學習增強反應設計的潛力

機器學習 (ML) 和人工智能 (AI) 工具是實驗資料驅動工作流程的強大補充,可加速反應條件的識别。預測模型是根據從 HTE 或文獻來源獲得的實驗資料建立的,這些資料可以建議執行未知轉化的反應條件。此外,通過将機器人反應執行、端點采樣和資料提取與 ML 優化算法相融合,建立了自主優化平台。使用這些方法,可以減少确定理想條件所需的實驗次數,但是,這兩個示例都将實驗結果減少到單個數量分數,例如産率百分比或立體選擇性百分比。這些政策有其優點,但減少到固定時間的單一測量掩蓋了化學反應固有的複雜性。

許多研究表明,從現有文獻中提取反應性能資料(産率)會導緻混合結果。資料偏向于最常釋出的條件,導緻提取流行的反應參數而不是最佳條件。更糟糕的是,定量測量以及應用的條件或技術的異質性使得無法區分報告的産量是實驗失敗還是分離困難的結果。對報告的合成資料進行同質化和系統化的嘗試正在出現,但是,它們仍處于起步階段。

HTE 自動化系統生成的資料集更加一緻,但仍可能存在系統性偏差,限制了它們的廣泛适用性。特别是,選擇用于分析所選分析名額的時間點可能會提供假陽性或假陰性資料。例如,記錄的低産品收率可能是由于反應組合啟動延遲,或者所需産品在反應條件下不穩定。是以,選擇錯誤的時間視窗來詢問反應可能會導緻被詢問的系統過于簡單化或誤解。雖然來自 HTE 的稀疏資料可以作為路标,但許多真正有趣和意想不到的突破被遺漏了。

實時反應監測具有關鍵優勢,預測模型可以使用完整的動力學資料進行訓練。這些全面的資料解決了與資料完整性、偏差和過度簡化相關的所有問題。首先,通過記錄整個反應曲線,可以捕獲和解釋不同研究人員的反應性能差異。不比對将有助于集中精力糾正協定傳輸失敗的問題。其次,将捕獲反應物種的全部演變,進而描繪出目标材料以及副産品和中間體的演變。這些趨勢将作為未來反應發現的有用中繼資料,因為它們捕獲了可能的轉化,即使它們不是研究的重點。最後,使用經過适當訓練的神經網絡,可能需要很少的反應趨勢才能明确地對基礎機制進行分類。一般來說,ML 方法的模式識别能力非常适合訓練整個反應的複雜模式。

總的來說,合成化學領域的資料科學革命正在加速,增強了對強大的、資料豐富的實驗的需求。實時反應分析已被用于顯著減少達到分子目标所需的時間。通過進一步将這些自動化資料收集方法與新的 ML 和 AI 工具聯系起來,預測最佳條件和發現新合成路線的能力将呈指數級增長。

論文連結:https://www.nature.com/articles/s44160-023-00335-1

繼續閱讀