天天看點

JMC | 人工智能在藥物合成中的目前和未來作用(3)

人工智能和機器學習已經證明了其在預測化學性質和小分子合成設計中的潛在作用。資料驅動的合成路線設計是由MLPDS(Machine Learning for Pharmaceutical Discovery and Synthesis)聯盟開發和評估的一部分,該聯盟包括MIT和13個化學和制藥公司成員。他們一起寫了“Current and Future Roles of Artificial Intelligence in Medicinal Chemistry Synthesis”刊登于2020年4月JMC,分享了如何将預測模型整合到藥物合成工作流程中,如何在MLPDS成員公司中使用預測模型以及該領域的前景。

JMC | 人工智能在藥物合成中的目前和未來作用(3)

名詞

CASP

Computer Aided Synthesis Planning

計算機輔助合成路線設計

MLPDS

Machine Learning for Pharmaceutical Discovery and Synthesis

DMTA

design, make, test, analyze

ASKCOS

Automated System for Knowledge-Based Continuous Organic Synthesis

全文分為三個Section,本文主要介紹Section 3。

Section 1: CASP如何幫助藥物化學發現;

Section 2: 如何在制藥和化學工業中使用CASP;

Section 3:如何使CASP更好。

JMC | 人工智能在藥物合成中的目前和未來作用(3)

将CASP內建到藥物化學工作流程中的工作正在進行中,但是在實踐中開發和部署機器學習CASP工具仍然存在許多挑戰。綜合規劃軟體的采用正在獲得發展勢頭,并且通過促進“制造”部分而開始對DMTA周期産生影響。盡管更多的化學家正在使用CASP工具,但是許多小組在未将其代碼開源或根據要求提供代碼的情況下釋出了合成計劃方面的進展,進而阻礙了進步和可重複性。此外,度量标準的标準化應與可公開獲得的資料集達成共識,因為禮節性資料通常不會或無法共享。

建立成功名額

評估單步逆合成模型性能的最常用名額是top-k精度。使用已知的單步反應的測試集評估該度量,并基于預測的前k位中真實斷開的精确比對進行計算。盡管top-1準确性對于模型開發很有用,但它是一個很差的名額,因為總是存在多個可以在實驗室中成功執行的逆合成斷開連接配接。使用小k(1-3)的top-k精度進行模型評估意味着,實際上逆合成是一個模糊的預測,是以,已發表的方法是“正确答案”之一。盡管沒有在資料庫中記錄多個答案,但可能有許多正确的事實,是以諸如top10精度(或更大的k)之類的名額更合适,但也會提高精度,這可能無法正确反映模型的性能。一個簡單的例子是,如果一個程式選擇了溴和氯作為離去基團,以便進行簡單的取代;根據嘗試的反應,兩者都可能在實驗中成功。

另一個重要但很少報道的名額是預測的多樣性。從大多數化學家的角度來看,top-k精度可能不一定總是選擇逆合成工具的最重要因素。對于合成路線設計,尚未考慮的關鍵斷開與建議的可行性同等重要。在開發模型時需要權衡一些建議,這些建議必須可行,有用且可行。有時對于想法的産生不是很明顯。一個高度可行,無用但很明顯的建議示例是在不建立複雜性的情況下進行簡單的功能團互轉。相反,一種不可行,非常有用且不明顯的建議是在沒有已知化學方法實際進行反應的情況下建議破壞鍵。使用top-k準确性對單步預測進行評分可以獲得可行的建議,同時采用啟發式方法将模型引向有用的斷開連接配接。權衡隻能由能夠對許多建議進行分類的專業化學家進行評估,盡管化學家的評分是主觀的,并且經常偏向于他們所熟悉的化學。為社群廣泛采用而定義“理想”名額的困難在于平衡準确模型的開發和提供各種建議的模型之間的平衡。

JMC | 人工智能在藥物合成中的目前和未來作用(3)

類似于為單步逆向合成預測定義名額,開發全路線設計算法的主要障礙是評估預測路線的困難。可以按照上述方法評估每個單獨的逆合成步驟,并将路徑搜尋的效率作為附加标準。有時會使用簡單的名額來評估路線設計軟體,但無法完全反映出不同類型化學家的許多需求的複雜性。人們可能會問的一個問題是,這些模型是否能夠提出先前已釋出的路線。人們不希望隻建議釋出的路線,因為查找就足夠了。由于存在許多斷開連接配接的選項組合空間,是以不希望僅根據文獻中出現的建議來懲罰路線設計。路線設計的另一個問題是模型是否能夠提出化學上可行的路線。由于可行性評分尚未得到定量解決,并且存在其自身的錯誤和局限性,是以基于合成可行性評估不同的CASP軟體包非常困難。

路線設計的主要要求是路線的多樣性,但就完整路線而言,多樣性仍不确定。路線多樣性不僅取決于單步建議,還取決于導航全合成樹的方法。多樣性可能意味着許多路線的暗示,其中有些非常相似,但在所有途徑中,有一些途徑截然不同。與單步建議類似,如果可行,則沒有必要提出多種路線建議,目前唯一可行的驗證方法就是進行建議的綜合。路線設計的最重要因素是速度,速度取決于用于搜尋的停止标準以及一種被視為可購買的化學原料。通常會在速度和路線品質之間進行權衡,但這可以調整為使用者的需求。

藥物化學家可能希望看到共享共同中間體的途徑,這些中間體可以加以詳細說明。這提供了導緻靶分子最高多樣性的通用途徑,但可能不是通向任何單個化合物的最佳途徑。另一方面,過程化學家可能希望看到高度收斂的路線,但希望以可視化的方式提出許多多樣的路線建議,因為他們将擁有計算模型無法捕獲的更複雜的考慮因素。最後,需要快速獲得結果以提供比傳統資料庫搜尋和手動路線設計更大的價值。逆合成算法的平衡計分,包括評估模型性能的準确性,滿足化學應用的多樣性以及收斂性,是一個困難的多目标優化問題。

資料、通用基準和評估方法

當然,機器學習模型被認為受益于數量更多,資料更豐富。公司和大學用于捕獲和報告資料的機制對于進一步發展合成設計中資料驅動方法的發展至關重要。在資料庫中不經常記錄的資料示例是替代反應或條件,這些條件或條件已在測試新化合物或天然産物的過程中進行了測試。有關路線演變的讨論記錄在文獻報告中,但是當翻譯成資料庫條目時并不會總是被捕獲。該資訊對于化學家确定合成路線的政策非常有用,但在構模組化型時不會捕獲。另一個考慮因素是,記錄文獻報告的資料庫通常僅包含具有較高收率的正面資料。大多數反應預測變量都受過成功反應的訓練,是以無法預測反應是否具有較低的轉化率。另外,由于與鑒定所有化學種類有關的時間和費用高,是以通常不公開反應混合物中副産物或副産物的完整表征。這限制了建構反應性預測模型的能力。最終,存在未被捕獲的資料,例如未釋出的催化劑篩選活動。但是,資料捕獲正日益成為許多公司關注的話題,并且它們的報告有望進入公共資料集。與使用統計學習的方法相比,使用專家編碼規則的CASP方法對資料可用性更不敏感,因為人類可以促進将少量反應先例推廣到更廣泛的規則。盡管如此,這些方法仍将受益于更豐富的資料,因為對規則進行編碼的專家将對反應有更好的了解。

JMC | 人工智能在藥物合成中的目前和未來作用(3)

所有MLPDS成員公司尚未對基于公司資料的機器學習模型進行再訓練。如前所述,禮來公司在訓練逆合成模型時僅發現将USPTO包含在其内部資料中的好處不多。這些結果表明,内部反應資料集可能包含藥物化學程式中最常使用的主要“主力”反應的足夠代表性示例。這就提出了一個問題:對公司資料進行再訓練的模型會不會僅僅給出可以增強最受歡迎的化學物質的建議?答案取決于可以使用CASP工具的化學設定。

藥物化學程式中,需要通路與目前分子不同的化學空間,是以新的反應類型對于合成非傳統的,日益複雜的目标分子可能是必不可少的。但是,如果可以通過可靠的化學方法合成靶标分子,則CASP建議采用化學方法已确立的方法,而不是具有許多未知數的創造性方法。通過使用通用化學方法識别路線,藥用化學家還可以通過優先考慮可以外包的合成物和需要在内部執行的合成物,更準确地預測到目标時間表。盡管如此,CASP工具的使用者還是希望看到更多具有創造性的建議,特别是那些在過程化學部門工作的建議。這通常是因為如上所述,對路徑最佳性的考慮比工具能夠處理的更為複雜或主觀。

此外,如果将CASP工具與自動合成平台結合使用,則加強反應的問題可能并不那麼重要。對于自動合成,如果CASP系統推薦了公司内部經常使用的簡單而堅固的化學方法,則可以避免化學家必須設計或執行簡單化學方法的負擔。即使藥物化學程式中的一小部分反應可以實作自動化,也可能會對通路新靶标分子的時間表産生重大影響。這使化學家有更多時間專注于稀有化學方法,這是建立複雜性的關鍵步驟,進而有助于向新化學領域的擴充。随着新化學方法的發展,它們可用于進一步訓練和完善CASP模型。存在不同的合成設計方法,并且不同模型之間的比較目前尚未标準化。盡管目前對完整合成途徑進行評分的名額并不完善,但仍需要開發開放通路共享的基準測試平台或資料集,以便研究人員可以比較合成軟體和算法。為研究人員提供通用的測試集以對其系統進行基準測試是一項艱巨的任務。随着領域的發展,提供給測試集的分子将不得不進化,因為随着時間的流逝,它們将被包含在資料庫中進行訓練。訓練資料的基本分布也會随着時間而變化,是以,由于訓練資料中新的反應和結構的表示形式較高,是以較新模型上的通用測試集的名額看起來可能會更好。更好的辦法是還提供一個開放的訓練資料集,以使訓練和測試集對于每個釋出的資料驅動模型都是通用的。由于某些系統在其算法中納入了專家編碼的規則,是以基準化後合成軟體也變得很複雜。這意味着這些編碼規則與測試集之間可能存在重疊,而純資料驅動的方法則在訓練資料和測試資料之間有明确的差別。即使采用了更好或更标準化的名額,化學家最終仍将使用适合他們的程式。在他們所操作的化學範圍内定義有用的化合物,并通過建議在實驗室中成功的途徑來證明其實用性。

CASP的其他機會

盡管讨論的重點是評估和基準化目前合成設計工具的難度,但許多其他預測性任務的進展可能會對藥物化學合成工作流程産生重大影響。例如,條件推薦系統通常集中于以已知或可能唯一的組合來預測已知試劑。催化反應的資料非常有限,因為經證明成功的獨特催化劑/配體通常較少。為了應對藥物發現中存在的許多低資料環境,必須改進機器學習模型。可以設想将類似于從頭分子設計的原理應用于獨特的催化劑/配體結構的産生,這可能會增加給定轉化成功的可能性。材料科學中的大型催化體系設計方面的進展已有報道,但在合成小分子有機化合物的催化中所公開的内容很少。催化反應的化學空間通常非常受限制,這對于用于分子生成的資料集的生成提出了問題。與藥物化學中的許多預測任務一樣,可以從受限制的小型資料集中學習的模型進一步開發至關重要,并且可能需要使用新的輸入表示形式來擷取對分子結構的更豐富描述。存在預測立體選擇反應中配體的其他機會,但将需要開發新的3D表示形式。從頭開始設計催化劑/配體的最終複雜因素是,新催化劑/配體的合成和表征通常會消耗大量時間。在大多數藥物化學程式中,僅為催化劑/配體添加多步合成将是禁止的,但高度關注于優化反應順序的每個步驟的學術化學家或過程化學家可能會感興趣。

JMC | 人工智能在藥物合成中的目前和未來作用(3)

所有合成有機研究的一個耗時步驟是對産物,副産物進行表征,并明确确定最終目标分子的結構。目标結構的錯誤配置設定會導緻資料錯誤,進而無法進一步優化結構/活性,甚至可能導緻專利糾紛。一種簡單的結構配置設定方法是使用正向預測模型來識别反應中可能的副産物。這些預測可以用質譜(MS)或IR驗證,以确認反應混合物中的副産物。但是,該方法不能區分結構異構體或非對映異構體化合物,這限制了其用途僅限于産生定義明确的異構體産物的反應。闡明小分子有機結構所需的标準資料,以及發表所需的标準資料,包括MS,1H-NMR和13C-NMR,通常可能需要使用二維NMR實驗或其他NMR實驗的進一步确定。當所有這些資料組合在一起時,可以确定結構特征,并且訓練模型以根據其光譜預測結構是可行的。學習不同資料之間的複雜非線性模式是機器學習的理想應用。但是,包含所有這些實驗的資料集很少。不太常見的分析方法往往對結構确定更有用。

最後,對資料、模型和代碼的釋出的前景和标準化的讨論可能會對朝着完全自動的合成方向發展的整個流程産生重大影響。最近的評論指出,需要在資料/軟體和硬體方面進行改進以實作自主化學合成的許多領域。其中,讨論了資料有效和可解釋模型的開發。模型的可解釋性對于許多使用者而言很重要,因為他們想了解為什麼機器學習模型會做出某些預測。借助自動實驗可以生成的大量資料,使用該資料建構具有較低計算開銷和較短時間來産生結果的預測模型的能力将使建構能夠最有效地達到目标的實驗。對于合成設計和自動化實驗中的機器學習而言,另一個重要的考慮因素是不确定性估計的改進,尤其是在資料量較低的情況下。主動學習中不确定性估計的改進将産生更豐富的實驗,進而減少時間和成本。最後,需要建立和标準化針對自動化合成目标的評估名額,這些名額可以集中于測試模型和硬體達到新化學空間能力的分子。

總結

MLPDS聯盟内外的公司目前正在将用于預測化學的機器學習模型內建到DMTA循環中。公司已經開始将ASKCOS內建到工作流中,并且計算開發人員正在與合成化學家緊密合作,以尋找新的研究将産生最大影響的新興領域。為了加快基于ML的CASP研究的步伐,需要使用通用的基準測試方案建立标準化的名額和共享資料集。對于更強大的基于ML的合成工具而言,表示性、低資料場景下的魯棒性和通用性的根本性進步将非常重要。對混合機器學習和專家編碼的CASP工具的進一步研究可能能夠利用每種方法最有用的方面。在一些公司中已經觀察到基于機器學習的預測化學的影響,并且化學家的采用正在增加。随着研究人員和預測模型使用者之間的協作不斷增強,預計在開發更好的模型以及提高化學家工作流程的生産率方面将取得更大的進步。

JMC | 人工智能在藥物合成中的目前和未來作用(3)

開發了許多目前的CASP工具,以使用可靠的可重複化學方法設計合成路線。這些工具的目的不是僅建議經驗豐富的化學家無法識别的轉化。相反,特别是對于目前基于ML的CASP工具,其目的是使化學家們減輕合成設計的認知負擔。随着用于合成設計的機器學習模型的不斷開發以及化學家對使用CASP減輕工作量的接受程度的提高,工具将得到改進,以适應化學不同領域的需求并應對合成的挑戰。