天天看點

JMC | 分子生成器的圖靈測試

導讀

機器學習方法有望通過更有效地利用現有資料指導分子設計,加快和提高藥物化學項目的成功率。自動化計算設計算法的一個關鍵步驟是分子生成,要求機器在适當的化學空間内設計出高品質的類藥分子。許多分子生成的算法已經被提出,然而,一個挑戰是如何評估生成分子的有效性。這裡研究人員報告了三個圖靈啟發的測試,旨在評估分子生成器的性能。

JMC | 分子生成器的圖靈測試

1

背景

合成和篩選技術的進步使大量資料得以快速生成,以指導新藥的開發。藥物化學家現在面臨的挑戰是将不斷增加的資料提煉成可檢驗的假設和設計原則。計算和機器學習方法提供了一個機會,可以更有效地利用這些資料,提高藥物發現的生産力,以獲得更高品質的候選藥物。機器學習驅動的藥物化學設計流程需要有能力生成分子結構,預測生物和實體化學特性,并确定合成的最佳化合物集。實作這些目标方面已經取得了顯著的進展,然而,适當地整合分子生成、性質預測和推薦算法是使藥物化學家能夠充分利用計算機輔助設計潛力的關鍵。

自動化計算設計算法的 "分子生成 "步驟至關重要。類藥空間的分子數量龐大(~1033),太大以至于無法全面搜尋,是以必須 "in-line "設計分子。藥物化學家擅長快速設計10多個分子,這些分子既要在合成上容易攻克,又要平衡特性。機器學習可以很容易地生成大于106個分子,進而對化學空間進行更徹底的評估,然而,這些分子必須覆寫适當的化學空間,即這些結構必須在後續選擇模型的适用範圍内,并且是可合成的。許多算法已經被提出來用于計算分子生成,以及最新的深度學習方法。了解各種算法的優點是很重要的,評估這些模型的一個挑戰在于如何最好地評估它們是否等同于人類設計師生成的模型,或者是對這些模型的改進。其中一個測試是看這些結構在訓練有素的藥物化學家眼中是否可信。

研究人員報告了使用三個測試來評估分子生成器的性能。第一個測試探讨了算法重制醫藥化學家團隊産生想法的能力。第二個測試探讨了算法産生的額外的~103個分子是否被藥用化學家認為是好的想法。最後,評估了算法在傳統藥物發現項目中,從系列中的單個起始分子生成分子的能力。

2

實驗設計

為了探索分子生成算法的性能和實用性,研究人員設計了三個測試:

Test 1: Human inclusion

測試了算法重制人類想法的能力。一組由13名醫藥化學家組成的研究小組提出了4個命中分子(命中1-4),并要求他們為每個命中分子提出20個探索SAR的想法,進而獲得一個描述人類 "想法 "的資料集。随後,這些命中分子被輸入到分子生成算法中,并對算法生成人類想法的能力進行評估。命中1、3和4是來自GSK的報道,命中2則選自CDK7專利。

JMC | 分子生成器的圖靈測試

Test 2: Human imitation

受圖靈測試的啟發,研究人員将人類和計算機的想法結合起來,并要求醫藥化學家對這些想法進行評價。旨在評估算法生成的額外分子,這些分子不在人類生成的集合中。化學家們評估了每個命中的100個随機選擇的分子清單<75個來自算法設計的想法,25個來自化學家設計的想法>,并根據是否會考慮合成這些分子,将它們歸類為 "類似 "或 "不類似"。

JMC | 分子生成器的圖靈測試

Test 3: Legacy projects.

最後,研究人員評估了算法是否可以複現遺留藥物發現項目中的分子,給定系列中的單個種子分子。研究人員使用了六項專利作為測試集:五項為2018年FDA準許上市的藥物和一項CDK7專利。從每項專利中選擇一個分子,通常是獲批的藥物分子,并提供給分子生成器。将生成的想法與專利分子進行比較,任何比對的想法都以疊代的方式重新循環到算法中,模仿設計-合成-測試循環。這些循環重複進行,以測試算法調用專利中所有分子的能力。

JMC | 分子生成器的圖靈測試

3

方法

3.1

BioDig

基于比對分子對的算法

3.2

BRICS 

基于片段替換的算法

3.3

RG2Smi

一種語言處理機器學習算法,可将Reduced Graph輸入轉化為SMILES輸出。

JMC | 分子生成器的圖靈測試

4

結論

計算分子生成是人工智能驅動藥物設計的關鍵步驟。近年來,已經開發了幾種分子生成算法,然而,關于這些算法的應用和評價,很少有公開的資料。這裡設計的測試類型是至關重要的,使正确的算法被選擇為生成分子想法,平衡一個理想的探索廣度與生成的結構,并準備具有良好的生物化學和實體化學特性。然後,這些想法可以在計算中進行徹底的分析,以選擇理想的分子集,并在每個藥物化學優化周期中進行測試。

評估的三個算法中,BioDig:基于比對的分子對,在三個測試中都表現出色。BRICS和RG2Smi在描述的三個測試中的性能不如BioDig,這突出了精心設計和評估計算化學設計算法對每個應用的重要性。三種算法的性能差異可以通過考慮算法設計來了解。RG2Smi在這些測試中表現得特别差,因為它的探索性更強,主要是為骨架躍遷設計的,而不是在一個系列内生成近似物。應該指出的是,雖然BioDig在這些測試中表現優異,單獨使用mmps可能會限制設計保守的思想理念。為了最好地平衡藥物發現中的探索/利用政策,算法的組合可能是最佳的。此外,在生成和選擇方法可以提出并優先考慮合并多個保守步驟的結構,這種方法有可能從典型的藥物發現項目中删除幾個周期。

所進行的測試為分子生成算法的評估提供了一個有用的政策,為其在藥物發現計劃中的前瞻性應用提供了參考。此外,藥物化學家的想法和專利分子可以為進一步評估和優化分子生成算法提供有用的測試集。所有測試中,BioDig算法表現出色,目前已成為GSK用于快速生成數千種分子創意的關鍵算法,以更全面高效地剖析每個周期的化學空間。藥物化學設計優化與最先進的模組化和機器學習預測器,以及有效的優化算法相結合,将促進采用機器支援的藥物化學設計。

繼續閱讀