天天看點

J. Cheminform. | DrugEx v2:多重藥理學中基于pareto的多目标強化學習的藥物分子從頭設計...

本文介紹的是由荷蘭萊頓藥物研究學術中心、西安交通大學電子與資訊工程學院和萊頓進階計算機科學研究所聯合發表在Journal of Cheminformatics上的研究成果。作者在之前的一項研究中提出了一種名為DrugEx的藥物分子生成方法,将探索政策內建到基于RNN的強化學習中,以提高生成分子的多樣性。在本文中,作者通過多目标優化擴充DrugEx算法,以生成針對多個靶标或一個特定靶标的類藥物分子,同時避免脫靶(本研究中的兩個腺苷受體,A1AR和A2AAR,以及鉀離子通道hERG)。該模型使用RNN作為智能體(agent),機器學習預測器作為環境,agent和環境都被預先訓練,然後在強化學習架構下互動。作者将進化算法的概念融合到模型中,交叉和變異操作由與agent相同的深度學習模型實作。訓練期間,agent生成一批SMILES形式的分子。随後,環境提供的所有靶标的親和力分數将用于建構生成的分子的帕累托排名,該排序采用了非支配排序算法和擁擠距離算法。作者證明了生成的化合物可以對多種靶标進行作用,并具有高效低毒的潛力。

J. Cheminform. | DrugEx v2:多重藥理學中基于pareto的多目标強化學習的藥物分子從頭設計...

1.背景介紹

“一種藥物,一個靶點,一種疾病”的模式多年來在藥物發現領域占據主導地位,為藥物開發和了解分子作用機制做出了巨大貢獻。然而,最近的研究表明,一種藥物分子平均可以與6個蛋白靶點互相作用,這證明主導模式不夠嚴謹。藥物與預期之外的非靶點結合而産生的副作用是候選藥物臨床失敗甚至FDA準許的新藥物退出的主要原因之一。然而,疾病往往是由多種遺傳和/或環境因素對生物系統的擾動造成的,複雜的疾病更可能需要通過同時調節多個靶标來治療。是以,對于多種複雜疾病,将藥物發現模式轉變為“多重藥理學”是至關重要的。

在多重藥理學中,藥物與多個特異性靶點結合以增強療效或減少耐藥性形成。已有研究表明,對少量靶标的部分抑制比對單個靶标的完全抑制更有效,特别是對于複雜和多因素疾病。同時,蛋白質的常見結構和功能相似性易導緻藥物與非靶标結合。是以,藥物需具有較高的靶蛋白選擇性,以避免與不需要的靶蛋白結合。

由于首個版本的DrugEx v1證明了設計新型A2AAR配體的有效性,作者将這種方法擴充到針對多個靶點的藥物設計。在該研究中,作者通過将源自進化算法的交叉和變異操作添加到強化學習架構中,将DrugEx更新到第二版 (v2)。為了評估該模型的性能,作者在多靶标和特定靶标案例研究中驗證了DrugEx v2。對多靶标,所需要的分子應該對A1AR和A2AAR都有很高的親和力。對特定靶标,要求分子隻對A2AAR有高親和力,但對A1AR有低親和力。為了降低毒性和不良事件的風險,在這兩種情況下,分子必須對hERG具有低親和力。值得注意的是,生成的分子還應具有化學多樣性,并具有與已知配體相似的實體化學性質。

2.DrugEx v2方法

資料集

作者從ChEMBL資料庫(版本26)下載下傳以SMILES形式表示的類藥物分子,并對其經過電荷标準化、去除金屬和小片段等資料預處理後,收集了170萬個分子,命名為ChEMBL資料集。此外,作者還從ChEMBL資料庫中提取了25731個配體,建構了LIGAND資料集,對人類A1AR、A2AAR和hERG蛋白靶點進行了生物活性測量。

預測模型

為了預測每個生成分子對給定靶标的pChEMBL的平均值(pX,包括pKi、pKd、pIC50或pEC50),作者使用4種不同的機器學習算法建構了QSAR回歸模型,即随機森林(RF)、支援向量機(SVM)、偏最小二乘回歸(PLS)和多任務深度神經網絡(MT-DNN)。為了增加QSAR模型可用的化學多樣性,作者納入了沒有pChEMBL值的低品質資料,标記為“Not Active”或沒有定義pX值的分子。對于這些資料點,作者定義pX值為3.99(略小于4.0),以消除資料集的不平衡性,保證模型能夠預測負樣本。在訓練過程中,低品質資料樣本權重設定為0.1,pX準确的資料樣本權重設定為1.0。這使得模型能夠融入化學多樣性,同時避免性能下降。模型輸出值是基于該向量的給定化合物是否具有活性的機率。

生成模型

作者将資料集中的所有分子拆分為一系列标記,以構成一個SMILES詞彙表。生成模型使用RNN進行建構,包含一層輸入層、一層嵌入層、三層循環層和一層輸出層。和DrugEx v1中的差別是,在循環層中,作者使用帶有512個隐藏神經元的長短期記憶(LSTM)作為循環單元,而在DrugEx v1中使用的是門控循環單元(GRU)。

強化學習

對生成器進行預訓練後,強化學習(RL)訓練流程分為四步(如圖1):(1)根據生成器計算出的機率,通過逐漸采樣标記生成一批SMILES;(2)有效的SMILES被解析為分子并編碼為描述符,以得到預測的pXs;(3)基于Pareto優化将預測的pXs轉化為單個值作為每個分子的獎勵;(4)将SMILES序列及其獎勵送回生成器,用政策梯度方法進行訓練。

J. Cheminform. | DrugEx v2:多重藥理學中基于pareto的多目标強化學習的藥物分子從頭設計...

圖1. DrugEx2利用強化學習的訓練流程

RL架構下的SMILES序列建構可以看作是一系列決策步驟,生成器(G)和預測器(Q)分别被視為政策和獎勵函數。在這項研究中,作者使用了多目标優化,目的是最大化每個目标,即maximizeR1, maximizeR2, ...,

maximizeRn,其中n為目标數(本研究中n=3),每個目标i的得分Ri計算如下(其中pXi是每個預測器對第i個目标給出的預測分數):

J. Cheminform. | DrugEx v2:多重藥理學中基于pareto的多目标強化學習的藥物分子從頭設計...

為了評估生成分子的性能,作者引入了有效性(Validity)、可取性(Desirability)、唯一性(Uniqueness)以及多樣性(Diversity)。此外,作者還通過計算分子的SA和QED評分來進一步衡量生成分子的性能。為了協調和結合這些不同的目标,作者比較了兩種不同的獎勵方案:Pareto front(PF)和weighted sum(WS)。

PF方案根據不同解集之間的支配關系,确定有優勢的解集。例如,給定一個問題的兩個解決方案m1,m2,其解集分别為(x1,x2,…,xn)和(y1,y2,…,yn),對于∀ i∈{1,2,…,n} 都有xi≥yi 且 ∃ i∈{1,2,…,n}使 xi>yi,則稱m1支配m2,m1的解集優于m2。在确定所有解集之間的優勢後,利用非支配排序算法得到不同的帕累托前沿面,然後根據Tanimoto距離的平均值對分子進行排序,距離較大的分子排在最前面。最終獎勵R*定義如下:

J. Cheminform. | DrugEx v2:多重藥理學中基于pareto的多目标強化學習的藥物分子從頭設計...

WS方案根據分數小于和大于門檻值的生成分子數量之比來确定第i個目标的權重wi,R*定義如下:

J. Cheminform. | DrugEx v2:多重藥理學中基于pareto的多目标強化學習的藥物分子從頭設計...

算法推理

進化算法(EAs)是藥物發現中比較常用的方法。例如,分子進化器(moleculare voluator)包含交叉和變異操作,可用于藥物分子的從頭設計;分布估計算法(estimated of distribution algorithm, EDA)是一種基于模型的方法,使用新個體的機率分布估計和抽樣來代替突變和交叉操作。DrugEx也是一種基于模型的方法,利用深度學習(DL)模型估計序列決策的機率分布。作者在該實驗中使用DL方法來定義基于模型的變異和交叉操作,在EDA和EA中,作者采用RL方法代替樣本選擇步驟來更新模型或種群。具體算法流程如圖2所示。

J. Cheminform. | DrugEx v2:多重藥理學中基于pareto的多目标強化學習的藥物分子從頭設計...

圖2. 進化算法的流程圖比較。A:分子進化器的算法流程;B:EDA的算法流程;C:作者提出的算法流程

探索政策

作者之前的研究中,通過導入一個固定的探索網絡來實作探索政策,以在訓練中擴大生成分子的多樣性。作者在本文中引入了代理網(GA),交叉網(GC)和變異網(GM)來實施探索政策,在模型訓練過程中,通過對GA、GC和GM的參數不斷更新,以生成理想的分子,這三種網絡具有相同的RNN結構,如圖3所示,綠色代表GA、紅色代表GM,藍色代表GC:

J. Cheminform. | DrugEx v2:多重藥理學中基于pareto的多目标強化學習的藥物分子從頭設計...

圖3.探索政策模型

3.結果與讨論

預測器的性能

作者利用LIGAND資料集中的分子訓練QSAR模型,然後采用五折交叉驗證和獨立測試集兩種驗證方式對不同算法的性能進行評估。如圖4所示,在交叉驗證中,MT-DNN模型的總體表現相對較優,但是RF在hERG靶标上性能最佳。獨立測試集上,RF模型總體上達到了最高的R2(觀察到的實際結果與模型建構的預測值之間的相關系數的平方)和最低的均方根誤差(RMSE)。由于生成模型可能會建立大量與訓練集中的分子不相似的新分子,作者考慮預測器的穩健性,最終選擇RF算法建構環境,它提供最終獎勵來指導RL中生成器的訓練。

J. Cheminform. | DrugEx v2:多重藥理學中基于pareto的多目标強化學習的藥物分子從頭設計...

圖4. 不同機器學習回歸模型的性能比較

性能比較

作者比較了DrugEx v2、DrugEx v1和另外兩種基于深度學習的藥物設計方法(REINVENT和ORGANIC)的性能。作者把兩種不同的多目标強化學習方案應用到四種算法中,分别對不同算法進行了多靶标和特定靶标的性能測試。

如表1和表2所示,在多靶标和特定靶标的實驗上,WS方案可以幫助模型提高可取性,PF方案可以幫助模型實作更好的子結構的多樣性。通過比較這些方法,DrugEx v2在PR和WS方案中獲得了最佳的可取性,REINVENT生成的分子更容易合成,更像藥物,而DrugEx v1生成的分子與配體中的分子分布更相似。

表1.不同方法在多靶标情況下的性能比較

J. Cheminform. | DrugEx v2:多重藥理學中基于pareto的多目标強化學習的藥物分子從頭設計...

表2.不同方法在特定靶标情況下的性能比較

J. Cheminform. | DrugEx v2:多重藥理學中基于pareto的多目标強化學習的藥物分子從頭設計...

化學空間的比較

關于化學空間,作者對多靶标(圖 5A-H)和特定靶标(圖5I-P)情況下所有分子的ECFP6描述符采用t-SNE實作可視化,其中A-D和I-L基于PF獎勵方案,E-H和M-P基于WS獎勵方案。在多靶标情況下,LIGAND 集中大多數所需的配體分布在圖的邊緣區域,PF方案比WS方案能更好地引導所有生成體覆寫化學空間。在特定靶标的情況下,LIGAND 集中所需的配體在邊緣和中心區域分布的更分散,所需配體所占據的區域隻有一部分與REINVENT和ORGANIC生成的分子重疊,而DrugEx v1和v2生成分子的分布與之高度吻合。與WS方案相比,DrugEx v2 使用 PF 方案顯着提高了化學空間覆寫率。

圖5顯示了所有已知配體(橙色)和所需配體(黑色),此外還顯示了由 DrugEx v1(A、E、I、M,藍色)、DrugEx v2(B、F、J、N,紅色)、ORGANIC(C、G、K、O,綠色)和 REINVENT(D、 H、L、P,紫色)生成的分子。從圖中可以看出DrugEx更好地覆寫了輸入資料的整個化學空間。

J. Cheminform. | DrugEx v2:多重藥理學中基于pareto的多目标強化學習的藥物分子從頭設計...

圖5. LIGAND 集和生成分子的化學空間的比較

4.總結

在這項工作中,作者提出了一種基于帕累托的多目标學習算法,用于基于不同要求的多靶标親和力分數的多目标藥物從頭設計。作者将進化算法的概念(包括變異和交叉操作)引入到RL中,更新DrugEx進行多目标優化。此外,帕累托排序算法也被內建到模型中,以處理藥物發現中常見的沖突目标,并擴大化學多樣性。為了證明有效性,作者測試了DrugEx v2在多靶标和特定靶标情況下的性能。該模型生成的SMILES分子具有較高的有效性和多樣性,且生成的分子與已知配體有很強的相似性,幾乎覆寫了已知配體占據的化學空間。

在未來的工作中,作者提出将繼續使用這些新的深度學習模型來更新DrugEx,以處理不同的分子表征,如圖或片段,還将會整合更多的目标(例如穩定性、可合成性等),特别是當這些目标互相沖突時,模型允許使用者為每個目标設定權重,以生成更可靠的候選配體,更好地控制生成過程。