天天看點

警惕依賴簡單方法進行基于結構的虛拟篩選:更廣泛比較的重要性

作者:AIDDPro

在目前科學研究中,機器學習(ML)評分函數(SFs)在預測蛋白質-配體複合物結合親和力方面的優勢已成為一個備受關注的話題。随着資料和代碼的不斷優化,研究者們對這一領域的興趣不斷加深。然而,要想在虛拟篩選中表現出色,ML SF需要在資料集中訓練大量的負樣本,而這通常會引入負偏差。是以,為了解決這一問題,研究者提出了一種新方法——Asymmetric Validation Embedding(AVE),旨在設計無偏的資料集,以解決虛拟篩選中的分類問題。在本文中,作者探讨AVE在虛拟篩選中的應用和有效性。具體地,将對ACHE和HMGR的案例研究進行分析,以便更好地了解AVE方法的潛力和局限性。

實驗流程

作者從PubChem和ChEMBL檢索兩個蛋白的實驗資料,并使用DEKOIS2.0下載下傳ACHE和HMGR的基準資料集。然後,使用DeepCoy生成了decoys,這是一種深度學習方法,通過調整化學性質來設計多樣化且可能為非活性的分子,其性質與輸入活性分子相比對。接下來,作者從PubChem\ChEMBL真實活性分子生成,并使用Smina進行分子對接。為了進行後續計算,作者将配體的初始SMILES字元串(來自PubChem/ChEMBL/DeepCoy)和sdf結構(來自DEKOIS2.0)使用Open Babel轉換為三維(3D)mol2檔案,然後添加H原子。在DEKOIS2.0中,作者分别使用PDB ID 1EVE和1HW8作為ACHE和HMGR的晶體結構。在其他情況下,作者使用了DUD-E作者提出的另外兩個PDB結構1E66(ACHE)和3CCW(HMGR),以便使用不同的受體構象來訓練和測試ML模型。

警惕依賴簡單方法進行基于結構的虛拟篩選:更廣泛比較的重要性

表1 ACHE和HMG蛋白的訓練-測試資料資訊

作者為每個蛋白準備了兩個不同的訓練-測試集合(表1)。第一個集合(DEKOIS2.0)使用DEKOIS2.0的ACHE/HMGR資料集作為測試集,使用PubChem/ChEMBL資料作為訓練集,以訓練目标特異性的機器學習評分函數。此集合是随機生成的,以避免負偏差。第二個集合(AVE)是使用AVE腳本生成的。該集合将來自PubChem/ChEMBL的相同ACHE/HMGR真實活性和真實非活性樣本集與DeepCoy生成的與這些真實活性樣本比對的分子進行了分割。

結果與讨論

作者使用了兩組訓練集對五種目标特異性的機器學習評分函數進行了訓練:DEKOIS2.0和AVE。這些評分函數包括RF、XGB、SVM、ANN和DNN。在對接後,使用蛋白質-配體擴充連接配接性(PLEC)指紋描述了配體-受體複合物的特征。然後,評估了每個評分函數在對應的測試集上的性能,分别是ACHE-DEKOIS2.0、ACHE-AVE、HMGR-DEKOIS2.0和HMGR-AVE。此外,還測試了四個通用評分函數:Smina、IFP、CNN-Score和RF-Score-VS v2。表2總結了這些評分函數的性能。

警惕依賴簡單方法進行基于結構的虛拟篩選:更廣泛比較的重要性

表2 在四個測試集上的九個評分函數的PR-AUC值

在36個案例中,有3個案例(8.3%)中的一個評分函數在AVE測試集上表現優于對應的DEKOIS2.0測試集。這些案例都涉及ACHE目标和三個目标特異性ML SFs(XGB、ANN、DNN)。所有四個通用評分函數在所有情況下在DEKOIS2.0測試集上表現更好。是以,如預期所料,AVE測試集通常比DEKOIS2.0測試集更具挑戰性(圖1)。

警惕依賴簡單方法進行基于結構的虛拟篩選:更廣泛比較的重要性

圖1九種評分函數在每個蛋白的兩個測試集上的PR-AUC值

案例表明,有時AVE基準可能比随機生成的基準更容易。例如,在表2中,ACHE-DEKOIS2.0的偏差明顯大于ACHE-AVE的偏差(0.387vs0.002),但使用ACHE-AVE集合資料時,XGB模型的PR-AUC值要大得多(0.165vs0.501)。雖然AVE适合比較ML和非ML方法在“ distribution-shift scenario”( 本人了解為:模型在訓練時使用的資料分布與實際應用時的資料分布不完全相同)下的性能,但解釋AVE回顧性性能時應謹慎。盡管HMGR-AVE的偏差僅為0.008,但DNN模型在排名前21個分子中的中位數PR-AUC高達0.717,命中率達到100%。雖然許多研究實作了出色的前瞻性命中率,但作者認為這些評分函數的前瞻性性能可能會比AVE分割獲得的性能差得多。是以,不建議将AVE訓練的模型用于前瞻性目的,因為去偏過程會損害其泛化能力。最好使用最相關的資料來訓練測試集。

在基于結構的虛拟篩選方面,對不同方法的比較表明簡單的非機器學習方法(如IFP)可能并非最佳選擇,尤其是與針對特定目标的機器學習評分函數(ML SFs)相比較時。在PD-L1基準測試中,CNN評分明顯優于IFP。此外,需要注意的是,IFP容易在回顧性基準測試中出現過拟合。這是因為必須選擇與目标蛋白結合的分子的構象作為搜尋模闆,并確定該3D構象能夠準确反映測試集中活性分子的特征。是以,為了得出可靠的結論,需要進行更廣泛的比較和分析。

參考文獻

Tran-Nguyen VK, Ballester PJ. Beware of Simple Methods for Structure-Based Virtual Screening: The Critical Importance of Broader Comparisons. J Chem Inf Model. 2023 Mar 13;63(5):1401-1405. doi: 10.1021/acs.jcim.3c00218.

文章代碼

https://github.com/vktrannguyen/AVE-vs-DEKOIS

版權資訊

本文系AIDD Pro接受的外部投稿,文中所述觀點僅代表作者本人觀點,不代表AIDD Pro平台,如您發現釋出内容有任何版權侵擾或者其他資訊錯誤解讀,請及時聯系AIDD Pro (請添加微信号sixiali_fox59)進行删改處理。

本文為原創内容,未經授權禁止轉載,授權後轉載亦需注明出處。有問題可發郵件至[email protected]