天天看点

警惕依赖简单方法进行基于结构的虚拟筛选:更广泛比较的重要性

作者:AIDDPro

在当前科学研究中,机器学习(ML)评分函数(SFs)在预测蛋白质-配体复合物结合亲和力方面的优势已成为一个备受关注的话题。随着数据和代码的不断优化,研究者们对这一领域的兴趣不断加深。然而,要想在虚拟筛选中表现出色,ML SF需要在数据集中训练大量的负样本,而这通常会引入负偏差。因此,为了解决这一问题,研究者提出了一种新方法——Asymmetric Validation Embedding(AVE),旨在设计无偏的数据集,以解决虚拟筛选中的分类问题。在本文中,作者探讨AVE在虚拟筛选中的应用和有效性。具体地,将对ACHE和HMGR的案例研究进行分析,以便更好地理解AVE方法的潜力和局限性。

实验流程

作者从PubChem和ChEMBL检索两个蛋白的实验数据,并使用DEKOIS2.0下载ACHE和HMGR的基准数据集。然后,使用DeepCoy生成了decoys,这是一种深度学习方法,通过调整化学性质来设计多样化且可能为非活性的分子,其性质与输入活性分子相匹配。接下来,作者从PubChem\ChEMBL真实活性分子生成,并使用Smina进行分子对接。为了进行后续计算,作者将配体的初始SMILES字符串(来自PubChem/ChEMBL/DeepCoy)和sdf结构(来自DEKOIS2.0)使用Open Babel转换为三维(3D)mol2文件,然后添加H原子。在DEKOIS2.0中,作者分别使用PDB ID 1EVE和1HW8作为ACHE和HMGR的晶体结构。在其他情况下,作者使用了DUD-E作者提出的另外两个PDB结构1E66(ACHE)和3CCW(HMGR),以便使用不同的受体构象来训练和测试ML模型。

警惕依赖简单方法进行基于结构的虚拟筛选:更广泛比较的重要性

表1 ACHE和HMG蛋白的训练-测试数据信息

作者为每个蛋白准备了两个不同的训练-测试集合(表1)。第一个集合(DEKOIS2.0)使用DEKOIS2.0的ACHE/HMGR数据集作为测试集,使用PubChem/ChEMBL数据作为训练集,以训练目标特异性的机器学习评分函数。此集合是随机生成的,以避免负偏差。第二个集合(AVE)是使用AVE脚本生成的。该集合将来自PubChem/ChEMBL的相同ACHE/HMGR真实活性和真实非活性样本集与DeepCoy生成的与这些真实活性样本匹配的分子进行了分割。

结果与讨论

作者使用了两组训练集对五种目标特异性的机器学习评分函数进行了训练:DEKOIS2.0和AVE。这些评分函数包括RF、XGB、SVM、ANN和DNN。在对接后,使用蛋白质-配体扩展连接性(PLEC)指纹描述了配体-受体复合物的特征。然后,评估了每个评分函数在对应的测试集上的性能,分别是ACHE-DEKOIS2.0、ACHE-AVE、HMGR-DEKOIS2.0和HMGR-AVE。此外,还测试了四个通用评分函数:Smina、IFP、CNN-Score和RF-Score-VS v2。表2总结了这些评分函数的性能。

警惕依赖简单方法进行基于结构的虚拟筛选:更广泛比较的重要性

表2 在四个测试集上的九个评分函数的PR-AUC值

在36个案例中,有3个案例(8.3%)中的一个评分函数在AVE测试集上表现优于对应的DEKOIS2.0测试集。这些案例都涉及ACHE目标和三个目标特异性ML SFs(XGB、ANN、DNN)。所有四个通用评分函数在所有情况下在DEKOIS2.0测试集上表现更好。因此,如预期所料,AVE测试集通常比DEKOIS2.0测试集更具挑战性(图1)。

警惕依赖简单方法进行基于结构的虚拟筛选:更广泛比较的重要性

图1九种评分函数在每个蛋白的两个测试集上的PR-AUC值

案例表明,有时AVE基准可能比随机生成的基准更容易。例如,在表2中,ACHE-DEKOIS2.0的偏差明显大于ACHE-AVE的偏差(0.387vs0.002),但使用ACHE-AVE集合数据时,XGB模型的PR-AUC值要大得多(0.165vs0.501)。虽然AVE适合比较ML和非ML方法在“ distribution-shift scenario”( 本人理解为:模型在训练时使用的数据分布与实际应用时的数据分布不完全相同)下的性能,但解释AVE回顾性性能时应谨慎。尽管HMGR-AVE的偏差仅为0.008,但DNN模型在排名前21个分子中的中位数PR-AUC高达0.717,命中率达到100%。虽然许多研究实现了出色的前瞻性命中率,但作者认为这些评分函数的前瞻性性能可能会比AVE分割获得的性能差得多。因此,不建议将AVE训练的模型用于前瞻性目的,因为去偏过程会损害其泛化能力。最好使用最相关的数据来训练测试集。

在基于结构的虚拟筛选方面,对不同方法的比较表明简单的非机器学习方法(如IFP)可能并非最佳选择,尤其是与针对特定目标的机器学习评分函数(ML SFs)相比较时。在PD-L1基准测试中,CNN评分明显优于IFP。此外,需要注意的是,IFP容易在回顾性基准测试中出现过拟合。这是因为必须选择与目标蛋白结合的分子的构象作为搜索模板,并确保该3D构象能够准确反映测试集中活性分子的特征。因此,为了得出可靠的结论,需要进行更广泛的比较和分析。

参考文献

Tran-Nguyen VK, Ballester PJ. Beware of Simple Methods for Structure-Based Virtual Screening: The Critical Importance of Broader Comparisons. J Chem Inf Model. 2023 Mar 13;63(5):1401-1405. doi: 10.1021/acs.jcim.3c00218.

文章代码

https://github.com/vktrannguyen/AVE-vs-DEKOIS

版权信息

本文系AIDD Pro接受的外部投稿,文中所述观点仅代表作者本人观点,不代表AIDD Pro平台,如您发现发布内容有任何版权侵扰或者其他信息错误解读,请及时联系AIDD Pro (请添加微信号sixiali_fox59)进行删改处理。

本文为原创内容,未经授权禁止转载,授权后转载亦需注明出处。有问题可发邮件至[email protected]