天天看點

bioRxiv|利用機器智能設計抗新型冠狀病毒藥物

bioRxiv|利用機器智能設計抗新型冠狀病毒藥物

今天介紹美國密歇根州立大學Guo-Wei Wei團隊近期在bioRxiv上發表的論文,該論文利用基于機器智能的複合型生成網絡(GNC)生成一系列候選藥物,并測試這些藥物和部分艾滋病藥物對新型冠狀病毒的潛在效用。

1.背景

刺突蛋白(S-protein)是一種多功能分子,可以介導冠狀病毒進入宿主細胞。據研究,新型冠狀病毒和SARS病毒的刺突蛋白具有較高的氨基酸序列同源性,且二者的刺突蛋白都與人類細胞受體-血管緊張素轉換酶2 (ACE2)結合,是以可以使用相同的手段阻止刺突蛋白與ACE2結合。刺突蛋白可以被宿主細胞中類似呋喃的蛋白酶裂解成兩個功能機關,S1和S2。其中S1組成受體結合域(RBD),通過與宿主受體結合促進病毒感染,是以,控制感染的一種方法是尋找蛋白酶抑制劑來阻止新型冠狀病毒的刺突蛋白裂解成S1。作者利用複合型生成網絡(GNC)來探索治療新型冠狀病毒的潛在蛋白酶抑制劑,并評估它們的可用藥特性。此外,作者還研究了艾滋病病毒蛋白酶抑制劑Aluvia和Norvir用于治療新型冠狀病毒的潛力。

2.方法

作者利用新開發的複合型生成網絡(GNC)平台設計抗冠狀病毒候選藥物。如圖1所示,第一部分是一個由編碼器,隐空間,分子生成器和解碼器構成的生成網絡。該生成網絡以分子SMILES字元串為輸入,生成新分子的SMILES字元串,并将其當作第二部分的輸入。第二部分是一個基于二維指紋的深度神經網絡(2DFP-DNN),用于評估可用藥特性并進行篩選。第三部分為MathPose和MathDL模型,MathPose用于預測2DFP-DNN選擇的複合物的三維結構資訊;MathDL用于預測MathPose生成的三維複合物的生物活性。第三部分預測的可用藥特性将被用來作為選擇候選藥物的名額。

bioRxiv|利用機器智能設計抗新型冠狀病毒藥物

圖1 複合型生成網絡的示意圖。SMILES字元串被基于GRU的編碼器編碼為隐空間向量。這些向量被分子生成器改進,達到良好的可用藥特性,如結合親和力,配分系數等。生成的類藥物分子向量被解碼為SMILES字元串。基于二維指紋的多任務深度神經網絡驗證這些SMILES字元串的實體特性并進行篩選。将有希望的候選藥物輸入MathPose單元來生成3D結構,然後由MathDL進一步驗證,以選擇最終的候選藥物。

2.1 Autoencoder

自動編碼器由編碼器,隐空間,解碼器組成,其可以将一個分子的SMILES編碼為隐空間向量X,利用分子生成器對X進行改進得到新分子X’,随後将X’解碼回SMILES字元串。由于GRUs可以解決RNN模型的梯度消失問題,并且比LSTM适合中小尺寸的化合物序列,例如小分子SMILES字元串,是以由GRUs構成編碼器和解碼器。作者采用了預訓練的自編碼模型,隐空間的次元為512。

2.2 Molecule generator

在目前的方法中,分子生成器上設計新分子分為三步。第一步,利用預訓練的深度神經網絡DNN評價輸入分子隐空間向量X的類藥物特性,例如結合親和力,溶解度,配分系數等。第二步,評價結果與目标值進行比較,建構損失函數:

其中為第i個屬性的預先确定的權重。最後一步利用梯度下降算法優化損失函數。多輪優化使得小于給定門檻值後,得到新分子的向量X’被解碼回SMILES字元串。

2.3 2D fingerprint-based predictor (2DFP)

生成的新分子的smile字元串被傳入到基于二維指紋的預測器(2DFPs)來重新評估可用藥屬性。這些預測器是預訓練的深層神經網絡,包含多個隐藏層,每一層上有數百甚至數千個神經元。網絡的輸入為新分子二維指紋,由軟體ECFP和MACCS組合生成,共産生2214位特征(來自ECFP的2048位和來自MACCS的166位)。輸出的藥物屬性包括結合親和力、配分系數、溶解度等。

2.4 MathDL for druggable property predictions

MathDL是一個基于數學表示的深度學習平台,用于預測三維分子的各種用藥特性。MathDL中使用的數學表示是代數拓撲、微分幾何和基于圖論的算法,這些算法在過去的許多年中不斷發展并且被反複驗證,它們在自由能預測和D3R Grand Challenges中的表現最佳。D3R Grand Challenges是計算機輔助藥物設計的全球競賽。各種資料集,特别是PDBbind資料集被用于深度學習網絡的訓練。

2.5 MathPose for 3D structure prediction

MathPose是一個三維結構預測器,它可以将SMILES字元串轉換為分子的三維結構。給定的一個SMILES字元串,由幾種常用的軟體工具,如Autodock Vina,GOLD和GLIDE,可以生成大約有1000個三維結構。然後建立MathDL模型為給定的配體,即SARS病毒蛋白酶,分析分子的可用藥特性并挑選最适合的三維結構。

3.結果

3.1 序列一緻性分析

序列一緻性被定義為兩個不同序列之間精确比對的字元的百分比。新型冠狀病毒蛋白酶與其他一些冠狀病毒蛋白酶之間的序列一緻性如表1所示。可以看出,新型冠狀病毒蛋白酶與SARS病毒蛋白酶非常接近,但與其他蛋白酶有明顯差別。顯然,新型冠狀病毒與SARS病毒有很強的遺傳關系。是以,現有的SARS病毒蛋白酶抑制劑的實驗資料可以作為訓練集,并用于生成新型冠狀病毒蛋白酶抑制劑。

bioRxiv|利用機器智能設計抗新型冠狀病毒藥物

表1 新型冠狀病毒蛋白酶與其他一些病毒蛋白酶的序列一緻性。

3.2 結構相似性分析

新型冠狀病毒蛋白酶(PDB ID 6lu7)與SARS病毒蛋白酶(PDB ID: 2gx4)具有極高的結構相似性。如圖2所示,兩者的晶體結構基本相同。特别的是,兩個晶體結構在結合位點的均方根誤差僅為0.53 Å。這兩種蛋白酶在結構上高度相似,說明抗SARS病毒的化學物質在治療新型冠狀病毒上同樣有效。

bioRxiv|利用機器智能設計抗新型冠狀病毒藥物

圖2 2019-nCoV蛋白酶(PDB ID 6lu7)(金色)與SARS-CoV 3CL蛋白酶(PDB ID: 2gx4)的相似度(紅色)。深色為SARS蛋白酶抑制劑的結合位點。

3.3 資料集

3.3.1 SARS病毒蛋白酶抑制劑資料集

ChEMBL是一個開放的資料庫,它将化學、生物活性和基因組資料結合在一起,将基因組資訊轉化為有效的新藥,作者使用它來建構新型冠狀病毒訓練集。考慮到新型冠狀病毒蛋白酶與SARS病毒蛋白酶極高的序列一緻性,作者以SARS病毒的蛋白酶作為ChEMBL的輸入靶标,共找到115個靶标的ChEMBL id。是以,新型冠狀病毒的訓練集是由115個SARS病毒的蛋白酶抑制劑建構的。圖4為對訓練集進行實驗,得到的∆G的取值分布。可以看出, ∆G取值範圍為-10.0 kcal/mol到7.5 kcal/mol,多數訓練樣本的∆G位于[-10,5] kcal/mol。根據熱力學第二定律,當∆G越小時,則會導緻更自發的結合過程。圖3為TOP 5抗SARS病毒化合物及其結合親和力。

bioRxiv|利用機器智能設計抗新型冠狀病毒藥物

圖3  TOP 5抗SARS病毒化合物及其結合親和力。

bioRxiv|利用機器智能設計抗新型冠狀病毒藥物

圖4 SARS病毒蛋白酶抑制劑的結合親和力分布

3.3.2結合親和力訓練集

PDBbind是實驗測量得到的蛋白質-配體複合物的結合親和力的資料庫,包含蛋白質-配體複合物的高品質x射線晶體結構和對應的結合親和力。作者使用PDBbind 2018中4463個複合物作為結合親和力訓練集的主要部分。

3.4 結合親和力預測

文章中有四種方法可以計算結合自由能,即隐空間結合預測器(LS-BP)、二維指紋預測器(2DFP)、一種混合所有資料集(包括冠狀病毒蛋白酶資料集,記作“3DALL”)訓練的三維深度學習模型和利用冠狀病毒蛋白酶資料集訓練一個獨立的三維深度多任務學習模型(記作“3DMT”)。

圖5、6、7顯示GNC生成的top 3分子,并給出了它們被預測的結合親和力以及它們與新型冠狀病毒蛋白酶的複合物。這些化合物根據3DALL評分預測的結合親和力值進行排序。其他方法的預測結果見表2。表2還列出了一些其他的可用藥特性,包括配分系數(log P)、溶解度(log S)和可合成性。

bioRxiv|利用機器智能設計抗新型冠狀病毒藥物

圖5 MSU3298分子及其與新型冠狀病毒蛋白酶的複合物。

bioRxiv|利用機器智能設計抗新型冠狀病毒藥物

圖6 MSU2313分子及其與新型冠狀病毒蛋白酶的複合物。

bioRxiv|利用機器智能設計抗新型冠狀病毒藥物

圖7 MSU3245分子及其與新型冠狀病毒蛋白酶的複合物。

bioRxiv|利用機器智能設計抗新型冠狀病毒藥物

表2 GNC生成的TOP 15抗新型冠狀病毒分子和兩種艾滋病毒藥物的一些可用藥特性

4.讨論

4.1 溶解度

水溶性是一種化學性質,以其對數值log S表示,表明了溶質在溶劑中的溶解程度,其影響藥物的吸收、分布、代謝和消除過程(ADME),是藥物發現和藥物制造中的重要性質。作者使用基于2DFP的預測器來計算所有潛在的抗新冠病毒藥物的Log S。表2列出了TOP 15的抗新型冠狀病毒候選分子及其可用藥特性。可以看出最小的log S是 -6.44,最大的log S 是4.65。據研究,約85%的藥物的log S值取值範圍為[-5.000,-1.000]。然而,隻有兩種潛在的藥物(即表2中,MSU2313和MSU3289)的log S範圍為[-5.000,-1.000],而其他藥物的取值稍高一些。一個可能的原因是基于2DFP的log S計算可能存在系統錯誤。另一種可能的解釋是,預測的候選藥物可能不像市場上的一些其他藥物那樣容易通過細胞膜被吸收。

4.2 配分系數

配分系數被用來衡量一種化學物質的親疏水性,它被定義為兩種溶劑的混合物在平衡狀态下的溶質濃度之比。配置設定系數的對數,即log P,它在控制藥物作用的動能和動力方面起着至關重要的作用。作者使用開源的化學資訊學軟體Rdkit來計算候選藥物的log P值,以評估預測的潛在藥物的可靠性。從表2中可以看出,預測的TOP 15候選藥物的log P值大多小于5,符合“Lipinski’s rule of five”中的一條規則。此外,已經上市的HIV蛋白酶抑制劑ritonavir的預測log P = 5.91,這表明TOP 15中 log P值略大于5的潛在藥物仍然可以被認為是可用藥的分子。

4.3 可合成性

雖然有可能的抗新冠病毒藥物的化學結構,但有必要評估這些分子的合成可行性。可合成性評分(SAscore)的取值在1(容易合成)和10(無法合成)之間。作者通過Rdkit計算候選藥物的SAscore是來評估分子的合成可行性。TOP15中,分子ID: MSU3519的SAscore值最高,為4.69,這表明大多數潛在的抗新冠病毒分子都很容易合成。

4.4 艾滋病藥物對新型冠狀病毒的有效性

洛吡那韋(Lopinavir)是一種用于抑制艾滋病病毒蛋白酶的抗逆轉錄病毒藥物。它通常與另一種蛋白酶抑制劑利托那韋(Ritonavir)形成固定劑量的組合,并以Kaletra或Aluvia的商品名出售。利托那韋是另一種抗逆轉錄病毒藥物,商品名為Norvir。它與洛吡那韋結合被稱為高效抗逆轉錄病毒治療(HAART)。雖然沒有臨床證據,Kaletra和Aluvia已被提議作為潛在的抗新型冠狀病毒藥物。表1顯示了HIV病毒蛋白酶和新型冠狀病毒蛋白酶之間的低序列同源性,這可能意味着在新型冠狀病毒治療中重新利用Aluvia和Norvir的潛力有限。對于洛吡那韋, LSBP和2DFP分别預測了-5.66 kcal/mol和-5.54 kcal/mol的結合親和力。對于利托那韋, LS-BP和2DFP分别預測了-5.14 kcal/mol和-4.96 kcal/mol的較低結合親和力。然而,3DALL預測了更高的結合親和力,即洛吡那韋和利托那韋分别為-7.78 kcal/mol和-8.44 kcal/mol;3DMT,也預測洛必那韋和利托那韋的結合親和力分别為-8.13 kcal/mol和-8.07 kcal/mol。考慮到LS-BP和2DFP模型的訓練集非常小,三維模型預測的結果更加可靠。圖8和圖9表明這兩種藥物與新型冠狀病毒蛋白酶具有合理的結合方式。是以,艾滋病毒藥物Kaletra(或Aluvia)和Norvir可能對新型冠狀病毒有一定的治療效果。然而,GNC産生的許多新化合物似乎比這些艾滋病毒抑制劑具有更好的藥物性能。

bioRxiv|利用機器智能設計抗新型冠狀病毒藥物

圖8 HIV藥物洛吡那韋及其與新型冠狀病毒蛋白酶的複合物。複雜的結構顯示了其合理的結合。

bioRxiv|利用機器智能設計抗新型冠狀病毒藥物

圖9 HIV藥物利托那韋及其與新型冠狀病毒蛋白酶的複合物。複雜的結構顯示了其合理的結合。

5.總結

在這項工作中,作者發現新型冠狀病毒和SARS病毒的蛋白酶抑制劑結合位點幾乎相同,這為作者假設所有潛在的抗SARS病毒分子也是有效的抗新型冠狀病毒分子提供了基礎。作者利用複合型生成網絡 (GNC)預測了8000多種潛在的抗新型冠狀病毒藥物,通過隐空間結合預測器(LS-BP)和二維指紋預測器(2DFP)進行評估,并使用兩個三維深度學習模型3DALL和3DMT進一步評估有希望的候選藥物。此外,作者挑選了15種潛在的抗新型冠狀病毒藥物,根據3DALL模型計算的結合親和力排序,并分析其配分系數(log P)、溶解度(log S)和合成可行性評分(SAscore)。合理的log P、log S和SAscore表明,前15名候選藥物可能對抑制新型冠狀病毒有效。最後,分析了兩種抗艾滋病藥物對2019-nCoV的治療效果。