天天看點

GraphDTA | 基于圖卷積網絡預測藥物-靶标結合親和力

GraphDTA | 基于圖卷積網絡預測藥物-靶标結合親和力

1. 研究背景

現有的高通量篩選實驗用于确定藥物和靶标之間的生物活性是一個昂貴費時的步驟。是以,基于已經在臨床實驗中測量的互相作用,使用統計學和機器學習模型來估計新的藥物-靶标的互相作用的強度是重要的替代方案。澳洲Deakin大學的Svetha Venkatesh課題組提出了GraphDTA,一種基于圖神經網絡的藥物-靶标結合親和力的預測方法。

2. 相關工作

2.1藥物表征

發明了SMILES表示計算機可讀的分子,開發了多個有效的應用程式,包括快速檢索和子結構搜尋。根據SMILES可以計算藥物描述符用作預測親和力的特征。可以将SMILES視為字元串使用自然語言處理(NLP)技術來強化藥物,也可以視為1D表示,輸入卷積神經網絡(CNN)以學習模型來預測親和性。

GraphDTA | 基于圖卷積網絡預測藥物-靶标結合親和力

化學結構到SMILES字元串

SMILES可通過rdkit開源軟體生成graph的形式,然後通過圖卷積網絡表示學習得到藥物特征向量。

圖形卷積網絡(GCN)最流行的深度學習方法可用于藥物-靶标結合親和力的預測,GCN是卷積神經網絡(CNN)到圖結構資料的推廣。GCN可分為兩大類:基于譜的方法和基于空間的方法。基于譜的方法中,圖首先在譜域中表示,然後在該域中定義卷積運算。相反,基于空間的方法直接在圖空間域上執行學習算法。學習過程包括鄰域公式,然後通過聚合來自其鄰居節點的資訊,然後是子采樣任務來更新節點的資訊。

2.2藥物-靶标結合親和力的預測

2.2.1親和力相似度(SimBoost)

藥物-靶标結合親和力預測的任務可以被認為是協同過濾問題(CF)。對于藥物- 靶标結合預測中可獲得的親和力通常是稀疏的。伴随着藥物之間以及靶标之間的相似性,以在SimBoost中建立特征,這些特征是梯度增強機器的輸入,以預測未知藥物-靶标對的結合親和力。

版權聲明:本文為CSDN部落客「DrugAI」的原創文章,遵循CC 4.0 BY-SA版權協定,轉載請附上原文出處連結及本聲明。

原文連結:

https://blog.csdn.net/u012325865/article/details/105683719
GraphDTA | 基于圖卷積網絡預測藥物-靶标結合親和力

SimBoost算法預測過程

2.2.2基于核心(KronRLS)

可以從其他來源建立相似性而不是訓練資料中的親和力。鑒于問題是預測n種藥物和m種靶标的親和力,它們将有n * m種組合,并且核心的大小為(n * m)平方。為了加速模型訓練,Cichonska等人建議使用KronRLS。

為了計算核心,可以使用任何相似性度量。藥物的核心是基于Tanimoto的相似性建構的; 而對于目标,Smith-Waterman評分用作蛋白質序列的相似性度量。

2.2.3深度學習

提供藥物(SMILES)和蛋白質(序列)的1D表示時,深度學習可能是預測親和力的可能方法。

GraphDTA | 基于圖卷積網絡預測藥物-靶标結合親和力

圖中,input_1和input_2分别是藥物和靶标。是以使用1D卷積和池的層來捕獲輸入中的潛在模式。然後将它們連接配接起來,通過Dropout的正則層發送,最後用訓練親和力回歸。

3. 方法(GraphDTA)

通過将藥物的特征帶入藥物-靶标互相作用的模型,研究人員提出了一種新的深度學習模型GraphDTA,用于藥物-靶标親和力預測。GraphDTA中基于藥物的SMILES作為輸入,通過開源軟體RDKit建構藥物的分子圖并提取原子特征,将該圖結構資料輸入到GCN層中學習藥物圖特征表示中的潛在模式。然後将藥物-靶标親和力(DTA)預測問題轉換為回歸任務,其中輸入是一對蛋白質和藥物表示,并且輸出是反映該對親和力結合得分的連續值。

3.1化合物的圖表示

化合物可描述為原子間互相作用的圖。是以,以圖表示的形式處理輸入化合物,并随後在圖上應用學習算法可以很好地适合任務。為此,對于每個輸入化合物(SMILES),研究人員建構了反映化合物内原子之間互相作用的相應分子圖。

3.2深入學習分子圖

化合物以圖的形式表示,問題是采用能夠有效地從圖結構化資料中學習的算法。最近在計算機視覺、語音識别和自然語言進行中的深度卷積神經網絡的成功導緻了将卷積運算擴充到圖結構的想法。已經提出了許多工作來處理将CNN概括為圖形的兩個主要挑戰,即在資料點未被布置為歐幾裡德網格的圖中形成感受域,以及用于對圖進行下采樣的池化操作。

GraphDTA | 基于圖卷積網絡預測藥物-靶标結合親和力

GraphDTA模型

研究人員提出了一種新的DTA預測模型,該模型基于圖神經網絡和傳統CNN的組合。模型采用兩個輸入:SMILES和蛋白質序列,并且并行地向前饋送它們以學習每個的表示向量,然後将兩個潛在的特征向量連接配接起來并經曆幾個密集層,以回歸層來估計親和力值。

研究人員為了評估基于圖神經網絡方法的有效性,采用了多種圖神經網絡模型。包括GCN、GAT、GIN和GAT-GCN。通過修改圖神經網絡的模式來測試模型性能。

GraphDTA | 基于圖卷積網絡預測藥物-靶标結合親和力

4. 實驗與結果

研究人員主要通過對比非深度學習模型與比較流行的深度學習模型,通過測量計算一緻性指數CI(訓示預測值與實際值的一緻性)與均方誤差MSE這兩個名額來表示模型的好壞。為了使實驗結果具有比較性,分别在Davis與Kiba資料集對模型進行測量。

GraphDTA | 基于圖卷積網絡預測藥物-靶标結合親和力

Davis資料集模型測量結果

GraphDTA | 基于圖卷積網絡預測藥物-靶标結合親和力

KIBA資料集模型測量結果

兩種資料集中的測量結果都表示在基于GAT-GCN結合的圖表示模型中預測性能最佳。

5. 結論

本項工作中,研究人員提出了一種計算藥物-靶标結合親和力的新方法,稱為GraphDTA;旨在降低藥物開發的難度,減少發現新藥物靶标互相作用在時間與成本上的花費,縮短藥物開發周期。該模型使用由SMILES資料重構得來的二維圖結構資料,能夠表達藥物的較完整資訊,是以該方法能夠獲得較好的預測性能。

Code availability

https://github.com/thinng/GraphDTA

繼續閱讀