天天看點

預測配體-靶标對的結合親和力,哈工大開發新SOTA藥物表示模型

作者:ScienceAI
預測配體-靶标對的結合親和力,哈工大開發新SOTA藥物表示模型

編輯 | 白菜葉

了解配體-靶标對的分子間互相作用是指導優化癌症藥物研究的關鍵,這可以大大減輕濕實驗室的負擔。目前計算方法存在一些缺陷,限制了它們的實際應用。

在這裡,哈爾濱工業大學的研究人員在此提出了 DrugMGR,這是一種深度多粒度藥物表示模型,能夠預測每個配體-靶标對的結合親和力和區域。

通過對配體複雜的自然機制和蛋白質進階特征的多粒度表示學習,DrugMGR 幾乎在所有資料集上都顯著優于目前最先進的方法。并且,這是第一個同時使用圖、卷積和基于注意力的資訊分析蛋白質-配體複合物的模型。

該研究以「DrugMGR: a deep bioactive molecule binding method to identify compounds targeting proteins」為題,于 2024 年 4 月 1 日釋出在《Bioinformatics》。

預測配體-靶标對的結合親和力,哈工大開發新SOTA藥物表示模型

藥物開發對于疾病治療至關重要,科學家們通過藥物再利用可以快速尋找治療方案,但傳統實驗方法成本高、周期長,限制了其應用。相比之下,采用計算方法識别高可信度的配體-靶标互相作用,能夠顯著縮小化合物候選範圍,揭示蛋白質-配體複合物的結合機制。

過去十年,生物活性分子資料的激增,推動了深度學習與人工智能在研究蛋白質-配體互相作用中的應用。

然而,現有深度學習方法存在兩方面問題:一是多數模型對多粒度配體特征的捕獲能力不足,未能充分整合原子環境、化學基因組序列等多元自然機制資訊;二是許多方法忽視了對結合區域可解釋性的建構,雖有少數借助注意力機制嘗試推斷結合位點,但關聯生物特征不明确,不利于指導研究人員定位結合位點。

為了應對這些缺陷,哈爾濱工業大學的研究人員提出了 DrugMGR,這是一種基于深度多粒度表示的模型,可以預測配體與蛋白質靶标的結合親和力和區域。

預測配體-靶标對的結合親和力,哈工大開發新SOTA藥物表示模型

圖示:DrugMGR 方法概述。(來源:論文)

具體來說,該團隊首先使用三個深度子產品來全面編碼配體的自然機制,即,用圖注意力網絡 (GAT) 來模組化原子環境,用 CNN 來提取全局化學基因組序列,并使用分子Transformer (MT) 來捕獲局部子結構的互相影響。

研究人員還設計了一個并行 VAE 子產品,通過 CNN 塊在機率編碼器中學習蛋白質的進階特征,然後在機率解碼器中重建目标結構。

然後,配體和蛋白質的編碼表示被輸入由注意力網絡組成的成對互相作用映射子產品,進而學習蛋白質-配體複合物的互相作用模式。聯合成對互相作用表示由完全連接配接的網絡解碼,用于預測生物活性分子的結合親和力。

預測配體-靶标對的結合親和力,哈工大開發新SOTA藥物表示模型

圖示:BindingDB 資料集随機分割和冷啟動分割的性能比較。(來源:論文)

對于結合區域預測,研究人員首先突出顯示具有與配體結合潛力的重建蛋白質的結合位點,作為原始結合區域。随後,使用卷積運算将多粒度配體特征與蛋白質特征相乘。

接下來,他們将卷積結果記錄為每個配體-靶标對的響應向量,并将響應向量中具有高值的區域标記為可視化結合區域。最後,研究人員利用這兩個區域來指導最終預測的結合區域。

與 DrugBAN(一種用于簡單識别藥物和靶标之間互相作用的二進制分類器)相比,該團隊提出的 DrugMGR 可以進一步了解蛋白質-配體複合物的綜合結合資訊(結合親和力和結合區域),這在生物活性分子結合的實際應用中發揮着核心作用。

預測配體-靶标對的結合親和力,哈工大開發新SOTA藥物表示模型

圖示:已識别藥物 Talazoparib 和靶向 PARP1 在三個預測區域的可視化。(來源:論文)

針對具有高度侵襲性、預後不良且缺乏有效靶向療法的三陰性乳腺癌(TNBC),該團隊利用 DrugMGR 模型從 DrugBank 資料庫中識别針對 PARP1 的潛在抑制劑和化療藥物。

篩選出的前 10 個候選化合物經 GeneCards 和 PDB 系統驗證,并通過可視化 PARP1 與 Talazoparib(PDB ID: 4PJT)的結合區域,确認模型的有效性。

結果顯示,DrugMGR 準确預測了結合位點,表現優異,有望成為針對 PARP1 虛拟篩選的有力工具,助力生物醫藥學家篩選更優的抗惡性良性腫瘤藥物組合。

論文連結:https://academic.oup.com/bioinformatics/article/40/4/btae176/7638803

繼續閱讀