天天看點

人工智能預測RNA和DNA結合位點,以加速藥物發現

編輯 | 蘿蔔皮

針對核酸大分子,特别是 RNA 的基于結構的藥物設計(SBDD)是一個獲得動力的研究方向,已經産生了幾種 FDA 準許的化合物。與蛋白質類似,SBDD 中 RNA 的關鍵組成部分之一是正确識别推定候選藥物的結合位點。

RNA 具有共同的結構組織,再加上這些分子的動态特性,使得識别小分子的結合位點變得具有挑戰性。此外,需要基于結構的方法,因為僅序列資訊不考慮核酸大分子的構象可塑性。深度學習有望解決結合位點檢測問題,但需要大量的結構資料,與蛋白質相比,這對于核酸來說非常有限。

俄羅斯斯科爾科沃科技學院的研究人員,在一項研究中組建了一組約 2000 個核酸小分子結構,包括約 2500 個結合位點,比以前使用的大 40 倍左右的資料集,并展示了一個基于該結構資料集的深度學習方法 BiteNetN,以檢測核酸結構中的結合位點。BiteNetN 使用任意核酸複合物進行操作,顯示出最先進的性能,并且有助于分析不同的構象和突變變體。

該研究以「Structure-based deep learning for binding site detection in nucleic acid macromolecules」為題,于 2021 年 11 月 26 日釋出在《NAR Genomics and Bioinformatics》。

人工智能預測RNA和DNA結合位點,以加速藥物發現

RNA 分子在許多細胞過程中至關重要,例如基因調控和細胞資訊傳遞,是以代表了一類有前途的藥理靶點。RNA 靶向藥物發現活動探索了各種觀點,包括 DNA G-四鍊體穩定劑的設計、靶向核糖開關的抗生素、反義RNA和靶向 RNA 的抗病毒藥物等等。擴充可成藥基因組的 RNA 靶标,包括那些與「不可成藥」蛋白質靶标或非編碼 microRNA 相關的靶标,尤其令人感興趣。

然而,RNA 藥物開發存在許多障礙,其中包括與低化學多樣性和 RNA 結構的動态特性有關。與蛋白質類似,RNA 分子高度結構化以形成結合位點,小分子可以通過這些位點調節它們。是以,需要高效的、結構特異性的 RNA 小分子配體結合位點檢測器來推進 RNA 靶向藥物的發現。

「例如,核酸 DNA 和 RNA 可以參與信号傳遞,我們可以針對它們所參與的信号傳遞或任何其他過程。對于不可治療的蛋白質靶标,例如無序蛋白質或缺乏友善結合位點的蛋白質,這可能是一種有希望的政策。」該研究的首席研究員 Petr Popov 說,「然後還有身體外來的緻病性 RNA,例如病毒,如 SARS-CoV-2 或 HIV。」

盡管有大量的蛋白質特異性方法,但用于預測 RNA-小分子互相作用位點的方法數量非常有限,大緻可分為基于知識的方法、經驗方法和機器學習方法。基于知識的方法,例如 InfoRNA,在已知 RNA-小分子結合位點的資料庫中挖掘 RNA 基序。經驗方法,例如 Rsite、Rsite2 或 RBind,依賴于 RNA 結構的簡單幾何特征,并尋找這些特征的極端作為結合位點的名額。

最近,科學家開發了一種機器學習方法 RNAsite;它包含一個随機森林模型,該模型使用計算出的 RNA 的基于結構和基于序列的特征進行操作。使用深度學習有望改進 RNA 結合位點檢測器;然而,由于可用的 RNA 結構數量相對較少,它受到了阻礙。

事實上,雖然最近用于蛋白質-小分子或蛋白質-肽結合位點檢測的深度學習方法依賴于數千個示例的資料集,但 RNAsite 模型僅在 60 個 RNA-小分子複合物上進行了訓練。

在這項研究中,該團隊展示了第一個基于結構的深度學習方法來預測核酸-小分子配體結合位點。為了克服小資料集的問題,研究人員考慮了 RNA 和 DNA 複合物、與晶體對稱配對形成的互動界面、NMR 模型和資料增強。設計組建了一個包含 2000 個核酸小分子結構的資料集,包括從蛋白質資料庫(PDB)檢索到的 2500 個結合位點接口。

接下來,研究人員開發了基于體素的核鍊結構視圖,每個體素代表實體空間中的一個 1 3 立方體,并存儲對應于特定類型原子密度的八個通道。然後将體素化的表示饋送到 3D 卷積神經網絡,該網絡對與結合位點有關的核酸結構中的片段進行評分。獲得的基于結構的深度學習模型稱為 BiteNetN,可預測結合位點界面中心的坐标、每個中心的機率分數以及結合位點中每個核苷酸的分數。

BiteNetN

資料集

為了訓練 BiteNetN 深度學習模型,研究人員建構了一個包含 1933 個核酸-配體複合物的大型資料集,包括不同類型的 1065 個 DNA 和 886 個 RNA 結構(18 個結構同時包含 DNA 和 RNA)。

模型

人工智能預測RNA和DNA結合位點,以加速藥物發現

圖示:BiteNetN的工作流程。(來源:論文)

研究人員使用 3D CNN 架構在精選的核酸結構上訓練 BiteNetN,證明在蛋白質-小分子分子和蛋白質-肽結合位點檢測方面表現最佳,上圖說明了 BiteNetN 工作流程。

人工智能預測RNA和DNA結合位點,以加速藥物發現

圖示:示範 BiteNetN 适用于不同類型的 DNA 或 RNA 結構。(來源:論文)

與其他方法的比較

為了比較 BiteNetN 與其他方法的性能,研究人員獲得了四種不同方法的結合位點預測:Rsite、Rsite2、RBind、RNAsite,用于十個測試集。研究人員計算了現有方法的權重 AP、ROC AUC 和 MCC 性能名額,以及在設計的資料集上訓練的 10 個 BiteNetN 模型。

「大多數早期的方法隻适用于 RNA,特别是單鍊。我們的方法适用于 DNA 和兩條或更多條鍊。我們甚至可以看到當多個分子糾纏在一起時出現的額外位點。」論文的作者 Igor Kozlovskii 說。

人工智能預測RNA和DNA結合位點,以加速藥物發現

圖示:資料集上的權重 AP、ROC AUC 和 MCC 性能名額。(來源:論文)

執行個體探究

結合位點是大分子的結構和動态特性;是以,預測結合位點的方法應區分具有開放和折疊結合位點的構象,并适用于構象集合的分析。為了證明 BiteNetN 用于相關的核酸配體結合位點檢測問題,研究人員測試了HIV-1 的反式激活反應區域和ATP 适體。

人工智能預測RNA和DNA結合位點,以加速藥物發現

圖示:與小分子結合的七種 TAR RNA 結構的 AP 、ROC AUC 和 MCC 性能名額。(來源:論文)

人工智能預測RNA和DNA結合位點,以加速藥物發現

圖示:在野生型 ATP 适體及其 G6A 突變體的 ATP 結合和 ATP 未結合 MD 軌迹上計算的結合位點得分。(來源:論文)

總之,該團隊想強調的是,核酸結構在原子組成和結構折疊上都不同于蛋白質結構,是以難以直接應用蛋白質結合位點檢測方法。在這裡,該團隊為涵蓋各種核苷酸的核酸結構設計了一種特定的類型,适用于 DNA 和 RNA,以及它們的多鍊複合物。

他們設計的 BiteNetN,在建構的測試集上始終優于其他方法。BiteNetN 具有特定的構象,正如我們通過分析結合小分子的七種不同 HIV-1 TAR RNA 結構所證明的那樣。它有助于大規模分析,例如構象集合或突變變異分析,如 ATP 适體案例研究所示。最後,BiteNetN 可以使用 RNA 和 DNA 複合物,包括多條鍊。

開源連結:https://sites.skoltech.ru/imolecule/tools/bitenet/

論文連結:https://academic.oup.com/nargab/article/3/4/lqab111/6441762#316112271

相關報道:https://phys.org/news/2022-01-artificial-intelligence-rna-dna-sites.html

人工智能×[ 生物 神經科學 數學 實體 材料 ]

「ScienceAI」關注人工智能與其他前沿技術及基礎科學的交叉研究與融合發展。

歡迎關注标星,并點選右下角點贊和在看。

繼續閱讀