Survey | 基于圖卷積網絡的藥物發現方法

本期介紹2019年6月發表在Briefings in Bioinformatics的綜述，該綜述由康奈爾大學等機構的研究人員撰寫，系統總結了GCN及其在藥物發現方面的最新進展，重點是與藥物相關的應用；在圖形卷積原理部分提供圖卷積的理論支援和GCN的詳細架構及其在藥物發現中的應用并讨論了目前方法之外的挑戰和可能性。

1. 簡介

藥物開發是一個昂貴且耗時的過程，其需要測試數千種化合物以找出安全有效的藥物。現代藥物開發旨在利用藥物開發的機器學習工具來加速中間步驟并是以降低成本。化合物分子通過一系列漸進的試驗進行過濾，這些試驗确定了它們在後期階段的性質、有效性和毒性。機器學習傾向于越來越多地用于更好地預測早期階段的分子特性，可以顯著減少後期過程失敗的負荷，節省大量資源和時間。

目前廣泛采用QSAR / QSPR模型，機器學習在藥物開發中的應用包括但不限于以下：生物活性或實體化學預測、預測藥物-蛋白質和藥物-藥物對的互相作用、從頭分子設計産生具有理想藥理特性的分子結構、合成可及性預測、預測合成反應的産物。由于傳統機器學習方法隻能處理固定大小的輸入，大多數早期藥物發現都使用了特征工程，即生成和使用特定問題的分子描述符。通常，一組特定問題的分子描述符用作任務中的特征。常用的描述符包括：（1）分子指紋，通過一系列代表特定子結構存在的二進制數字編碼分子結構；（2）源自量子化學、實體化學和微分拓撲的描述符，由統計學家和化學家處理；（3）SMILES字元串，獨特地表征分子的結構并将其表示為線符号。給定預定義的預測變量，然後通過機器學習算法建構和學習分類或預測模型。

近年來，越來越多的大型化學資料庫可用于藥物研發。是以，在使用深度神經網絡應用于藥物開發方面已經出現了新的嘗試。深度學習的優勢在于它能夠學習輸入特征與大規模資料輸出決策之間的複雜關系。它在藥物發現和分子資訊學中的應用仍處于起步階段，但已經顯示出巨大的潛力。與傳統的機器學習方法相比，幾種常用的深層架構已經用于與藥物相關的工作中并且取得了實質性的改進。然而，由于以下原因，深度模型仍然存在局限性。首先，大多數目前的深度模型仍然基于人工制作的特征或預定義的描述符，進而防止結構資訊直接從原始輸入中學習。其次，現有架構不太适合像分子這樣的結構化資料。在這些體系結構的特征提取過程中，既未考慮也未充分使用内部結構資訊。是以，更适合的體系結構對于進一步提高藥物發現中深度學習的潛力至關重要。

結構化資料，例如圖像已被卷積神經網絡（CNN）成功地處理，這是一種深度神經網絡的特殊結構。CNN揭示了圖像相關任務中的最新性能，因為它可以通過卷積運算符自動從繪圖圖像中提取任務相關的特征。對于由原子和化學鍵組成的藥物和小分子有不同的類型結構，即圖形，對于它們其中每個原子是節點，每個化學鍵是邊緣。一個簡單的嘗試是對分子圖類似地适應卷積過程。然而，與圖像不同，圖形具有不規則的形狀和大小;節點上沒有空間順序，其鄰居也與位置有關。是以，正常網格狀結構上的傳統卷積不能直接應用于圖形。實際上，現實世界中的各種結構資料通常形成為圖形而不是圖像，這意味着開發處理不規則結構的方法非常重要且迫切需要。

報道中已經努力對非歐幾裡德結構化資料上的卷積算子進行推廣，進而産生所謂的圖卷積網絡（GCN）。GCN已被确立為與藥物相關任務的最先進方法，其方式是：（1）通過考慮資料結構提取特征；（2）能夠從原始輸入而不是從手工制作的特征中自動提取特征這可能會導緻由專家的偏見引起的重要資訊。目前正在出現的GCN遵循兩個主流，可以概括為空間GCN，其通過對圖中所有相鄰節點的所有特征向量求和來直接在空間域中形成卷積；另一種被稱為光譜GCN，根據譜圖理論，它定義了圖譜域中的卷積。最近的工作還表明，譜卷積可以表征為空間卷積的特殊情況。但是，由于理論基礎不同，仍然将它們視為以下各節中的單獨卷積運算。在兩個域中都定義了卷積，生成GCN利用卷積過程來編碼隐藏的表示和生成分子圖。

2. 圖卷積的原理

處理圖形或網絡的資料形式存在許多重要的實際問題，如社交網絡、知識圖形、蛋白質互相作用網絡和分子圖形等。然而，将深度學習應用于這些圖形資料是非常重要的，因為它具有獨特地圖特征。人們非常關注神經網絡模型對這種結構化圖形資料的概括。過去的幾年中，許多論文重新讨論推廣神經網絡以處理任意結構化圖形的問題。下面的小節中給出了圖的表示和圖卷的兩種方式，即空間卷積和譜卷積。空間卷積GCN是可區分的消息傳遞模式，其在局部圖形鄰域上操作到任意圖形。對于社交網絡，知識圖和分子圖等圖形，它比譜卷積更受歡迎。譜卷積GCN的思想是利用光譜理論在拓撲圖上實作卷積運算，通常用于處理資料，如圖像和視訊。

2.1 圖形定義

圖（graph）是一種資料格式，它可以用于表示社交網絡、通信網絡、蛋白分子網絡等，圖中的節點表示網絡中的個體，連邊表示個體之間的連接配接關系。許多機器學習任務例如社團發現、鍊路預測等都需要用到圖結構資料，是以圖卷積神經網絡的出現為這些問題的解決提供了新的思路。

2.2 空間卷積

早期嘗試推廣結構化資料的判别嵌入中，Dai等人提出了structure2vec，一種用于嵌入圖結構化資料的潛變量模型，在圖形模型中使用近似推理算法。推理算法的解決方案意味着一個傳播方程，其中節點的表示是鄰域邊緣和來自鄰居消息的函數。後來大部分GCN都建立在這個概念之上，并進行了廣泛的修改，稱為空間卷積。

空間卷積旨在直接在頂點域中構造卷積。關鍵思想是通過聚合來自其相鄰節點的資訊來更新某個節點的表示。空間卷積與Weisfeiler-Lehman算法一緻，通常用于測試兩個圖是否是同構，其中節點标簽由相鄰節點的有序标簽集重複地增強。這種傳播的基本機制是首先将鄰域資訊視為圖子結構，然後通過将不同的子結構遞歸地投影到不同的特征空間中，通過可微函數對這種子結構進行模組化。鄰居和中心節點之間的資訊也稱為消息。消息傳遞到中心節點的方式産生表征網絡體系結構的不同傳播規則。

2.3 譜卷積

3.1 定量構效關系（QSAR）/ 定量結構-性質關系(QSPR)；

3.2 互相作用預測：藥物-靶标互相作用、蛋白-蛋白互相作用和藥物-藥物互相作用；

3.3 合成預測

3.4 全新分子設計

4. 藥物發現和分子生物資訊學資料庫

4.1 分子特性和活性

PubChem

MUV (Maximum Unbiased Validation)

ChEMBL

ZINC

NCI

Tox21、ToxCast and ClinTox

FreeSolv

4.2 互相作用資料庫

SIDER (Side Effect Resource)

OFFSIDES (Off-label Side Effect)

STITCH (Search Tool for Interacting Chemicals)

DrugBank

TTD (Therapeutic Target Database)

DBD5 (Docking Benchmark Database)

4.3 綜合資料庫

USPTO：包含化學品反應物反應資訊的資料庫。

4.4 綜合基準資料庫

MoleculeNet

Decagon

5. 結果展望

GCN被描述為對結構化資料模組化施加關系歸納偏差。GCN的出現及其在分子生物資訊學等領域的成功應用描繪了結合深度學習和結構化方法的強大功能，這些方法對輸入和模型施加了嚴格的限制。從更廣泛的意義上講，GCN适用于任何可以表示為圖形的資料結構，是以在各種實際應用中具有重要意義。

藥物發現領域中深度學習能夠在相對短的時間内大規模預測化學性質和活性，自動化并加速藥物發現過程。與傳統方法相比，圖卷積網絡的引入通過考慮内在分子結構提供了更準确的預測。此外，當與其他機制組合時，圖形卷積網絡産生生物可解釋的結果。盡管圖形卷積網絡最近取得了成功，但仍然存在挑戰，以便充分釋放圖形卷積網絡在藥物發現方面的潛力。

5.1 資料庫挑戰和機遇

深度模型需要大量資料才能學習輸入和目标之間的複雜關系。雖然大型資料庫正在變得可用，但由于以下原因仍然存在不足。首先，對于某些分子特性可用資料被限制或擴充為不同的小資料集。除了收集更多資料外，更好地內建不同資料源的統一平台對于交叉引用和擷取更多資料也是必不可少的。其次，現有的資料庫主要是陽性的樣本。目前的計算方法要麼設計新的目标，要麼手動生成負樣本以面對限制，而識别負樣本實際上是困難的。是以，官方策劃的陰性樣本對于使用機器學習方法進行更準确的預測非常重要。第三，可以将更多詳細資訊添加到資料庫中。當藥物與另一種藥物互相作用時，效果可以是協同或拮抗，而實際上隻記錄拮抗作用。事實上，藥物協同互相作用效應是有益的，是以它可以為患者護理中的藥物組合提供重要指導。

5.2 方法論的挑戰和機遇

化合物分子，尤其是蛋白質是3D形狀的實體，其中3D空間中的折疊結構極大地影響它們的功能。目前圖卷積主要在平面2D圖形上操作，其忽略第三維空間中的結構資訊。已經有一些嘗試在3D結構上開發卷積算法并且将圖形卷積網絡擴充到3D結構肯定是值得探索的方向。另一方面，高階結構在二維圖形上的聚焦和探索較少，而實際上可能提供額外的資訊。例如，在疾病-蛋白質網絡分析中，作者發現疾病途徑不對應于單個連接配接良好的組分，而更高階的網絡結構為疾病途徑發現提供了額外的資訊。

現有圖卷積對規則圖形進行操作，而對于某些關系可以形成超圖形。例如，不同的藥物可以共享相同的ADR、靶标或訓示，其可以轉換成超圖。如何在超圖上定義适當的卷積以提取有用資訊尚未在文獻中進行研究。

5.3 網絡設計的挑戰和機遇

能做出的一個改進是結合兩個場景并建構端到端架構，利用低級結構資訊和全局網絡結構資訊。對于第二種情況，通常在互動網絡中最多呈現兩個實體，而實際上，藥物發現涉及兩個以上的實體，并且另外的實體有助于提供附加資訊。例如，在更大的網絡中實體可能是藥物，靶标、疾病甚至是ADR。然而，文獻中沒有充分考慮具有兩種以上模态的圖形卷積形式多模網絡。一個可能的原因是盡管圖卷積網絡适用于可以表示為圖形的任何資料，但是圖形表示對于現有資料并不總是明确的。用于藥物發現的多模型網絡的情況下，具有三種或更多種類型的實體通常更複雜，是以設計适當的圖以便應用卷積架構是至關重要的。

5.4 可解釋性挑戰和機遇

由于深度神經網絡的複雜性，它總是受到缺乏可解釋性的批評。然而，生物資訊學和健康相關領域中，在評估計算模型和更好地了解潛在機制時，可解釋性非常重要。是以，設計允許解釋或可視化複雜關系的微妙架構既是GCN應用在藥物發現中的挑戰，也是機遇。以前的研究使用注意機制或節點對評分成功地顯示了藥物和蛋白質實體（DTI和PPI）之間的互相作用複合物。需要其他機制來進一步提高學習模型的可解釋性。

Survey | 基于圖卷積網絡的藥物發現方法

繼續閱讀

ERROR 1 (HY000): Can't create/write to file '/tmp/#sql_4188_1.MYI' (Errcode: 28)

艱難安裝LDAP,SSL認證

《Linux指令行與Shell腳本程式設計大全第2版.布盧姆》pdf

MySQL的4種隔離級别？出現問題

資料結構與算法（27）——排序（二）

XX系統實施過程問題總結

無元件上傳圖檔到資料庫中，最完整解決方案

【MySQL資料庫】資料庫索引事務1.索引2.事務

neo4j之cypher使用文檔

Dijkstra--簡易版（最短路徑）

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

NOSQL安全攻擊

mybatis_入門程式Mybatis入門

登入plsql 報錯 the account is locked --使用者被鎖

SequoiaDB巨杉資料庫C++驅動概述

hdu7108哈希