briefings in Bioinformatics 2019 (B類)
文章目錄
- Abstract
- Introduction
- Principles of graph convolution
- Application of GCN on drug discovery
-
-
- Quantitative Structure Activity/Property Relationship Prediction
-
-
- Biological property and activity
- Quantum mechanical property
- Incorporate GCN with other learning architecture
-
- Interaction prediction
-
-
- Ligand–protein (drug–target) interaction
- Protein–protein interaction
- Drug–drug interaction
-
- Synthesis prediction
- De novo molecular design
-
- Databases for drug discovery and molecular bioinformatics
-
-
- Molecular property and activity
-
-
- Biological property and activity
- Quantum chemical property
-
- Interaction database
- Synthesis database
- Integrated benchmark database
-
- Discussion
-
-
- Database challenges and opportunities
- Methodology challenges and opportunities
- Network design challenges and opportunities
- Interpretability challenges and opportunities
-
Abstract
盡管在過去十年中深度學習在各個領域都取得了令人矚目的成功,但其在分子資訊學和藥物發現中的應用仍然受到限制。在深層架構适應結構化資料方面的最新進展為藥物研究開辟了新的範例。在這項調查中,我們對圖卷積網絡的領域以及圖卷積網絡在藥物發現和分子資訊學中的應用進行了系統的綜述。通常,我們對圖卷積網絡為何以及如何可以幫助完成與藥物有關的任務感興趣。我們通過四個角度闡述了現有的應用:分子性質和活性預測,互相作用預測,合成預測和de novo藥物設計。我們簡要介紹圖卷積網絡背後的理論基礎,并說明基于不同公式的各種體系結構。然後,我們總結了藥物相關問題中的代表性應用。我們還将讨論将圖卷積網絡應用于藥物發現的目前挑戰和未來可能性。
Introduction
藥物開發是一個昂貴且耗時的過程,其中要測試成千上萬種化合物并進行實驗以找出安全有效的藥物。 藥物開發的一般過程涉及如Fig. 1所示的步驟。現代藥物開發旨在加快中間步驟,進而通過在藥物開發和臨床前研究階段利用機器學習工具進行藥物開發來降低成本。簡而言之,通過逐漸進行的一系列測試對分子化合物進行過濾,這些測試确定了它們在後期的特性,有效性和毒性。 越來越多地使用機器學習來更好地預測早期的分子特性,進而可以大大減少後續過程的負荷(例如臨床試驗),進而節省大量資源和時間。目前,機器學習在開發藥物中的應用包括但不限于以下方面:通過廣泛采用的定量結構-活性(性質)關系(QSAR / QSPR)模型進行生物活性或實體化學預測; 預測藥物-蛋白質和藥物-藥物對的互相作用; 從頭分子設計,産生具有所需藥理特性的分子結構; 合成預測,預測合成反應的産物。由于傳統的機器學習方法隻能處理固定大小的輸入,是以,大多數早期時代的藥物發現都使用了特征工程,即生成和使用特定于問題的分子描述符。 通常,在這些任務中使用一組特定于問題的分子描述符作為特征。 常用的描述符包括:
- 分子指紋,通過一系清單示特定子結構存在的二進制數字來編碼分子的結構;
- 由統計學家和化學資訊學家處理的源自量子/實體化學和微分拓撲的描述符;
- 簡化的分子輸入行輸入系統(SMILES)字元串,該字元串獨特地描述了分子的結構并将其表示為行符号。 給定預定義的預測變量(即輸入變量),然後通過機器學習算法建構分類或預測模型并進行學習。 近年來,越來越多的大型化學資料庫可用于藥物研究。是以,使用深層神經網絡進行藥物開發的新嘗試已經出現。深度學習[1]取得了令人矚目的成功,并在過去十年中被廣泛用于自然語言處理[2]和計算機視覺[3]等領域的學習任務。深度學習的優勢在于它能夠從大規模資料中學習輸入特征與輸出決策之間的複雜關系。它在藥物發現和分子資訊學中的應用仍處于起步階段,但已經顯示出巨大的潛力。與毒品相關的工作中采用了幾種常用的深度架構[4-7],與傳統的機器學習方法相比,它們取得了實質性的進步。但是,由于以下原因,深層模型仍然存在局限性。首先,目前大多數深度模型仍基于手工特征或預定義的描述符,進而阻止直接從原始輸入中學習結構資訊。其次,現有的體系結構不适用于分子等結構化資料。在這些結構的特征提取過程中,既不考慮内部結構資訊,也不充分利用結構資訊。是以,更适合的架構對于進一步提高藥物發現中深度學習的潛力至關重要。
「論文翻譯」Graph convolutional networks for computational drug development and discoveryAbstractIntroductionPrinciples of graph convolutionApplication of GCN on drug discoveryDatabases for drug discovery and molecular bioinformaticsDiscussion
結構化資料,例如圖像,已經由卷積神經網絡(CNN)成功地處理,卷積神經網絡是深度神經網絡的特殊體系結構。 CNN可以通過卷積運算符從原始圖像中自動提取與任務相關的功能,進而揭示了圖像相關任務的最新性能[8]。對于由原子和化學鍵組成的這類藥物和小分子,我們具有不同的類型結構,即圖,其中每個原子是一個節點,每個化學鍵是一個邊緣。一個直接的嘗試就是将卷積過程類似地應用于分子圖。但是,與圖像不同,圖具有不規則的形狀和大小。在節點上沒有空間順序,節點的鄰居也與位置有關。是以,正常規則網格狀結構上的傳統卷積不能直接應用于圖上。實際上,現實世界中廣泛的結構資料通常以圖而不是圖像的形式形成,這意味着處理不規則結構的開發方法非常重要且迫切需要。
在整個文獻中,人們都在努力對非歐幾裡德結構化資料上的卷積算符進行泛化,進而形成了所謂的圖卷積網絡(GCN)。 GCN已被确立為與毒品有關的任務的最新方法,其方式是:(1)通過考慮資料結構提取特征;(2)能夠從原始輸入而不是手工特征中自動提取特征可能會錯過由于領域專家的偏見而導緻的重要資訊。目前出現的GCN遵循兩個主要流。一個可以歸納為空間GCN,它通過對圖中所有相鄰節點的所有特征向量求和,直接在空間域中表示卷積。另一個稱為頻譜GCN,它根據頻譜圖理論在圖譜域中定義卷積[9]。最近的工作[10,11]也表明頻譜卷積可以被描述為空間卷積的一種特殊情況。但是,由于不同的理論基礎,在以下各節中,我們仍将它們視為單獨的卷積運算。在兩個域中都定義了卷積後,生成型GCN利用卷積過程對隐藏的表示進行編碼并生成分子圖。
在本次調查中,我們特别關注GCN的最新進展及其在藥物發現中的應用,而不是像以前的調查一樣在一般深度學習的背景下進行介紹[12-14]。 是以,我們的綜述重點是與藥物相關的應用,包括最近的應用,旨在幫助讀者深入了解新開發的藥物發現深度架構的最新進展。 我們總結了Table. 1中最相關的論文。此外,我們還總結了這些研究中已使用的所有資料源,并在以後的章節中提供給公衆使用。
其餘内容安排如下:我們在圖卷積原理一節中提供了圖卷積的理論支援,并詳細介紹了GCN的體系結構及其在GCN在藥物發現中的應用方面的應用。 藥物發現和分子生物資訊學資料庫部分概述了公共資料源的資訊。 讨論部分讨論了目前方法之外的挑戰和可能性。
Principles of graph convolution
Application of GCN on drug discovery
在本節中,我們回顧了先前有關計算藥物開發和發現的主要應用的研究。 Table. 2列出了通過GCN進行計算藥物開發和發現的不同任務的開源代碼。
Quantitative Structure Activity/Property Relationship Prediction
QSAR(QSPR)可以預測生物學活性(化學性質)和分子描述符之間的關系。 關于這個問題的機器學習方法已經在文獻中得到了廣泛的探索[50-52]。 對于大多數與藥物有關的計算方法,一個基本問題是要處理哪種類型的輸入表示形式。 手工制作的特征無法完全編碼分子圖的結構資訊。 此外,這些預定義的輸入不是資料/任務驅動的,是以預測能力較低。 是以引入GCN來克服上述限制。
Biological property and activity
Duvenaud等人[28]首先提出了一種使用神經網絡生成可區分且由資料驅動的指紋的方法。在這項研究中,規則的圓形指紋中的哈希函數(編碼分子中每個原子的子結構)被替換為平滑函數。在這裡,圓形指紋被設計為以不變于原子重新标記的方式編碼分子中存在的亞結構[53]。是以,人們學會了用一個實值向量表示一個分子而不是一個二進制向量,這被稱為神經指紋。分子的最終表示形式是通過彙總所有原子的表示形式而獲得的,該表示形式穿過softmax層,該層能夠解釋所學特征。從聚集鄰居資訊以更新中心原子的意義上說,編碼過程是卷積的,并且對具有相同鄰居大小(範圍為1至5)的原子及其相鄰原子應用相同的局部過濾器。作者評估了所生成的指紋的幾種藥物特性,包括溶解度,藥物功效和有機光伏效率,其中神經指紋優于傳統的圓形指紋。而且,這些表示是可以解釋的,使得與預測強烈相關的特征被分子結構中的某些片段所激活。但是,一個不足之處在于,與建立在預先計算的指紋之上的模型相比,訓練指紋和預測模型都需要花費更多的時間,尤其是對于大型資料集。
除了節點特征或标簽外,邊緣資訊也很重要,也可以在圖卷積中進行編碼。 Kearnes等人[29]提出了一種圖形卷積架構來學習考慮節點和邊緣特征的資料驅動任務的分子表示。具體來說,每一層都包含原子表示和成對(邊緣)表示。所有關系子產品的傳播都跨越了不同的層:原子對原子(A→A),原子對對(A→P),對原子(P→A)和對對(P→P),形成一個編織子產品。每層都遵循這種編織子產品架構,而在最後一個卷積層,僅原子表示用于下遊任務。通過神經網絡可以實作跨相同表示(A→A,P→P)的轉換。為了在不同表示(A→P,P→A)之間進行轉換,在特征變換之後使用了額外的順序不變的聚合操作。作者評估了259個資料集的生物活性方法,這些資料集由PCBA [54],Rohrer和Baumann建構的“最大無偏驗證”資料集[55],有用誘餌的增強目錄[56]和訓練集Tox21挑戰[57],在多任務環境中同時預測活動。輸入是具有原子特征以及原子對特征的分子圖。然後将建議的方法與使用RDKit生成的Morgan指紋的基線方法進行比較。拟議的WeaveNet并沒有始終超越現有技術,但提供了一種除了節點功能之外還整合了邊緣功能的方法。
Liu等人[33]也有類似的應用。 在這裡,作者使用GCN開發了吸收,分布,代謝和排洩(ADME)屬性預測系統。 卷積運算符類似于編織子產品。 對于每個原子,首先通過完全連接配接的層轉換鄰域資訊,然後使用不同的reduce運算符進行彙總和歸約。 然後,通過将所有歸約運算符(包括最大值,求和值和平均值)的結果進行級聯來形成中心原子的表示形式。 然後将簡化的表示形式與原子輸入特征組合。 還針對五個標明的ADME終點對多任務方案進行了評估:人微粒體清除率,人CYP450抑制力,水準衡溶解度,孕烷X受體誘導和生物利用度,與基于規則的化學方法相比,拟議的Chemi-Net實作了改進 預測模型。為了獲得分子表示,大多數先前的研究對原子水準表示進行求和或平均,但忽略了分子的圖結構。 李等[32] 介紹了一種使用GCN生成圖形級表示形式的替代方法。 作者通過引入虛拟超級節點(假定通過有向邊連接配接到圖中的所有節點)來實作其目标。 節點級别的傳播遵循正常的空間圖卷積。 對于虛拟超級節點,使用圖及其本身中的所有節點(與之關聯的其他權重矩陣)來更新表示。 作者評估了在生物活性分類和分子性質預測方面的建議方法。
先前的架構都是基于空間圖卷積建構的,而頻譜圖卷積在QSAR(QSPR)任務中的使用較少,原因如下。 分子由大小不同的不同原子組成,是以最終具有不同的拓撲。 頻譜GCN中派生的頻譜受一個特定的圖的影響,是以無法将其轉移到其他圖。 但是,仍存在關于在與藥物相關的任務中使用光譜GCN繞過限制的研究。早期的光譜GCN固定圖結構未經訓練,是以無法從拓撲結構中學習。 李等[35] 構造的圖卷積,它接受靈活的圖輸入并為每個輸入圖學習了其他拓撲資訊。 圖鄰接矩陣通過參數距離度量更新,在訓練過程中學習了用于調整距離度量的權重。 然後根據殘差方案更新拉普拉斯算子,其中在每次疊代中,将學習的拉普拉斯算子的一小部分添加到原始拉普拉斯算子矩陣。 傳播遵循正常頻譜圖卷積。 這種自适應設定允許輸入具有唯一的拉普拉斯圖,是以每個化合物都有其唯一的卷積濾波器。 作者通過在多個分子資料集上的多任務預測驗證了該方法,并表明所學習的其他拓撲結構有助于提高預測精度。
除了節點特征外,即使對于同一分子,邊緣屬性也可能導緻不同的圖形表示。在以前的文獻中還沒有探索使用譜圖卷積來共同學習邊緣權重和節點特征。是以,尚等 [36]提出了一種基于邊緣關注的圖卷積網絡來處理多關系圖。在多關系圖中,每個邊緣特征(二進制或類别)都被視為一個關系。每個關系包含一個字典,其中包含每個關系類别要學習的值。該詞典在所有圖形之間共享,是以建議的方法對輸入大小不敏感。卷積遵循一跳頻譜卷積,在最後一層(預測)之前對不同關系的表示進行級聯或權重平均。作者評估了四個不同資料集上的分類和回歸任務。盡管由于字典設定的原因,所提出的方法适用于各種輸入大小,但僅當邊緣屬性為二進制或分類變量時才可行。
同一原子通常根據其局部化學環境具有不同的分子特性。但是,先前的研究在不考慮其化學環境的情況下,對所有原子和鍵都具有同等重要性。為了解決這個問題,Ryu等人[37]引入了注意力機制來區分不同環境中的原子并提取決定分子性質的結構資訊。給定一個中心節點,在聚合之前,每個鄰居的注意力權重相乘。注意權重通過耦合矩陣表示中心節點和鄰居節點來确定。傳播遵循一跳頻譜卷積。該網絡包含六個卷積層和三個完全連接配接的層,并針對三個資料集進行了分子屬性預測任務的驗證。此外,作者還提供了可解釋的綜合結果,以比較建議的方法和一般的GCN。例如,在k均值聚類下對原子特征向量進行PC分析;兩種方法對不同性質的分子之間的比較,表明注意力機制産生了更合理和可解釋的結果。
Quantum mechanical property
除了生物學特性外,加快藥物發現的另一個關鍵點是準确模拟分子動力學。 量子力學(QM)模拟,其中要掃描數百萬個分子以确定其能量,對于預測分子的功效至關重要。 但是,傳統的品質管理模拟方法,例如 用系統大小的 O ( N 3 ) \mathcal{O}\left(N^{3}\right) O(N3)進行縮放的密度泛函理論(DFT)方法非常昂貴,以至于它們隻能适用于小型系統,或者采用精度較低的其他近似方法。 是以,一些研究集中于開發用于使用GCN快速篩選分子量子性質的深層結構。
Schutt等人[30]提出了一個用于預測分子總能量的深層張量網絡。原子表示通過一系列互動過程進行細化,其中互動被定義為投影鄰居表示和它們之間的投影距離的元素乘積的函數。然後,使用兩個完全連接配接的層基于精确表示來計算每個原子的能量貢獻。通過将所有原子的能量求和獲得最終的分子能。後來,吉爾默等人。文獻[10]進一步将先前的各種著作[21、22、28-30]重構為一個稱為“消息傳遞神經網絡”的通用架構,如空間卷積部分所述。作者提出了enn-s2s,這是消息傳遞網絡的擴充變體,可以從分子圖中提取特征。提出的架構使用鍵類型和原子間距離生成鄰域消息,然後是用于将消息插入中心原子的set2set模型[58]。作者在QM9資料集上評估了他們的方法,該資料集由與分子相關的各種類型的能量和其他化學性質組成,并顯示出優異的性能。
性能。
由于原子距離的離散化,在[10]中學習的濾波器也是離散的,無法捕獲原子的逐漸位置變化并最終得到離散的能量預測。 Schutt等人[31]提出了另一個帶有連續濾波器的圖卷積方法,該方法将位置(距離)映射到相應的濾波器值。該體系結構由一系列原子層和互動層組成。原子層将特征映射重新組合為每個原子的新表示,并在原子之間共享權重,而互動層則根據原子距離更新了原子表示。在互動層中采用了殘差連接配接,以便通過使用徑向基函數作為連續濾波器生成器的卷積層獲得殘差。然後将所得的殘差直接添加到原子表示中作為新的更新。作者通過預測三個不同資料集上的分子能量和原子力,證明了該方法的優勢。
Incorporate GCN with other learning architecture
GCN最初是受傳統卷積網絡的啟發,是以已有一些關于推廣與傳統CNN類似的GCN的研究。 Niepert等。 [27]在他們的工作中提出了這樣的架構。面臨的主要挑戰是像傳統CNN一樣,為任意圖形定義一個接收字段。作者首先通過使用圖示記程式從圖中選擇了固定長度的節點序列來實作這一點。如果兩個不同圖中的節點在圖中的結構角色相似,則将它們配置設定給相似的位置。給定標明的節點序列,然後通過廣度優先搜尋為每個節點組裝鄰域。之後,通過标準化組裝後的鄰域來構造節點的接受場。歸一化過程旨在找到标記,以使矢量空間和圖形空間中的兩個圖形之間的預期距離最小。每個頂點屬性對應于一個輸入通道。基于生成的接收字段,可以将任意功能或體系結構用于下行流任務。例如,作者在兩個分子生物活性分類任務中使用了兩個卷積層,然後是一個緻密層和一個softmax層。
通過合并圖卷積,最近還開展了利用記憶體網絡對分子模組化的工作。 在[38]中,Pham等人。 提出了用于對分子模組化的圖形存儲網絡。 存儲器網絡由控制器和外部存儲器組成,其中存儲器單元對每個節點的表示進行編碼,并且控制器疊代地從存儲器中讀取和寫入存儲器。 圖的表示是使用注意機制的所有存儲單元的權重總和。 每個存儲單元的表示均按照空間圖卷積範例進行更新。 該控制器是使用跳過連接配接實作的。 由于通常在分子活性預測中的分子數目是有限的,為了呈現有限資料帶來的過度拟合,作者使用了多任務方案來評估其方法。 共有9個生物測定活動測試,每個任務都有一個常數向量作為輸入查詢來表示不同的任務。
深度架構需要大量的訓練資料,以實作對預測能力的顯着改善,并且常見的是某些任務可能包含的資料不足,無法做出有意義的預測。通過将一次性學習與GCN結合起來,Altae-Tran等[34]證明,通過并入圖CNN可以顯着改善對小分子的合适距離度量的學習。目的是利用訓練任務中的資訊來建構測試任務的強大分類器,使用不同任務組中分子之間學習的表示形式的相似性,即查詢分子的标簽是基于支援分子的标簽的權重總和。在他們的距離上。在提出的方法中,通過圖卷積層獲得分子表示。用于生成任務驅動的相似性度量的嵌入是通過疊代的長期短期記憶(LSTM)以殘差淨方式實作的。每次疊代時,都會通過細心的LSTM架構将一小部分添加到目前表示中。獲得相似性度量後,可以立即得出分子标記的最終預測。作者在幾個著名的分子特性資料集上評估了他們的方法。此外,通過将經過訓練的模型轉移到另一個資料集,作者表明,一次性模型在推廣到其他不相關的系統方面的功能有限。
Interaction prediction
尋求用于疾病治療的化合物的現代藥物療法依賴于幾種類型的互相作用:
- 配體(可以是上市前化合物或現有藥物的小分子)與蛋白質(靶标)之間的互相作用
- 蛋白質與蛋白質之間的互相作用在途徑調控方法中準确定位互相作用的界面,
- 藥物-藥物互相作用(DDI),以檢測潛在的不良反應并發現現有藥物的新用途。
是以,互相作用預測在藥物開發中也至關重要。但是,由于昂貴的實驗分析以及在小型臨床環境中藥物和蛋白質之間複雜的互相作用的罕見性,這種互相作用的鑒定非常困難。根據當今的大型藥物資料庫,計算方法可在相對較短的時間内對潛在的互相作用進行大規模測試。傳統的計算方法使用标準的機器學習算法來彙總藥物和目标特征或相似性度量,以識别互相作用[59-62]。 GCN的出現使分子的可學習表示成為可能,進而提供了使用深度學習架構檢測藥物與靶标之間互相作用的新範例。
Ligand–protein (drug–target) interaction
預測配體(售前化合物或現有藥物)與蛋白質(靶标)之間的互相作用是藥物開發中的一個基本問題。 但是,由于以下原因,仍然存在一些挑戰。 首先,可合成配體的化學空間是難以控制的,是以使預測仍然是一個未解決的問題。 其次,傳統方法通常将互動作用預測視為一個二進制分類問題,并且無法處理冷目标問題[63,64],即目标蛋白質從未出現在訓練集中,這在實踐中非常普遍。 第三,大多數傳統方法雖然有效,但缺乏生物學解釋,而在生物資訊學領域卻很重要。
是以,為了解決局限性,Feng等[48]提出了一個基于深度神經網絡的架構,以預測化合物和蛋白質之間的實際值互相作用強度,而不是二進制類别标簽。它的優越性取決于對帶有GCN的每種藥物的分子結構的了解,進而使藥物表示具有更豐富的内部化學資訊編碼,而不是将每種藥物僅當作知識圖譜(KGs)中的一個節點。對藥物的分子結構進行編碼可以計算藥物與蛋白質之間的實際值互相作用強度。這項研究以分子結構和蛋白質資訊為輸入,是以能夠解決冷靶(和冷藥)問題。 Lau和Dror [65]為晶體學資料開發了幾種新穎的圖卷積方法,表明通過圖卷積學到的潛在特征在其他蛋白質-配體下遊回歸/分類應用中是有效的。
Gao等[39]提出了可以解釋為預測藥物與靶标互相作用的端到端深度架構。通過LSTM遞歸神經網絡了解了由氨基酸序列組成的蛋白質的表達,同時通過圖卷積層獲得了藥物分子的神經指紋[28]。引入了雙向注意機制來跟蹤藥物原子與每個氨基酸成分互相作用的可能性,進而實作可解釋性。然後使用注意力權重将原子聚合為分子表示(藥物),将氨基酸聚合為蛋白質(靶标)。最後,将基于注意力的表示形式輸入到分類器中進行預測。除氨基酸序列外,基因本體資訊還用于推導蛋白質嵌入。可以将學習到的互相作用追溯到原子水準和氨基酸水準,以檢視藥物和靶标的哪一部分對相應的互相作用貢獻最大。
顯然,上述互動作用預測的性能取決于這些知識圖的品質,即,這些KG中現有邊的有效性。 但是,許多現實世界的知識圖傾向于包含來自品質不同的多個來源的關系。 例如,從非結構化文本(例如醫學文獻)中提取的藥物-靶标互相作用不如人工策劃的可靠。 是以,必須有一種方法可以有效地利用噪聲較大的便宜資料來進行更準确的預測。 為此,尼爾等人。 [66]通過增加網絡的注意力參數來學習網絡中的注意力參數,進而學習了GCNs的注意力機制,以在訓練過程中信任邊緣以減輕噪聲邊緣的影響。 它不僅可以提高幹淨資料集的性能,而且還可以很好地适應KG中的噪聲。
Protein–protein interaction
盡管與藥物設計沒有直接關系,但是蛋白質-靶标互相作用為開發調節蛋白質途徑的藥物提供了靶标結合位點資訊。 也可以使用圖卷積網絡預測此類互動。 在[67]中揭示了一個成功的應用程式。 給定兩種蛋白質,每種蛋白質被饋入兩層圖卷積網絡,并為每個原子學習嵌入。 然後通過原子嵌入的串聯獲得成對表示,然後是一個完全連接配接的層以對來自兩種蛋白質的兩個原子是否彼此反應進行分類。 實驗中使用的特征是手工制作的,包括基于序列的特征和根據結構計算的特征。 是以,該應用程式旨在通過考慮繁殖步驟中的蛋白質結構,從現有特征中提取資訊。
Drug–drug interaction
當兩種藥物同時使用而另一種藥物影響一種藥物的效果時,就會發生DDI。 DDI預測不僅有助于預防不良反應,而且還有助于發現新的藥物用法(例如,有益的DDI可以為藥物組合提供指導,并可以在治療期間視為新藥),進而提供有關藥物開發過程的其他資訊。是以,盡管DDI預測與狹義藥物開發有間接關系,但我們仍将其納入本節。 Zitnik等人[40]提出了一種基于GCN的架構,以進一步在多藥副作用水準上識别DDI,即不同類型的DDI,為藥物聯合治療提供了額外的指導。所提出的架構Decagon被描述為多模式網絡中的多關系連結預測。它包含一個圖卷積編碼器和張量分解解碼器。編碼器考慮了具有兩種類型實體的圖形:藥物和蛋白質。以及三種類型的互相作用:蛋白質-蛋白質互相作用(PPI),藥物-蛋白質互相作用(DTI)和DDI。每個副作用都表示為不同類型的邊緣。編碼器遵循空間卷積約定,将不同的權重配置設定給具有不同關系類型的節點和鄰居。每一層都被認為是一階鄰域,而更多的鄰居則與堆疊層有關。編碼器将每個節點映射到一個嵌入,而解碼器旨在從學習的表示中重建邊緣标簽。在解碼階段,使用張量因數分解法為每個節點對計算關系得分。通過最小化交叉熵損失來優化整個模型。作者将他們的方法與張量因子分解模型和基于深度學習的方法(如DeepWalk [68])進行了比較,并取得了顯着改進。
為了從異構資料源中獲得更全面,準确的藥物相似性,Ma等[42] 提出了一種使用帶有注意機制的圖自動編碼器的多視圖藥物相似性內建架構。 每個視圖都表示為由資料源中的要素獲得的相似度矩陣。 通過注意機制彙總了不同的視圖,在該機制中,每個視圖都具有可學習的注意權重。 注意權重被對角線化以減少計算複雜度。 然後将融合的相似性核心輸入到自動編碼器架構中,以提取資訊表示。 傳播遵循譜圖卷積,如[22]。 作者評估了針對DDI發生和具有不同關系類型的DDI的DDI識别任務的建議方法。
結構資訊也可以與其他資料類型組合以增強預測性能。 淺田等[41] 提出了從文本中提取DDI的架構。 給定一個帶有藥物提及的語料庫,目标是将藥物-藥物對分類為不同類型的互相作用(機理,作用,建議,内在互相作用和無互相作用)。 傳統方法使用CNN提取特征以預測藥物-藥物關系[69]。 作者首先通過預先訓練用于DDI識别的GCN(二進制)将藥物結構資訊納入架構。 之後,将來自固定GCN的藥物嵌入與來自CNN的文本嵌入連接配接起來,送入一個完全連接配接的層中以預測互相作用類型。 藥物結構來自DrugBank,文本文檔來自DDIExtraction 2013共享任務[70]。 結果表明,結構資訊可用于從文本中提取DDI。
Synthesis prediction
預測有機反應結果是設計産生特定目标分子的反應序列的基本步驟。它涉及兩個步驟:候選人生成和篩選。候選生成的最新解決方案基于反應模闆,該模闆指定了可以應用的分子子圖模式以及相應的圖轉換。模闆是手工制作或從反應資料庫生成的[71-73],該資料庫存在覆寫範圍和效率問題。而且,比對過程是昂貴的,使得目前的方法僅适用于小的資料集和有限的反應類型。在[43]中,Jin等。提出了一種無模闆方法,用于利用圖神經網絡進行反應預測。輸入是預定義的原子和鍵特征。利用圖卷積,網絡學會了通過預測反應物分子中每個原子對的反應性得分而無需使用模闆即可識别反應中心。前向傳播遵循空間圖卷積。得分最高的原子對用于生成候選産品。然後建立了第二個網絡,用于對候選人進行排名,以找到真實的反應結果。作者提出了兩種用于候選人生成和排名階段的模型。在模型生成的候選集中找到真實産物的反應比例用作評估反應中心的評估名額。覆寫精度用于候選者排名。結果表明,所提出的方法在很大程度上優于基于模闆的方法。
在化學領域,逆合成是設計化合物生産的标準方法。原理是,從精神上往後看,化合物會分解成越來越小的成分,直到獲得基本成分為止。該分析提供了“烹饪食譜”,然後将其用于實驗室中,從原材料開始生産目标分子。盡管從理論上講很容易,但是該過程在實踐中存在困難。就像在國際象棋中一樣,您在每一個步驟或動作中都有多種選擇。但是,在化學中,比象棋有更多數量級的可能動作,而且問題要複雜得多。計算機輔助的逆向合成将是非常有價值的工具。但是,過去的方法很慢,并且結果不令人滿意。為此,Segler等人[74]提出了一種基于深度學習的新的計算機輔助合成計劃(CASP)方法,該方法利用蒙特卡羅樹搜尋有效地發現逆合成途徑,現在着重于将發現付諸行動。與傳統的CASP方法相比,該新方法在很大程度上借鑒了深度神經網絡和強化學習的思想,并且是對傳統CASP方法的重要改進。與計算機科學界基于GCN的方法相比,Segler等人提出了這種新方法的設計。借用了很多化學知識,反映了對化學反應的深刻了解。
De novo molecular design
藥物開發的最終目标是發現具有所需藥理特性的新化學結構。然而,由于實際上無限的搜尋空間,實際上藥物設計是困難且昂貴的[75]。是以,從頭分子設計旨在利用計算方法來自動化分子生成過程。早期的研究利用基于規則的方法來減少搜尋空間并生成分子[76,77]。深度學習中的生成模型可以基于SMILES字元串有效地生成分子[49,78]。但是,SMILES和指紋太簡單,無法提供分子結構的拓撲資訊,并且導緻學習準确性相對較低。分子圖可以直覺,簡明地表達具有2D拓撲資訊的分子。是以,它們在化學教育以及化學資訊學中被廣泛采用。實際上,已經進行了努力來開發基于分子圖的DL模型。作為CNN的擴充,GCN引入了分子的新表示形式,是以可以直接實作生成分子圖,而不是通過管道實作方式生成中間表示,進而為分子生成提供了新的思路。 GCN受益于CNN架構的優勢;與完全連接配接的多層感覺器模型相比,它利用較少的參數以較高的精度執行,但計算成本相對較低。它還可以通過分析相鄰原子之間的關系來确定重要的原子特征,這些特征決定了分子的性質。分子圖中相鄰原子之間的資訊傳播設計是對分子中結構資訊進行編碼的簡單有效方法[28]。
Simonovsky等人[44]提出了用于生成小分子圖的變分自動編碼器。編碼器由變分後驗定義,解碼器由生成分布定義,每個都包含可學習的參數。編碼器的輸入是圖鄰接矩陣,邊緣特征張量和節點特征。作者使用邊緣條件卷積作為編碼器。解碼器在預定義數量的節點上輸出機率完全連接配接圖,可以從中提取離散樣本。通過最小化負對數可能性的上限來訓練模型。通過近似圖比對來對齊生成的圖和地面真相,可以增強自動編碼器的重構能力。作者将基于GCN的VAE與傳統的基于字元的生成器[79]和基于文法的生成器[80]進行了比較,并論證了提出的生成化學上更有效的分子的方法。但是,由于其預定義的節點數始終等于或大于實際分子大小,是以提出的模型僅對生成小圖有用。而且,輸出是一個密集的表示,使得參數和比對的複雜性迅速增長。
Li等人[45]研究了一種機率方法,該方法順序生成原子并擴充圖,而不是立即生成整個圖。生成過程可以視為關于添加節點還是邊緣并選擇一個節點與新節點連接配接的一系列決策。決策是根據GCN描繪的機率做出的。通過最大化圖上預期的聯合對數似然分布以及其節點和邊的排序來學習網絡。生成模型可用于實作條件生成。典型的輸入用于調節生成過程。作者評估了所提出的方法,用于生成特定拓撲圖和分子圖。結果表明,與具有LSTM體系結構的模型相比,該方法可生成更有效的圖形。但是,可伸縮性仍然是所提出方法的挑戰,因為大型圖需要更多的傳播步驟來確定資訊流,并且訓練這種圖模型比訓練LSTM網絡更加困難。 Li等人[46]采用了類似的架構。在每個步驟中,都會采樣并執行圖轉換(追加,連接配接,終止)。使用GCN對每個過渡采樣的機率進行參數設定。過渡映射被表示為解碼方案。作者探索了兩種解碼政策,一種是通過馬爾可夫過程參數化的,另一種是使用分子水準的遞歸單元來增加模型的可擴充性。
以原子方式生成分子圖的主要缺點是産生低品質的中間體。 Jin等[47]提出了一種利用子結構作為有效成分的兩階段分子圖生成方法,進而顯着提高了生成分子的品質。該方法首先生成一個連接配接樹結構來表示子圖元件,這些子圖元件用作建構塊。在第二階段,将子圖組合在一起成為分子圖。該圖由标準GCN編碼。通過平均所有節點表示獲得最終的圖形表示。使用消息傳遞網絡對樹結構進行編碼,其中消息是通過門控循環單元構造的。最終的樹表示形式是從樹根編碼的。在解碼過程中,首先對一棵樹進行解碼,然後通過對子圖進行枚舉和排序來從連接配接樹中對圖進行解碼。作者通過三種方式對提出的方法進行了評估:
- 分子重構和有效性:從其潛在表示中重構輸入分子,并在從先驗分布采樣時對有效分子進行解碼
- 貝葉斯優化:測試模型如何産生具有所需特性的新型分子
- 限制分子最優化:修飾給定的分子以改善特定的特性,同時限制與原始分子的偏離程度。将該方法與基于SMILES的最新VAE進行了比較[80,81],并顯示出顯着的改進。
Databases for drug discovery and molecular bioinformatics
到目前為止,我們已經介紹了GCN在藥物發現中的應用。 在本節中,我們在Table. 3中提供了被調查論文所使用的資料庫的摘要。 我們将它們分為與藥物應用相對應的組。 我們還包括多個資料庫,這些資料庫是從多個來源內建而來的,可用于開放通路。
Molecular property and activity
Biological property and activity
PubChem [54]是一個大型公共資料庫,提供化學分子及其對抗生物測定的活性。 它由三個主要通道組成:PubChem生物測定(PCBA),PubChem化合物和PubChem物質。 物質包括化合物及其所有參與者報告的資訊。 化合物衍生自物質,由該物質的化學結構的标準化表示組成。 BioAssay包含來自125萬個高通量篩選程式的生物活性結果。 PubChem化合物編号通常在不同的化學資料庫中使用,以引用相同的化合物。
最大無偏驗證(MUV)[55]資料集是PCBA的子集,它是使用精确的最近鄰分析産生的,并且在模拟偏倚和人工富集方面沒有偏見。 它包含約9萬種化合物的17項艱巨任務,是專門為驗證虛拟篩選技術而設計的。 選擇這些資料集中的陽性示例在結構上彼此不同。
ChEMBL [82]是具有類似藥物性質的生物活性分子的資料庫。 它包含分子化合物的結合,功能和ADMET(吸收,分布,代謝,排洩和毒性)資訊,這些資訊是手動從主要已發表的文獻中獲得的,然後進行進一步的标準化。 該資料庫提供了540萬種生物活性測量結果,涉及超過100萬種化合物和5200種蛋白質目标。
ZINC [83,84]包含精選的為虛拟篩選而制備的市售化合物。 它從20多種資源中提供與分子相關的資訊,例如化學結構,生物活性和目标資訊。 它包含了超過2億個即插即用的3D格式的化合物。
NCI [85]是針對針對不同癌細胞系的活性進行篩選的化學化合物資料庫。 它包括約250K分子的生物學測試資料和化學結構。 由藥物治療計劃[86]使用AIDS抗病毒篩選産生的HIV資料集,也是NCI資料庫的一部分,在該資料庫中檢查了化合物的抗HIV活性證據。 對篩選結果進行了評估,并将其分為三類:已确認活躍,已确認無效和已确認中等活躍。 該資料集包含43850種化合物的篩選結果以及結構資訊。
Tox21 [57],ToxCast [87]和ClinTox [63]是包含分子毒性資訊的資料集。 Tox21,在21世紀計劃中被稱為毒理學,是聯邦機構之間的合作,旨在開發創新的測試方法,以更好地預測物質如何影響人類和環境。 它包含對12個生物目标的定性毒性測量,包括核受體和應激反應途徑。 ToxCast是由環境保護署提供的資料集,用于開發有效的方法來對化學品進行優先級排序,篩選和評估。 它使用高通量篩選方法和計算毒理學方法,包含來自多種來源的1800種化學物質的毒理學資料。 ClinTox是MoleculeNet [63]基準資料的一部分,其中包括因毒性原因而在臨床試驗中失敗的藥物化合物以及FDA準許的那些化合物。 它包含1491種藥物化合物的兩個分類任務。
FreeSolv [88]是實驗和計算出的水中小分子水合自由能的資料庫。 這些值是使用分子動力學模拟從煉金術自由能計算得出的。 它目前包含643個分子的分子性質資料及其化學結構。 ESOL [89]是另一個包含數以千計的低分子量化合物的均一溶解度資料的資料集。
Quantum chemical property
清潔能源項目資料庫(CEPDB)[90]是哈佛清潔能源項目的資料庫,這是一項虛拟的高通量篩選計劃,旨在确定有前途的碳基太陽能電池材料新候選人。 該項目建立了一個自動化的計算機矽架構,以研究有機光伏的潛在候選結構。 該資料庫提供了從DFT模拟獲得的有關230萬個候選分子基序的資訊,這些基序包括已知化合物和虛拟化合物。
量子機器(QM)[30,91–96]是一個包含分子及其量子力學特性(例如原子能和力)的資料庫。 它包含來自多個來源的資料,旨在加速機器的開發,該機器可以根據第一原理快速準确地模拟量子化學系統。 自2013年以來,它已經釋出了QM7,QM8,QM9和MD資料集。
Interaction database
副作用資源(SIDER)[97]是一個資料庫,其中包含有關上市藥物及其記錄的藥物不良反應(ADR)的資訊。 該資訊是從公共文檔和包裝說明書中提取的。 目前,資料庫中有1430種藥物和5868種副作用(SE),其中有139756種藥物-SE對。 還提供了藥物适應症的資料集以減少假陽性。
标簽外副作用(OFFSIDES)[98]是針對1332種藥物和10097種不良事件的438801标簽外副作用的資料庫。 标簽外的副作用表示未在FDA官方藥品标簽上列出的副作用。 使用不良事件報告系統收集資訊,該系統收集患者,醫生和公司的報告。 由同一實驗室生成的TWOSIDES [98]是藥物對多藥房副作用的一種資源。 它僅包含藥物組合引起的副作用,而不是任何單一藥物引起的副作用。 與OFFSIDES一樣,資訊是通過不良事件報告系統生成的。 該資料庫包含59 220對藥物與1301不良事件之間的868 221個重要關聯。
互相作用化學品搜尋工具(STITCH)[99]是一個資料庫,它将430萬種化學品和960萬多種蛋白質的資料源整合到一個資源中。 它提供了化學物和不同互相作用目标之間的結合親和力,進而形成了化學-化學互相作用和化學-蛋白質互相作用的全球網絡。 蛋白質空間與蛋白質網絡中的蛋白質網絡STRING [100]共享。 所有互動都與代表網絡實體之間鍊路強度的置信度得分相關。
DrugBank [101,102]是一個全面的資料庫,其中包含有關藥物的詳細分子資訊。 資料庫中有兩種藥物,FDA準許的小分子藥物和生物技術藥物。 它還提供有關目标,名額和途徑的資訊。 每種藥物的資料字段都與其他資料庫(PubChem,ChEBI,PDB,KEGG等)超連結。 最新版本包含11680個藥物條目和5129個與這些藥物條目連結的非備援蛋白(即藥物靶标/酶/轉運蛋白/載體)序列。
治療靶标資料庫(TTD)[103-106]包含有關文獻中描述的已知治療蛋白和核酸靶标的資訊。 除目标外,它還提供相應藥物的資訊,目标疾病狀況和途徑資訊。 序列和結構資訊也可以通過與其他資料庫的交叉連結獲得。 目前,資料庫包含3101個目标和34 019種藥物。
對接基準資料庫(DBD5)[107]是一個基準資料庫,其中包含一組不同的蛋白質對接測試用例。 複合物是蛋白質資料庫(PDB)中結構的子集選擇。 它包括單獨結晶的受體和配體PDB,以及共結晶的複雜PDB,用于測試蛋白質對接算法。
BindingDB [108]是在藥物靶标蛋白質和小的藥物樣分子互相作用中測得的結合親和力的資料庫。 該資料庫包含1 454 892結合資料,其中包含7082個蛋白質靶标和652068個小分子。
Synthesis database
USPTO [109]是一個資料庫,其中包含化學反應物的反應資訊。 這些反應摘自美國專利商标局(USPTO)的專利申請。 總共提取了424621個精确的原子映射反應,并将其包括在資料庫中。
Integrated benchmark database
MoleculeNet [63]是旨在測試分子性質的機器學習方法的基準。 它建立在多個公共資料庫的基礎上,涵蓋了700,000種經過一系列不同性能測試的化合物。 資料集分為四個類别:生理學,生物實體學,實體化學和量子力學。 它包含上述資料庫的子集合,包括QM,毒性資料集(Tox21,ToxCast。ClinTox),生物活性資料集(PCBA,MUV,HIV),生物屬性資料集(ESOL,FreeSolv)和互相作用資料集(SIDER)。 它還包含其他資料集,例如BBBP,血腦屏障滲透的二進制标簽; 親脂性,辛醇/水配置設定系數的實驗結果; BACE,一組人β-分泌酶1抑制劑的結合結果; 和PDBbind,對生物分子複合物的結合親和力。
Decagon [40]提供了蛋白質靶标和藥物分子及其互相作用的預處理資料。 該網絡由DTI,PPI和DDI組成,這些DTI,PPI和DDI來自多個資料源。 通常,DTI是從STITCH資料庫中提取的; DDI來自TWOSIDES資料庫; PPI是通過人工PPI網絡和STRING資料庫進行內建的。 還包括SIDER和OFFSIDES的藥物副作用。
為了提高從頭分子設計生成模型的評估的一緻性,Brown等人。 [110]基于一套标準化基準引入了一種評估架構GuacaMol。 基準任務包括測量模型的保真度以重制訓練集的屬性分布,生成新分子的能力,化學空間的探索和開發以及各種單目标和多目标優化任務。 基準測試架構可作為開源Python軟體包獲得。
Polykovskiy等。 [111]介紹了用于藥物發現的MOSES,它實作了幾種流行的分子生成模型,并包括一組評估生成的分子的多樣性和品質的名額。 MOSES旨在使分子生成研究标準化,并促進新模型的共享和比較。 此外,它對現有的最新模型進行了大規模比較,并詳細闡述了生成模型目前面臨的挑戰,這些挑戰可能為新研究提供沃土。 該平台應允許公平,全面地比較新的生成模型。
Discussion
正如最近的一篇綜述文章所總結的那樣,GCN可以被描述為在對結構化資料進行模組化時施加了相關的歸納偏差[112]。 GCN的興起及其在分子生物資訊學等領域的成功應用說明了結合深度學習(假定先驗知識最少)和結構化方法(對輸入和模型施加嚴格限制)的強大功能。從廣義上講,GCN适用于可以表示為圖形的任何資料結構,是以在各種實際應用中具有巨大的意義。
在藥物發現領域,深度學習能夠在較短的時間内對化學性質和活性進行大規模預測,進而自動化并加快藥物發現過程。通過自然地考慮分子結構,與傳統方法相比,圖卷積網絡的引入提供了更準确的預測。此外,當與其他機制(例如注意力)結合使用時,圖卷積網絡會在互動預測中生成生物學可解釋的結果。
但是,盡管圖卷積網絡最近取得了成功,但要想完全釋放圖卷積網絡在藥物發現方面的潛力,仍然存在挑戰。在此,我們在以下小節中總結了挑戰和機遇。
Database challenges and opportunities
深度模型需要大量資料才能了解輸入和目标之間的複雜關系。盡管可以使用大型資料庫,但是由于以下原因,仍然存在功能不足的問題。首先,對于某些分子特性(例如溶解性,毒性),可用資料有限或作為不同的小型資料集傳播。除了收集更多資料外,一個更好地內建不同資料源的統一平台對于交叉引用和擷取更多資料也至關重要。其次,現有資料庫主要收集陽性樣本。例如,在互動網絡中,如果兩個實體進行互動,則将它們包含在資料庫中,而通常忽略非互動對的資訊。這不僅會引起不平衡問題,還會導緻完全無法獲得控制資訊的情況。目前的計算方法要麼設計新目标,要麼手動生成負樣本以克服局限性,而實際上很難确定負樣本。是以,官方策劃的負樣本對于使用機器學習方法進行更準确的預測非常重要。第三,可以将更多指定的詳細資訊添加到資料庫中。例如,即使對于互動對,互動也可能具有不同的功能。當一種藥物與另一種藥物互相作用時,其作用可能是協同作用或拮抗作用,而實際上僅記錄了拮抗作用[113]。實際上,DDI的協同作用是有益的,是以可以為患者護理中的藥物組合提供重要指導[114]。
Methodology challenges and opportunities
分子化合物,尤其是蛋白質,是3D形的實體,在3D空間中的折疊結構會極大地影響其功能[115]。目前的圖卷積主要在平面二維圖上運作,而二維空間中的結構資訊被忽略。已經有一些嘗試在3D結構上開發卷積算子[116-118],并将圖卷積網絡擴充到3D結構絕對是一個值得探索的方向。
另一方面,雖然高階結構實際上可以提供其他資訊,但它們對二維圖的關注較少,而在二維圖上卻很少。例如,在疾病-蛋白質網絡分析中[119],作者發現疾病路徑并不對應于單個良好連接配接的元件,而更高階的網絡結構(基序)為疾病路徑發現提供了更多資訊。 Monti等。 [120]研究了譜圖卷積的圖案,并在引用網絡資料上得到了驗證。基于基序的圖卷積的探索及其在藥物發現中的應用尚未得到很好的建立,是以是一個有前途的未來方向。
現有圖卷積在規則圖上運作,而對于某些關系,可以形成超圖。例如,不同的藥物可能共享相同的ADR,目标或适應症,可以轉換成超圖。文獻中尚未研究如何在超圖上定義适當的卷積以提取有用的資訊。
Network design challenges and opportunities
目前,圖卷積網絡通常用于兩種情況。在第一種情況下,每個資料點都表示為圖,其中預測發生在圖級别,例如分子性質和活性預測。在第二種情況下,僅呈現一個圖形,并且每個資料點表示圖形中的一個節點,例如藥物-靶标互相作用網絡。第一個旨在提取每個實體的結構資訊,而第二個旨在在實體之間傳播親和力資訊。
可以做的一項改進是結合兩個場景,并利用底層結構資訊和全局網絡結構資訊來建構端到端架構。對于第二種情況,通常在互動網絡中最多顯示兩個實體,而實際上,藥物發現涉及兩個以上的實體,其他實體有助于提供其他資訊。例如,在更大的網絡中,實體可以是藥物,目标,疾病甚至是ADR(關系)。但是,在文獻中沒有很好地考慮具有兩個以上模态的多模态網絡的圖卷積。造成這種情況的一個可能原因是,盡管圖卷積網絡适用于可以表示為圖的任何資料,但是,圖表示并不總是針對現有資料。例如,分子可以自然地成為圖形,而病曆則不是,盡管可以精心設計以形成某些圖形。在用于藥物發現的多模型網絡的情況下,具有三種或更多類型的實體通常更複雜,是以設計适當的圖以應用卷積架構至關重要。
Interpretability challenges and opportunities
由于深度神經網絡的複雜性,它總是會受到缺乏可解釋性的批評。 但是,在生物資訊學和與健康有關的領域中,可評估性在評估計算模型和更好地了解潛在機制時非常重要。 是以,設計能夠解釋或可視化複雜關系的微妙架構既是挑戰,也是藥物研發中GCN應用的機遇。 先前的研究[39,67]成功地使用注意力機制或節點對評分顯示了藥物和蛋白質實體(DTI和PPI)之間的互相作用複合體。 需要其他機制來進一步提高學習模型的可解釋性。
Key Points
- GCN是一類計算技術,旨在通過圖卷積從通用圖中提取特征。
- 如果我們将每個藥物分子結構視為一個以原子為結點,鍵為邊的圖形,則GCN可以應用于藥物開發。
- GCN已成功應用于許多藥物開發問題,包括QSAR / QSPR,藥物靶标/ DDI預測和Denovo藥物分子結構設計。
- 有許多可公開獲得的藥物相關資料庫,用于在各種計算藥物開發應用程式中開發基于GCN的方法。
- GCN在計算藥物開發方面仍然面臨挑戰,包括全面的資料,優化的模型設計和模型的可解釋性。