天天看點

Bioinformatics| 生物醫學網絡中的圖嵌入方法

Bioinformatics| 生物醫學網絡中的圖嵌入方法

今天給大家介紹Bioinformatics期刊的一篇文章,“Graph embedding on biomedical networks: methods, applications and evaluations”。文章研究了圖嵌入方法在生物醫學網絡分析上的應用,來自美國俄亥俄州立大學、美國哥倫布國家兒童醫院、華中農業大學的研究者完成了該項工作。文章選取了11種具有代表性的圖嵌入方法,對3個重要的生物醫學連結預測任務:(1)藥物-疾病關聯(drug-disease association, DDA)預測,(2)藥物-藥物互相作用(drug- drug interaction, DDI)預測,(3)蛋白質-蛋白質互相作用(protein - protein interaction, PPI)預測; 以及2個節點分類任務:(1)醫學術語語義類型分類,(2)蛋白質功能預測進行了系統的比較。通過實驗結果證明了目前的圖嵌入方法取得了良好的效果,在生物醫學網絡分析方面具有很大的潛力。

1、研究背景

圖(又稱網絡)是一種非線性的資料結構,為了分析圖資料結構,研究者提出了大量的圖嵌入(又稱網絡嵌入或圖表示學習)的方法去自動學習圖中每個節點的低維特征表示。直覺上看,圖嵌入方法是通過學習低維表示來保留圖的結構資訊,進而完成像連結預測,社群檢測,節點分類和聚類等相關任務。現在圖資料結構已經被廣泛用于表示生物醫學中的實體(節點)及其關系(邊)。分析生物醫學的圖結構對于像藥物重定位,非編碼RNA的功能檢測以及協助臨床的決策等重要的醫學任務都有重要的意義。到目前為止,大多數的圖嵌入方法都是在社會網絡和資訊網絡上進行評價,而在生物醫學網絡上還沒有進行系統的實驗和分析。另一方面,各種生物醫學網絡分析任務,矩陣分解等傳統技術(可視為一種圖嵌入方法)取得了可喜的成果,是以有必要系統地評估最近的圖嵌入方法(如基于随機遊走和基于神經網絡)在生物醫學任務上的可用性和進一步發展為最先進技術的潛力。(圖1總結了将各種圖嵌入方法應用于生物醫學任務中的流程。)

Bioinformatics| 生物醫學網絡中的圖嵌入方法

圖1 各種圖嵌入方法應用于生物醫學任務中的流程

2、主要貢獻

(1)提供了現有圖嵌入方法的概述,及其在生物醫學上三個重要的連結預測任務(DDAs, DDIs和PPIs)和兩個節點分類任務(蛋白質功能預測與醫學術語語義類型分類)上的應用。

(2)對于以上5個任務,編制了7個基準資料集(這些資料集來源于常用的生物醫學資料庫或已有的研究),并使用它們來系統地評估11個不同類别中有代表性的圖形嵌入方法(其中5個基于矩陣分解(MF),3個基于随機遊走,3個基于神經網絡)。對來自大量實驗的結果進行了讨論,并且提供了如何選擇嵌入方法(包括其超參數設定)的一些見解和指南。

(3)開發了易于使用的Python程式包,其中包含BioNEV(生物醫學網絡嵌入評估)的詳細說明,可見網站:

https://github.com/xiangyue9607/BioNEV

,包括所有源代碼和資料集,以友善研究各種生物醫學任務的圖形嵌入方法。

3、圖嵌入方法概述

在本節中,将圖嵌入方法分為三類,分别是基于MF的方法,基于随機遊走的方法和基于神經網絡的方法,并對這些方法進行了概述。

基于MF的方法:MF已經被廣泛用于資料分析,它的目的是将一個資料矩陣分解為低維矩陣,同時保留原資料矩陣中隐藏的流形結構和拓撲特性。傳統MF有許多變體,例如奇異值分解(SVD)和圖分解(GF)。近年來,研究人員專注于設計各種高階資料鄰近矩陣以保留圖結構,并提出了各種基于MF的圖嵌入學習方法。文中介紹了GraRep, HOPE,GraRep方法的特點和差別。

基于随機遊走的方法:受word2vec模型的啟發,針對圖資料結構開發了基于随機遊走的方法,即通過随機遊走生成“節點序列”來學習節點表示形式,然後再對生成的節點序列進行嵌入。DeepWalk是這種基于随機遊走進行圖嵌入最早的方法之一。與DeepWalk相比,node2vec采用了靈活的偏差随機遊走政策, struc2vec可以更好地識别結構辨別。

基于神經網絡的方法:近年來神經網絡模型在許多領域成功應用,在圖形嵌入領域也引入了多種神經網絡,例如多層感覺器(MLP),自編碼器,生成對抗網絡(GAN)和圖卷積網絡(GCN)。文中具體介紹了LINE,DNGR,SDNE,GAE,GraphGAN這些方法。

在這個部分,作者選擇了基于MF的5種,基于随機遊走的3種,基于神經網絡的3種共11種具有代表性的圖嵌入方法,回顧它們在3種流行的生物醫學連結預測任務和2種生物醫學節點分類任務上的應用情況。

4.1 連結預測

連結預測任務可以表述為:給定一組生物醫學實體及其已知的互相作用,去預測實體之間潛在的互相作用。生物醫學領域的傳統方法主要是通過特征工程來開發生物學特征。之後,監督學習方法(例如支援向量機器(SVM),随機森林)或半監督的圖推理模型(如标簽傳播)也被用于預測潛在的互相作用。這些方法背後的假設是,共享相似生物學特征或圖特征的實體可能具有相似的關聯。然而,基于生物學特征的方法通常面臨兩個問題:(i)生物學特征擷取困難,成本高且不一定能用。(ii)生物學特征以及手工制作的圖形特征(例如節點度),不足以精确的表示或描述生物醫學實體,并且可能無法為許多應用程式建構健壯和準确的模型。

自動學習節點表示的圖嵌入方法有望解決這兩個問題。比如針對三個重要的連結預測任務:1)DDA的預測:基于MF的技術用于DDA的預測,其本質上,是将DDA矩陣分解來學習藥物和疾病在潛在空間中的低維表示。在因子分解過程中,可以加入正則化項或限制來進一步提高潛在表示的品質。2)對于DDIs的預測,提出了多種正則化MF,利用Laplacian正則化來學習更好的藥物表征。此外,還引入了圖神經網絡用于DDI的預測。3)PPIs通常使用Laplacian和SVD技術進行預測。現在有研究提出了一種基于自動編碼器的模型來學習蛋白質的嵌入,其設計與SDNE相似。

4.2 節點分類

節點分類是圖分析中最重要的應用之一,它的目的是預測局部标記圖中未标記節點的類别。在這裡,作者主要關注兩個節點分類的應用。

1)蛋白質功能預測

大規模的實驗對蛋白質的功能注釋非常昂貴,近年來提出了基于圖的計算方法廣泛地融合了圖嵌入的思想。例如,一種基于拉普拉斯核的正則化方法來學習蛋白質的低維嵌入;Mashup方法在PPI網絡上執行帶有重新開機的随機遊走(RWR),通過低秩矩陣近似方法(可通過SVD優化)學習每個蛋白質的嵌入,再将這些特征向量輸入分類器以獲得關于基因或蛋白質的功能性資訊;DeepGO通過卷積神經網絡和圖形嵌入方法學習基于蛋白序列的蛋白聯合表達和PPI網絡(類似于DeepWalk);node2vec嵌入方法在PPI網絡上進行蛋白質的節點分類也是非常有效的。OhmNet可以基于node2vec優化分層依賴目标,以學習多層組織網絡中的特征表示,用于功能預測;deepNF通過一個深度自編碼器來學習蛋白質的嵌入(類似于SDNE)。

2)醫學術語語義類型分類

在過去的幾年裡,臨床文獻的增加一直在鼓勵研究者開發出能夠從這些資料中挖掘有用資訊的模型,進而來改善患者的個人護理以及幫助臨床決策。由于原始臨床文本通路的限制,醫學術語語義類型的缺失等種種原因,針對醫學術語語義類型的分類雖然很有意義,但已有的研究很少。是以,本文作者的研究團隊制定了一個節點分類任務(如下圖2):給定醫學術語共現圖,其中的術語和共現統計是從公開的臨床文本中提取出來的,對醫學術語的語義類型進行分類。在這項工作中,作者假設臨床文本已轉換為醫學術語-術語共現圖,其中每個節點是一個提取的醫學術語,每條邊是一個上下文視窗中兩個術語的共現的次數。将圖嵌入方法應用于共現圖來學習醫學術語的表示,然後利用學習到的嵌入表示訓練多标簽分類器對醫學術語進行語義分類。

Bioinformatics| 生物醫學網絡中的圖嵌入方法

圖2 (a)醫學術語-術語共現圖是如何建構的,(b)圖中節點類型的分類

4.3 實驗總結

為了說明圖嵌入方法在上述生物醫學應用中的研究現狀,作者将11種圖嵌入技術按3類進行了總結,這些技術應用于特定任務的現有工作如表1所示。

表1

Bioinformatics| 生物醫學網絡中的圖嵌入方法

5、實驗

作者在本節中介紹了7個編制資料集的詳細資訊,包括兩個DDA圖,一個DDI圖和一個PPI圖用于連結預測;一個醫學術語-術語共現圖和兩個PPI圖用于節點分類。并對11種圖嵌入方法在這些資料集上的運算進行了全面的比較。資料集具體建構的方法見原文,7個資料集最終的詳細資訊如表2所示,11種圖嵌入的方法在連結預測中計算得到的AUC的值如表3所示,在節點分類中的計算結果如表4 所示。

表2

Bioinformatics| 生物醫學網絡中的圖嵌入方法

表3

Bioinformatics| 生物醫學網絡中的圖嵌入方法

表4

Bioinformatics| 生物醫學網絡中的圖嵌入方法

除此之外,作者總結了一些設定超參數的通用原則,幫助研究人員更好地設定超參數。表5給出了不同嵌入方法所選擇的一些超參數及其意義。

表5

Bioinformatics| 生物醫學網絡中的圖嵌入方法

6 總結

在這個工作中作者概述了各種圖嵌入技術,并對它們在連結預測和節點分類兩個重要的生物醫學任務上的性能進行了評估。具體來說,作者從公共資料庫或以前的研究中編制了7個資料集,并利用這些資料庫對11種有代表性的圖嵌入方法進行了基準測試。通過大量的實驗,發現了目前的圖嵌入方法在各種生物醫學預測任務中表現良好,并且與現有的方法相比,具有很強的競争力或更好的性能。是以,這些最新的圖嵌入方法可以作為設計未來生物醫學預測任務進階模型的起點。此外,作者調整了圖嵌入方法的一些重要超參數,并為從業者提供了設定超參數的一般指導。作者也讨論了最近的網絡傳播(擴散)方法與圖嵌入方法之間的聯系,以及潛在的方向(如圖嵌入的轉移學習),以啟發未來的工作。