作者:CHEONG
公衆号:AI機器學習與知識圖譜
研究方向:自然語言處理與知識圖譜
本文介紹一篇基于Random Propagation的深度圖神經網絡模型Grand(NIPS 2020),介紹Grand模型核心點和模型思路,完整彙報ppt擷取請關注公衆号回複關鍵字:Grand
一、Background
Knowledge1、Over-fitting:在CNN卷積神經網絡中,若CNN網絡結構過于複雜過于Deep,且資料量有限的情況下,便會出現Over-fitting問題,Over-fitting就是指模型對于訓練資料過度學習,學習到訓練資料本身而不是訓練資料的規律,導緻無法在測試集上準确預測的情況。
Knowledge2、Over-Smoothing:在GNN圖神經網絡中,由于圖本身結構上節點與節點之間互相連接配接的特性,并且圖神經網絡一般是通過鄰域彙聚或随機遊走的方式進行表征學習,是以當圖網絡一旦變深,便會出現Over-Smoothing問題,Over-Smoothing指的是随着圖神經網絡加深,學習到的節點表征越來越相似,以至于無法區分,模型效果也将大幅下降。且在圖網絡中一般2 Layers時效果最佳。是以如何在DeepGNN中既能學到更深層次資訊又能避免Over-Smoothing顯得至關重要。
Knowledge3、DeepGNN的必要性: 通常對于少标簽半監督節點分類任務,或是少特征半監督節點分類任務,DeeperGNN便較為重要,在特征較少時,便想通過多跳傳遞能學到更多有效資訊。
二、Motivation
目前圖神經網絡模型大多存在以下三個問題,為了解決這三大問題本文提出了Grand Random Neural Network
Problem1、深度圖神經網絡存在Over-Smoothing問題,随着GNN層數堆疊使得節點表征無法區分,最近研究表明:在Propagation過程中耦合non-linear transformation操作會加劇Over-Smoothing問題(解決政策:Random Propagation Strategy);
Problem2、固定鄰居的Propagation操作會使得每個節點高度依賴它的多跳鄰居,導緻節點表征更容易受到潛在資料噪音誤導,降低模型的魯棒性(解決政策:解耦Transformation和Propagation);
Problem3、在半監督學習中,之前針對GNN标準的訓練方法很容易過度拟合稀缺的标簽資訊,是以如何在半監督學習中充分利用大量未标記資料便是一個關注點(解決政策:Data Augmentation Methods for Consistency Regularized Training)。
三、Method
為了解決上述提及的問題,本文提出Grand模型,兩個主要的創新點:
1、Random Propagation for Graph Data Augmentation;
2、Consistency Regularized Training。
接下來我們先通過模型圖來快速了解一下Grand模型運作流程,然後再從公式角度詳細分析一下Grand模型的兩大創新點。
![](https://img.laitimes.com/img/__Qf2AjLwojIjJCLyojI0JCLiIXZ05WZj91YpB3IwczX0xiRGZkRGZ0Xy9GbvNGL2EzXlpXazxSP9cmYr50MZZGZtJmd4dVYsplMMBjVtJWd0ckW65UbM5WOHJWa5kHT20ESjBjUIF2X0hXZ0xCMx81dvRWYoNHLrdEZwZ1Rh5WNXp1bwNjW1ZUba9VZwlHdssmch1mclRXY39CXldWYtlWPzNXZj9mcw1ycz9WL49zZuBnL5ITOzQjMxUTMxITNwEjMwIzLc52YucWbp5GZzNmLn9Gbi1yZtl2Lc9CX6MHc0RHaiojIsJye.png)
上圖是Grand模型圖,按照順序講解一下模型各個步驟的具體操作:
> S Augmentation:第一步對GraphData進行S次資料增強;
> Random propagation:對每一份資料增強後的資料進行随機的DropNode,這裡仔細看模型圖,DropNode不是将圖中節點直接丢掉,而是對某些節點特征随機進行mask操作,然後再進行Propagation without W,這裡為什麼是without W?就是上面問題2中提到的,在Propagation操作過程中不引入non-linear transformation操作;
> Augmented Features:将S份資料Propagation之後的得到的S份新資料分别進行兩層MLP操作,這裡的MLP操作指的便是Transformation操作。對此有疑問的可參考另一篇詳細介紹了解耦Transformation和Propagation操作對DeepGNN Over-Smoothing問題的影響。
> Consistency Regularized Training:考慮到S份資料分别的預測結果可能有較大偏差,是以引入Consistency Regularized Training來控制S次Inference的結果盡可能相近。
1、Random Propagation
Grand模型對Propagation操作處理方式如下兩個公式所示,其中X ̃是經過DropNode後的節點初始特征,A ̂是經過歸一化後的鄰接矩陣,先進行K次的Propagation操作得到A ̂^0,A ̂^1,…,A ̂^K,然後取平均後和X ̃進行特征彙聚操作。
2、Consistency Regularized Training
Grand模型訓練時Loss除了正常使用的交叉熵損失函數L_sup外,引入S份資料增強的原因,為了增強模型的魯棒性還引入了Consistency Regularization Loss,下面提供了L_sup和L_con 具體計算公式,其中Y_i是真實值,〖Z ̃_i〗^((s))是第s次資料的預測值,Z ̅_i則表示S次預測值得平均值,是以L_sup就是簡單的交叉熵求和,L_con則控制每次預測結果盡可能相近。
四、Code
1、Grand模型實作思路也很簡單,核心代碼如下圖所示,官網提供代碼擷取位址:
https://github.com/THUDM/GRAND
五、Conclusion
1、Grand模型在三份引文資料Cora,Citeseer和Pubmed上都取得了SOTA效果,證明了方案的有效性。
六、往期精彩
【知識圖譜系列】Over-Smoothing 2020綜述
【知識圖譜系列】自适應深度和廣度圖神經網絡模型
【知識圖譜系列】知識圖譜多跳推理之強化學習
【知識圖譜系列】知識圖譜的神經符号邏輯推理
【知識圖譜系列】知識圖譜表示學習綜述 | 近30篇優秀論文串講
【知識圖譜系列】探索DeepGNN中Over-Smoothing問題
【知識圖譜系列】動态時序知識圖譜EvolveGCN
【知識圖譜系列】多關系神經網絡CompGCN
【面經系列】八位碩博大佬的位元組之旅
各大AI研究院共35場NLP算法崗面經奉上
【機器學習系列】機器學習中的兩大學派
幹貨 | Attention注意力機制超全綜述
幹貨 | NLP中的十個預訓練模型
幹貨|一文弄懂機器學習中偏差和方差
FastText原理和文本分類實戰,看這一篇就夠了
Transformer模型細節了解及Tensorflow實作
GPT,GPT2,Bert,Transformer-XL,XLNet論文閱讀速遞
機器學習算法篇:最大似然估計證明最小二乘法合理性
Word2vec, Fasttext, Glove, Elmo, Bert, Flair訓練詞向量教程+資料+源碼
彙報完整版ppt可通過關注公衆号後回複關鍵詞:Grand 來獲得,有用就點個贊呗!