天天看點

10億節點異構網絡中,GCN 如何應用?1. 引言2. 問題定義3. 模型設計5. 總結和展望

作者 | 趙軍、周洲、管子玉、趙偉、甯偉、仇光、何曉飛

1. 引言

在構圖中使用者和商品的互動行為通常是最直接也是最有效的邊連接配接方式,是一種顯式的使用者偏好刻畫,并取得一定的推薦效果提升,該方案存在的最大問題是顯式互動資料存在較大的資料稀疏性。而在實際場景中是存在大量的異構資訊可以引入提升網絡表征的豐富性,比如使用者的搜尋詞、通路店鋪、偏好品牌、偏好屬性等等,這些特征可以提升更豐富的語義表示和相關性刻畫,intentGC是本文提出的一種基于GCN的統一的網絡嵌入學習架構,融合顯式偏好關系以及豐富的使用者和商品異構關系資訊,提升推薦系統的效果,算法中最為核心的技術是圖卷積,我們在經典圖卷積的基礎之上做了一些創新優化,以更好地解決我們業務中存在的強異構性、大規模性等核心挑戰。

2. 問題定義

10億節點異構網絡中,GCN 如何應用?1. 引言2. 問題定義3. 模型設計5. 總結和展望

3. 模型設計

本文設計的模型融合多種資訊的大規模圖卷積學習算法,采用二部異構圖模組化,loss設計采用triplet目标,可以有效的控制和側重學習使用者的顯示偏好和表達,整個學習過程是一個半監督的模式,有效利用了電商體系内大量的無标注資訊提升學習目标精度。方案核心包括三部分,一是網絡翻譯,對原始網絡進行一次無損翻譯;二是快速卷積網絡,對異構資訊進行高效卷積;三是對偶卷積,基于翻譯的HIN學習使用者和商品表征。

網絡翻譯

網絡引入多種異構節點帶來更豐富資訊同時也帶來了語義不相容的挑戰,區分節點類型計算對具有多種異構節點和邊的大規模網絡來說複雜度和計算量是一個巨大的挑戰,本文借鑒相關研究基于二階相似性将原始的網絡翻譯成使用者-使用者或者商品-商品關系,相似度計算是基于二者相同附加資訊個數,核心思想是如果u1和u2有相同的輔助資訊連接配接的話,u1和u2之間也相關,這樣就可以實作将網絡中異構節點的語義資訊編碼成使用者-使用者關系或者商品-商品關系實作原始網絡資訊翻譯。

快速卷積網絡IntentNet

原始的GCN在大規模的圖中計算時具有巨大的計算複雜度,因為會通過高階傳輸方式進行内容傳播,複雜度是指數級的。本文提出的快速卷積網絡intentNet通過以下兩點優化可以有效的解決這個問題:第一,在卷積算子中,實際上并不是所有神經元都是同等重要的,在激活過程中,實際上隻有最相關的神經元具有最大的效果,是以我們将圖卷積設計為稀疏的網絡激活,也可以看成是信道共享的向量學習,通過向量化的卷積實作鄰居資訊傳播;第二,我們還發現,原始的高指數卷積複雜度主要來源于高階節點,但是這種訓練方式是可以解耦的,可以拆分成graph view和node view兩種訓練子產品。基于這兩點觀察,我們重新設計了圖卷積,通過全連接配接網絡實作特征組合,實驗表明相比GraphSage具有更好的效率和效果。

a) 向量化卷積函數

10億節點異構網絡中,GCN 如何應用?1. 引言2. 問題定義3. 模型設計5. 總結和展望
10億節點異構網絡中,GCN 如何應用?1. 引言2. 問題定義3. 模型設計5. 總結和展望

b) IntentNet

10億節點異構網絡中,GCN 如何應用?1. 引言2. 問題定義3. 模型設計5. 總結和展望

卷積訓練方式設計拆分成graph view和node view兩種訓練子產品,然後通過兩者聯合擷取圖卷積的功能,前者基于上述的向量化卷積函數,多卷積層堆疊能夠有效的學習鄰居節點傳播關系,實作圖卷積的任務,後者接全連接配接層學習不同次元向量空間的特征關系。

對偶卷積

為了user和item的表征和label資訊刻畫精确,不同于傳統GCN,我們設計了對偶性的GCN結構,在同一個架構中具體學習。具體的方案是user進行獨立的卷積,item和負采樣進行共享的卷積,然後在卷積層最後,通過dense網絡将三者投影到同一語義空間,最後,采取triplet loss的方法進行學習,這樣結構的好處是,可以比經典GCN擁有更準确的異構表征能力,同時實踐證明,這樣的方式也可以讓兩個對偶卷積收斂,具有好的半監督效果。

IntentGC算法架構

intentGC算法架構主要包含三部分:1)網絡翻譯;2)訓練;3)推斷。在訓練後我們可以獲得使用者和商品的向量表征,然後通過k-近鄰的思路進行檢索推薦。

10億節點異構網絡中,GCN 如何應用?1. 引言2. 問題定義3. 模型設計5. 總結和展望
  1. 實驗結論

實驗我們主要是驗證IntentGC和現有算法的效果對比,IntentNet在處理十億規模圖學習任務上和GraphSage效率對比,以及驗證增加異構資訊的模型學習能力對比,我們離線基于淘寶和亞馬遜的資料進行評估,分别對比DeepWalk、GraphSage、DSPR、Metapath2vec++、BiNE 等算法,在淘寶和亞馬遜資料集上離線評估結果以及在淘寶環境線上實驗均表明我們算法的有效性。

10億節點異構網絡中,GCN 如何應用?1. 引言2. 問題定義3. 模型設計5. 總結和展望
10億節點異構網絡中,GCN 如何應用?1. 引言2. 問題定義3. 模型設計5. 總結和展望

5. 總結和展望

本文提出一種新的融合多種資訊的大規模圖卷積學習方案,實驗表明利用電商體系内大量的無标注資訊在商品推薦中有重要價值,我們設計的快速圖卷積學習架構能夠支援十億節點規模網絡結構應用。在商品推薦中證明有效性,未來我們希望可以将該架構應用到更多的任務中,另外,考慮到線上實時使用者特征的重要性,後續也可以考慮動态圖卷積模型提升模型對實時特征的學習。

繼續閱讀