天天看點

論文解讀 | 數十億商品中,長尾和新品怎麼找到新主人?

小叽導讀:在推薦系統的發展曆程中,面臨兩個核心問題:使用者的長尾覆寫度以及新商品的冷啟動,在這兩個次元下的模型擴充能力的瓶頸一直以來對廣大推薦算法工程師都是不小的挑戰。本文基于Graph Embedding的理論知識提出了創新架構,旨在提升商品推薦的多樣性和發現性。

一、背景介紹

淘寶個性化推薦場景所面對的數以十億計的使用者、商品、互動資料和各類屬性構成了一個規模龐大的異構網絡,如果能将網絡中的各類資訊統一模組化在同一個次元空間,用向量的方式進行表達,它的簡潔和靈活性會有巨大的應用空間。據我們所知,業界尚未有對如此大規模複雜網絡進行graph embedding模組化的成熟應用。

在本篇論文中,我們針對推薦場景,基于Graph Embedding的理論知識創新架構:

利用使用者的序列化行為建構graph,結合随機遊走技術對使用者行為進行"虛拟采樣"拟合出多階的潛在興趣資訊;同時利用side information-based模型進行知識泛化學習,提出了Graph Embedding with Side Information(GES)和Enhanced Graph Embedding with Side Information (EGES)兩種向量聚合算法,對上億級别的商品和其side-information進行embedding模組化,并作為一種全新的召回在手淘首圖個性化場景部署應用。

實驗結果顯示,新提出的GES和EGES算法得到顯著效果提升,并解決了使用者覆寫和商品冷啟動問題,提升了商品推薦的多樣性和發現性。

二、Base Graph Embedding算法架構

Graph Embedding在淘寶推薦的核心架構如圖所示:

論文解讀 | 數十億商品中,長尾和新品怎麼找到新主人?

首先是建構網絡,由于商品推薦的整個網絡是大規模的異構網絡,我們利用使用者對商品的行為序列,提出并定義了新的轉移機率連接配接圖,有效克服使用者真實session行為中存在的大量熱點節點問題:以每個節點為中心,利用其擴散子節點的連接配接頻次及行為共現頻次計算轉移機率,建構全網的轉移機率連接配接圖。

其次則根據建構好的有向帶權圖,在此基礎上進行random walk随機遊走,構造出千億級别的多階虛拟樣本,用于後續的深度網絡學習。最後則是對采樣資料進行模型訓練,将離散的網絡節點表示成向量化,最大化節點共現,使用Sampled Softmax來做超大規模分類的分類器,優化的目标是:

論文解讀 | 數十億商品中,長尾和新品怎麼找到新主人?

三、GES 和 EGES 算法

相比于傳統CF算法,上述的推薦Graph Embedding架構能夠捕捉商品的高階相似度,擁有發現能力,但是商品冷啟動問題仍然是一個挑戰,為了解決這一難題,我們在 Graph Embedding 的 Skip-Gram階段融入節點的side-information,提出GES算法,核心是同時學習網絡節點和節點各side-information的隐式表達,将多元隐向量融合在一起作為商品的最終表示。

在 GES 的基礎上,不同商品對不同次元的資訊的貢獻程度是不一樣的,比如 iPad 和 iPhone的相似性來自于他們擁有共同的品牌,兩件秋裝的相似性則源于它們在同一個店鋪銷售。是以進一步提出了 EGES,用權重pooling層來加強向量融合的準确性。GES和 EGES 的融合公式分别為:

論文解讀 | 數十億商品中,長尾和新品怎麼找到新主人?

EGES 的 Embedding 網絡結構如下圖所示:

論文解讀 | 數十億商品中,長尾和新品怎麼找到新主人?

引入side-information後同店、相似店鋪、同品牌、相似品牌等寶貝在排序中更為靠前;同時對于一些沒有出現行為的、新鮮上架的寶貝,根據它的side-information對它進行embedding表達,有效解決了冷啟動問題。

四、實驗結果

為了驗證算法的有效性,我們分别在淘寶内部資料集和 Amazon 開放資料集上進行了實驗,并進一步将算法部署到淘寶首圖個性化線上業務中,均得到顯著的效果提升:

論文解讀 | 數十億商品中,長尾和新品怎麼找到新主人?

下圖直覺的解釋了結果,運動鞋類目下的寶貝embedding向量降維,顔色代表不同子類目,每一個點代表一個商品降維後的坐标,可以看出同一個類目下的寶貝embedding向量聚合在一起。

論文解讀 | 數十億商品中,長尾和新品怎麼找到新主人?

下圖冷啟動商品的召回的示例中,冷啟動商品和所找到的相似商品在side-information次元上的泛化相似度,證明我們提出的EGES算法用泛化學習的方式處理了冷啟動問題。

論文解讀 | 數十億商品中,長尾和新品怎麼找到新主人?

五、系統部署

EGES 算法在17年雙十一前夕部署上線,完整的工程架構如下圖所示:

論文解讀 | 數十億商品中,長尾和新品怎麼找到新主人?

本篇為《Billion-scale Commodity Embedding for E-commerce Recommendation in Alibaba》的論文解讀,該論文收錄于 SIGKDD 2018

原文釋出時間為:2018-08-29

本文作者:緣方

本文來自雲栖社群合作夥伴“

阿裡技術

”,了解相關資訊可以關注“

”。