天天看點

推薦政策産品經理必知必會②:三大常見的召回政策

作者:人人都是産品經理
資料是一切的開始,而召回決定整個推薦系統的上限,如果一開始就召回錯了的話,整個系統的推薦效果将會很差。
推薦政策産品經理必知必會②:三大常見的召回政策

常見的召回政策有以下三種:

推薦政策産品經理必知必會②:三大常見的召回政策

一、規則召回

最常用的召回政策,解釋性最強。

優點:政策邏輯清晰明了,業務意義明确,可解釋性極強

缺點:個性化弱,千人一面,易引起馬太效應,頭部曝光越來越多。

适用場景:最開始搭建推薦系統時

标簽召回

使用方式:最早應用于音樂與電影網站,同時對内容和使用者打标,計算兩者的标簽重合度。

核心問題:如何建構科學全面的标簽體系、如何為使用者和内容打标,主流打标方式仍為人工打标。

高品質分召回&類目召回

使用方式:電商推薦和内容推薦場景,适合用于新人冷啟動。

舉例:電商領域通過曆史銷量、好評率、收藏數等綜合評估物料的品質分;内容通過浏覽量、互動數來綜合評估。

注:為品質因子配備超參數,超參數決定該部分在整個公式的重要度,為人工設定,參數為模型訓練得到。

品質因子歸一化:Min-Max歸一化公式進行,對于電商不同類目需要分類目進行歸一化,防止極大差異影響。

熱銷召回

使用方式:召回近期熱門的物料,适合用于新使用者召回政策,“熱門”由業務進行自行定義,需要設計統計周期(長、中、短)為x、y、z。

高點選率召回

使用方式:召回“CTR預估模型”這一核心名額

複購召回

使用方式:生鮮電商領域經常使用

實作方式:基于使用者次元統一其購買的商品,使用Min-Max歸一化方式,在綜合電商領域一般,大宗商品會讓使用者印象差

二、協同過濾

推薦系統最經典的算法,包括基于物料(Item-CF,1998)的算法和基于使用者(User-CF,1992)的算法,即“協同+過濾”,利用群體資料去尋找規律,測定物料間、使用者間的相似性,排除相似度低的物料與使用者,後再進行排序。

核心問題:如何計算物料與物料之間、使用者與使用者之間的相似度

優點:算法邏輯較簡單,容易實作,同時又有不錯的效果,具備一定的個性化

缺點:與規則召回缺點方向一緻,冷啟動問題明顯,存在一定的馬太效應,頭部熱門問題容易與其他商品産生關聯

推薦政策産品經理必知必會②:三大常見的召回政策
推薦政策産品經理必知必會②:三大常見的召回政策

1.挖掘與目标使用者相似的使用者集合,取相似度排在前幾位的使用者作為候選集。

Jaccard系數:Wab = 0.4; Wac = 0.25; Wad = 0.2; Wae = 0.75,B、E最高

2.挖掘該集合中受歡迎的物料,從中為目标使用者推薦他沒有接觸過的物料。

B、E浏覽的商品中,A為浏覽過d、e,估算其興趣度

推薦政策産品經理必知必會②:三大常見的召回政策

P(A,d) = 0.4*1+0.75*0 = 0.4;P(A,e) = 0.4*1+0.75*1=1.15,故而A對e商品的興趣度高選擇e商品為使用者推薦

基于物料的協同過濾(Item算法):目前在各大網際網路公司應用十分廣泛,用餘弦相似度計算。

舉例如下,6個使用者和5個商品。

推薦政策産品經理必知必會②:三大常見的召回政策

計算商品間的相似度:餘弦定理計算商品間的相似度

推薦政策産品經理必知必會②:三大常見的召回政策

基于目标使用者曆史浏覽行為和商品間的相似度,為其推薦感興趣且未浏覽過的商品

本文隻有5個商品,目标A浏覽過a、b、c。沒有浏覽過d、e,是以預估P(A,d)、P(A,e)。

P(A,d) = 0.5*1+0*1+0.67*1=1.17

P(A,e) = 0.5*1+0.35*1+0.89*1=1.74

是以優先為使用者A推薦商品e。

UserCF算法與ItemCF算法的異同點 總結

推薦政策産品經理必知必會②:三大常見的召回政策

基于圖模型的方法(graph-based model)

主要分為兩大步:

1)将資料表格轉化為二分圖

2)基于兩個頂點的路徑數、路徑長度及經過的節點出度判斷相關性。

例:“A——a——B——c”,路徑長度為3,A到c隻有一條路徑,而A到e有兩條,A與e關聯性強于A與c。

A到e的兩條路徑哪個相關性更強,比較出度(該頂點對外連接配接了幾個其他的頂點),出度越大,相關性越弱。

推薦政策産品經理必知必會②:三大常見的召回政策

三、基于向量的召回

1. 隐語義模型

最經典的應用就是隐語義模型,或者稱為隐向量模型。

在現實中,使用者與物料間的矩陣是非常稀疏的,很難進行預估,而隐語義模型的思想是挖掘使用者和物料間的特征屬性,将使用者和物料歸到相同的特征次元,一般為四象限次元,然後再進行比較。

核心:将一個共現矩陣(使用者和物料的互動矩陣)分解成兩個小矩陣(使用者矩陣和物料矩陣),兩個矩陣在相同的向量次元上。

矩陣的常見分解方法有三種:

方法一:特征值分解

隻能作用于NxN矩陣,大多數使用者x物料矩陣并非方矩陣,不具有适用性。

方法二:奇異值分解

适用于所有MxN矩陣,但是對于矩陣的稠密度要求高,應用時必須把缺失值用近似值、平均值補全,計算複雜、資源要求高。

方法三:梯度下降法

Funk SVD,又稱LFM,将預測值與實際評分值比較,損失函數為均方差,利用梯度下降進行疊代,直到模型收斂。

隐語義模型優缺點:

1)泛化能力強。一定程度上緩解矩陣稀疏問題

2)計算複雜度低。計算複雜度為(m+n)*k,而協同矩陣為m*m或者n*n

3)更好的靈活性和擴充性。可以與其他特征組合或拼接,也可以和深度學習神經網路哦結合

僅考慮使用者和物料各自的特征,不友善加入使用者、物料、上下文特征以及其他一些互動特征,模型本身具有一定局限性。

2. 雙塔模型

優點:

繼續閱讀