推薦系統行為序列模組化-DIN
-
- 1 特征處理
- 2 Base模型
- 3 DIN
- 4 優化
-
- 4.1 MBA Reg - Mini-batch Aware Regularization
- 4.2 Dice - Data Adaptive Activation Function
- 5 評估名額
《Deep Interest Network for Click-Through Rate Prediction》基于全部使用者曆史行為模組化
1 特征處理
将稀疏特征特征分為四類
對于向量中任意位置 j 為 1,取對應編碼矩陣的 j-th向量,multi-hot則取出一個向量集合
2 Base模型
不論什麼ad,對于使用者所有行為sum pooling得到同樣的使用者行為向量,是以有限次元的行為表示将限制表達使用者離散興趣的能力,而擴充次元将導緻複雜度的增加和過拟合的風險。
3 DIN
對于每個candidate ad 通過activation unit類似于attention機制,獲得一個基于使用者曆史行為的向量表示:
但并未對求出的各曆史行為的權重進行歸一化,以期反應使用者興趣的強烈程度。
4 優化
4.1 MBA Reg - Mini-batch Aware Regularization
不加正則化很容易過拟合,但由于輸入是高維稀疏特征,一般的正則化代價太大。使用者資料谷和長尾定律:很多f eature id 僅出現幾次,高頻隻占很小部分,這在訓練時增加了很多噪聲,加重過拟合。
是以,對于 feature id,基于其出現頻率調整其正則化強度:高頻正則化強度較小,低頻正則化強度較大:
n j n_j nj 即為 feature id 在整個樣本中出現的總頻數。出發點類似于出現頻率高的商品更符合大衆興趣,并非千人千面的推薦。
4.2 Dice - Data Adaptive Activation Function
激活函數 PReLU:
p ( s ) p(s) p(s) 類似 bool 值,訓示 s 與 0 的大小。無論何種樣本資料分布形式,整流點均為 0。是以,在PReLU的基礎上進行資料自适應改進:
1.先對 s 進行均值歸一化處理,整流點從 0 變為 E [ s ] E[s] E[s]
2.經過 sigmod 計算,獲得0~1間的機率值 p ( s ) p(s) p(s)
均值和方差均為0時,退化為PReLU
5 評估名額
在AUC名額的基礎上進行改進:計算單個使用者AUC,根據點選次數火展示次數進行權重平均,消除使用者偏差對模型的影響。