天天看點

推薦系統行為序列模組化-DIN

推薦系統行為序列模組化-DIN

    • 1 特征處理
    • 2 Base模型
    • 3 DIN
    • 4 優化
      • 4.1 MBA Reg - Mini-batch Aware Regularization
      • 4.2 Dice - Data Adaptive Activation Function
    • 5 評估名額

《Deep Interest Network for Click-Through Rate Prediction》基于全部使用者曆史行為模組化

1 特征處理

将稀疏特征特征分為四類

推薦系統行為序列模組化-DIN

對于向量中任意位置 j 為 1,取對應編碼矩陣的 j-th向量,multi-hot則取出一個向量集合

2 Base模型

推薦系統行為序列模組化-DIN

不論什麼ad,對于使用者所有行為sum pooling得到同樣的使用者行為向量,是以有限次元的行為表示将限制表達使用者離散興趣的能力,而擴充次元将導緻複雜度的增加和過拟合的風險。

3 DIN

推薦系統行為序列模組化-DIN

對于每個candidate ad 通過activation unit類似于attention機制,獲得一個基于使用者曆史行為的向量表示:

推薦系統行為序列模組化-DIN

但并未對求出的各曆史行為的權重進行歸一化,以期反應使用者興趣的強烈程度。

4 優化

4.1 MBA Reg - Mini-batch Aware Regularization

不加正則化很容易過拟合,但由于輸入是高維稀疏特征,一般的正則化代價太大。使用者資料谷和長尾定律:很多f eature id 僅出現幾次,高頻隻占很小部分,這在訓練時增加了很多噪聲,加重過拟合。

是以,對于 feature id,基于其出現頻率調整其正則化強度:高頻正則化強度較小,低頻正則化強度較大:

推薦系統行為序列模組化-DIN

n j n_j nj​ 即為 feature id 在整個樣本中出現的總頻數。出發點類似于出現頻率高的商品更符合大衆興趣,并非千人千面的推薦。

4.2 Dice - Data Adaptive Activation Function

激活函數 PReLU:

推薦系統行為序列模組化-DIN

p ( s ) p(s) p(s) 類似 bool 值,訓示 s 與 0 的大小。無論何種樣本資料分布形式,整流點均為 0。是以,在PReLU的基礎上進行資料自适應改進:

推薦系統行為序列模組化-DIN

1.先對 s 進行均值歸一化處理,整流點從 0 變為 E [ s ] E[s] E[s]

2.經過 sigmod 計算,獲得0~1間的機率值 p ( s ) p(s) p(s)

均值和方差均為0時,退化為PReLU

5 評估名額

在AUC名額的基礎上進行改進:計算單個使用者AUC,根據點選次數火展示次數進行權重平均,消除使用者偏差對模型的影響。

推薦系統行為序列模組化-DIN

繼續閱讀