推薦系統行為序列模組化-DIN

2023-07-21 23:11:37

1 特征處理

将稀疏特征特征分為四類

推薦系統行為序列模組化-DIN

對于向量中任意位置 j 為 1，取對應編碼矩陣的 j-th向量，multi-hot則取出一個向量集合

2 Base模型

推薦系統行為序列模組化-DIN

不論什麼ad，對于使用者所有行為sum pooling得到同樣的使用者行為向量，是以有限次元的行為表示将限制表達使用者離散興趣的能力，而擴充次元将導緻複雜度的增加和過拟合的風險。

3 DIN

推薦系統行為序列模組化-DIN

對于每個candidate ad 通過activation unit類似于attention機制，獲得一個基于使用者曆史行為的向量表示：

推薦系統行為序列模組化-DIN

但并未對求出的各曆史行為的權重進行歸一化，以期反應使用者興趣的強烈程度。

4 優化

4.1 MBA Reg - Mini-batch Aware Regularization

不加正則化很容易過拟合，但由于輸入是高維稀疏特征，一般的正則化代價太大。使用者資料谷和長尾定律：很多f eature id 僅出現幾次，高頻隻占很小部分，這在訓練時增加了很多噪聲，加重過拟合。

是以，對于 feature id，基于其出現頻率調整其正則化強度：高頻正則化強度較小，低頻正則化強度較大：

推薦系統行為序列模組化-DIN

n j n_j nj 即為 feature id 在整個樣本中出現的總頻數。出發點類似于出現頻率高的商品更符合大衆興趣，并非千人千面的推薦。

4.2 Dice - Data Adaptive Activation Function

激活函數 PReLU：

推薦系統行為序列模組化-DIN

p ( s ) p(s) p(s) 類似 bool 值，訓示 s 與 0 的大小。無論何種樣本資料分布形式，整流點均為 0。是以，在PReLU的基礎上進行資料自适應改進：

推薦系統行為序列模組化-DIN

1.先對 s 進行均值歸一化處理，整流點從 0 變為 E [ s ] E[s] E[s]

2.經過 sigmod 計算,獲得0～1間的機率值 p ( s ) p(s) p(s)

均值和方差均為0時，退化為PReLU

5 評估名額

在AUC名額的基礎上進行改進：計算單個使用者AUC，根據點選次數火展示次數進行權重平均，消除使用者偏差對模型的影響。

推薦系統行為序列模組化-DIN

推薦系統行為序列模組化-DIN