推荐系统行为序列建模-DIN
-
- 1 特征处理
- 2 Base模型
- 3 DIN
- 4 优化
-
- 4.1 MBA Reg - Mini-batch Aware Regularization
- 4.2 Dice - Data Adaptive Activation Function
- 5 评估指标
《Deep Interest Network for Click-Through Rate Prediction》基于全部用户历史行为建模
1 特征处理
将稀疏特征特征分为四类
对于向量中任意位置 j 为 1,取对应编码矩阵的 j-th向量,multi-hot则取出一个向量集合
2 Base模型
不论什么ad,对于用户所有行为sum pooling得到同样的用户行为向量,因此有限维度的行为表示将限制表达用户离散兴趣的能力,而扩展维度将导致复杂度的增加和过拟合的风险。
3 DIN
对于每个candidate ad 通过activation unit类似于attention机制,获得一个基于用户历史行为的向量表示:
但并未对求出的各历史行为的权重进行归一化,以期反应用户兴趣的强烈程度。
4 优化
4.1 MBA Reg - Mini-batch Aware Regularization
不加正则化很容易过拟合,但由于输入是高维稀疏特征,一般的正则化代价太大。用户数据谷和长尾定律:很多f eature id 仅出现几次,高频只占很小部分,这在训练时增加了很多噪声,加重过拟合。
因此,对于 feature id,基于其出现频率调整其正则化强度:高频正则化强度较小,低频正则化强度较大:
n j n_j nj 即为 feature id 在整个样本中出现的总频数。出发点类似于出现频率高的商品更符合大众兴趣,并非千人千面的推荐。
4.2 Dice - Data Adaptive Activation Function
激活函数 PReLU:
p ( s ) p(s) p(s) 类似 bool 值,指示 s 与 0 的大小。无论何种样本数据分布形式,整流点均为 0。因此,在PReLU的基础上进行数据自适应改进:
1.先对 s 进行均值归一化处理,整流点从 0 变为 E [ s ] E[s] E[s]
2.经过 sigmod 计算,获得0~1间的概率值 p ( s ) p(s) p(s)
均值和方差均为0时,退化为PReLU
5 评估指标
在AUC指标的基础上进行改进:计算单个用户AUC,根据点击次数火展示次数进行加权平均,消除用户偏差对模型的影响。