推荐系统行为序列建模-DIN

2023-07-21 23:11:37

1 特征处理

将稀疏特征特征分为四类

推荐系统行为序列建模-DIN

对于向量中任意位置 j 为 1，取对应编码矩阵的 j-th向量，multi-hot则取出一个向量集合

2 Base模型

推荐系统行为序列建模-DIN

不论什么ad，对于用户所有行为sum pooling得到同样的用户行为向量，因此有限维度的行为表示将限制表达用户离散兴趣的能力，而扩展维度将导致复杂度的增加和过拟合的风险。

3 DIN

推荐系统行为序列建模-DIN

对于每个candidate ad 通过activation unit类似于attention机制，获得一个基于用户历史行为的向量表示：

推荐系统行为序列建模-DIN

但并未对求出的各历史行为的权重进行归一化，以期反应用户兴趣的强烈程度。

4 优化

4.1 MBA Reg - Mini-batch Aware Regularization

不加正则化很容易过拟合，但由于输入是高维稀疏特征，一般的正则化代价太大。用户数据谷和长尾定律：很多f eature id 仅出现几次，高频只占很小部分，这在训练时增加了很多噪声，加重过拟合。

因此，对于 feature id，基于其出现频率调整其正则化强度：高频正则化强度较小，低频正则化强度较大：

推荐系统行为序列建模-DIN

n j n_j nj 即为 feature id 在整个样本中出现的总频数。出发点类似于出现频率高的商品更符合大众兴趣，并非千人千面的推荐。

4.2 Dice - Data Adaptive Activation Function

激活函数 PReLU：

推荐系统行为序列建模-DIN

p ( s ) p(s) p(s) 类似 bool 值，指示 s 与 0 的大小。无论何种样本数据分布形式，整流点均为 0。因此，在PReLU的基础上进行数据自适应改进：

推荐系统行为序列建模-DIN

1.先对 s 进行均值归一化处理，整流点从 0 变为 E [ s ] E[s] E[s]

2.经过 sigmod 计算,获得0～1间的概率值 p ( s ) p(s) p(s)

均值和方差均为0时，退化为PReLU

5 评估指标

在AUC指标的基础上进行改进：计算单个用户AUC，根据点击次数火展示次数进行加权平均，消除用户偏差对模型的影响。

推荐系统行为序列建模-DIN

推荐系统行为序列建模-DIN