天天看点

推荐系统行为序列建模-DIN

推荐系统行为序列建模-DIN

    • 1 特征处理
    • 2 Base模型
    • 3 DIN
    • 4 优化
      • 4.1 MBA Reg - Mini-batch Aware Regularization
      • 4.2 Dice - Data Adaptive Activation Function
    • 5 评估指标

《Deep Interest Network for Click-Through Rate Prediction》基于全部用户历史行为建模

1 特征处理

将稀疏特征特征分为四类

推荐系统行为序列建模-DIN

对于向量中任意位置 j 为 1,取对应编码矩阵的 j-th向量,multi-hot则取出一个向量集合

2 Base模型

推荐系统行为序列建模-DIN

不论什么ad,对于用户所有行为sum pooling得到同样的用户行为向量,因此有限维度的行为表示将限制表达用户离散兴趣的能力,而扩展维度将导致复杂度的增加和过拟合的风险。

3 DIN

推荐系统行为序列建模-DIN

对于每个candidate ad 通过activation unit类似于attention机制,获得一个基于用户历史行为的向量表示:

推荐系统行为序列建模-DIN

但并未对求出的各历史行为的权重进行归一化,以期反应用户兴趣的强烈程度。

4 优化

4.1 MBA Reg - Mini-batch Aware Regularization

不加正则化很容易过拟合,但由于输入是高维稀疏特征,一般的正则化代价太大。用户数据谷和长尾定律:很多f eature id 仅出现几次,高频只占很小部分,这在训练时增加了很多噪声,加重过拟合。

因此,对于 feature id,基于其出现频率调整其正则化强度:高频正则化强度较小,低频正则化强度较大:

推荐系统行为序列建模-DIN

n j n_j nj​ 即为 feature id 在整个样本中出现的总频数。出发点类似于出现频率高的商品更符合大众兴趣,并非千人千面的推荐。

4.2 Dice - Data Adaptive Activation Function

激活函数 PReLU:

推荐系统行为序列建模-DIN

p ( s ) p(s) p(s) 类似 bool 值,指示 s 与 0 的大小。无论何种样本数据分布形式,整流点均为 0。因此,在PReLU的基础上进行数据自适应改进:

推荐系统行为序列建模-DIN

1.先对 s 进行均值归一化处理,整流点从 0 变为 E [ s ] E[s] E[s]

2.经过 sigmod 计算,获得0~1间的概率值 p ( s ) p(s) p(s)

均值和方差均为0时,退化为PReLU

5 评估指标

在AUC指标的基础上进行改进:计算单个用户AUC,根据点击次数火展示次数进行加权平均,消除用户偏差对模型的影响。

推荐系统行为序列建模-DIN

继续阅读