天天看點

深度興趣網絡模型探索——DIN+DIEN+DSINDINDIEN DSIN

目錄

DIN

背景

din模型結構提出

自适應正則提出

相關延伸

系統概述

推薦流程介紹

特征工程

基本模型結構

DIN模型

自适應正則

DIEN

背景

DIEN模型提出

DIEN關鍵點

DIEN模型

興趣提取層

興趣演化層

DIEN模型結構

 DSIN

背景

DSIN模型提出

DSIN改進點

DSIN模型

會話劃分層

會話興趣提取層

會話興趣互動層

會話興趣激活層

DSIN模型結構

近兩年來,阿裡在電商推薦和廣告ctr預估領域研究很多深度學習模型,如深度興趣模型系列(Deep Interest Network、Deep Interest Evolution Network和Deep Session Interest Network)。本文重點解讀下以上研究成果,探索深度興趣網絡模型系列。

DIN

研究發現在使用者曆史行為中有兩個現象:

  • 多樣性(diversity):使用者在浏覽淘寶時會對不同類型的商品感興趣;
  • 局部激活(local activation):使用者是否點選商品隻依賴部分使用者曆史行為。而絕大部分ctr預估模型沒有能力捕獲這一特性;

這篇paper主要工作有:

  • din引入興趣分布描述使用者多樣性興趣,并設計類似注意力(attention)模型結構來激活使用者局部興趣;
  • 自适應正則解決過拟合問題;

背景

din模型結構提出

在cpc廣告中,廣告排序基于eCPM(ctr*fee)。準确ctr預估對提高廣告收入有重要作用。

随着深度學習在圖像識别和自然語言處理領域的成功應用,ctr預估也開始引入深度學習模型。

深度學習通常引入embedding将原始高維、大規模稀疏id特征映射低維、分布式特征,然後通過全連接配接層(多層感覺器,MLPs)拟合特征與輸出非線性函數。

但傳統MLPs在豐富網際網路規模使用者行為資料無法深入挖掘和探索。

在展示廣告有兩個重要資料現象:

  • 多樣性(diversity):使用者在浏覽淘寶時會對不同類型的商品感興趣;如一位年輕媽媽可能同時對T恤、手提包、鞋子和童裝感興趣;
  • 局部激活(local activation):使用者是否點選商品隻依賴部分使用者曆史行為;如二哈迷會點選推薦的狗糧,主要是因為買了狗鍊,而不是他上周購物清單上的書;

這篇paper提出din, 引入興趣分布描述使用者多樣性興趣,并設計類似注意力(attention)機制來激活使用者局部興趣。

自适應正則提出

另外,在大規模稀疏資料訓練工業深度模型中,過拟合問題非常容易遇到。paper也提出自适應正則技術來解決。

相關延伸

ctr預估之前一些工作進展:

  • embedding最初應用單詞分布式表示,避免自然語言模組化中維數災難;
  • FM擷取特征間組合關系;
  • Deep Cross, Deep & Wide使用MLPs,在很大程度上替代人工合成特征組合,大幅增強模型性能;
  • 另外在搜尋框和youtube視訊推薦中,特征通常是一些多元稀疏id,會在Deep & Wide ctr預估模型的embedding層後加入池化層(pooling,如sum/avg)來擷取混合的embedding向量,這會引起資訊損失、不能充分利用使用者豐富行為資料内部結構;
  • 注意力機制(attention mechanism)起源于神經機器翻譯領域,對所有注釋進行權重求和,得到預期的注釋,并隻關注與雙向RNN中生成下一個目标單詞相關的資訊;
  • DeepFM學習二階交叉特征和高階特征,AFM認為并不是所有的特征互動都具有相同的預測性,并使用注意力機制自動學習交叉特征的權重;

系統概述

推薦流程介紹

使用者通路淘寶,推薦引擎為使用者推薦商品清單,生成整個閉環消費鍊路,并記錄使用者回報行為資料,整個流程可以描述如下:

深度興趣網絡模型探索——DIN+DIEN+DSINDINDIEN DSIN

其中,推薦一般由候選集生成(match)和候選集排序(rank)兩部分組成。候選集生成采用了一些簡單但時間有效的推薦算法,從龐大物品集提供相對較小的候選集用于排序;在候選集排序階段,采用複雜但功能強大的模型對候選集進行排序,并最終生成top K推薦清單。

特征工程

特征主要有使用者畫像(user profile)、使用者行為(user behavior)、廣告(ad)和上下文(context)四部分組成,如下所示:

深度興趣網絡模型探索——DIN+DIEN+DSINDINDIEN DSIN

基本模型結構

大多數深度ctr模型都是基于嵌入式向量編碼(embedding)和多層感覺器(MLPs)建構的。模型分為兩部分:

  • 将每個稀疏id特征轉移到一個嵌入的向量空間中;
  • 應用MLPs拟合輸出;

其基本結構如下所示:

深度興趣網絡模型探索——DIN+DIEN+DSINDINDIEN DSIN

embedding

embedding是将大規模稀疏特征轉化為低維稠密沒特征常用操作,在embedding中每個特征字段對應一個嵌入矩陣,嵌入矩陣通路商品可以表示為:

深度興趣網絡模型探索——DIN+DIEN+DSINDINDIEN DSIN

其中,

深度興趣網絡模型探索——DIN+DIEN+DSINDINDIEN DSIN

表示嵌入向量次元。

MLPs

多層感覺器(Multilayer Perceptron,MLP)将一個類别的embedding向量輸入池化操作,然後将來自不同類别的所有池向量連接配接起來。最後,将連接配接後的向量輸入MLP進行最終預測。

Loss Function

深度ctr模型廣泛應用的損失函數是負對數似然函數,如下:

深度興趣網絡模型探索——DIN+DIEN+DSINDINDIEN DSIN

評估名額

AUC/GAUC

GAUC是每個使用者在樣本組子集中計算AUC的權重平均值,其中權值可以是曝光也可以是點選。公式如下所示:

深度興趣網絡模型探索——DIN+DIEN+DSINDINDIEN DSIN

GAUC消除使用者偏見的影響,更準确地度量模型對所有使用者的性能。

激活函數

Relu

深度興趣網絡模型探索——DIN+DIEN+DSINDINDIEN DSIN

PRelu

深度興趣網絡模型探索——DIN+DIEN+DSINDINDIEN DSIN

即使值小于0,網絡的參數也得以更新,加快了收斂速度。

Dice

深度興趣網絡模型探索——DIN+DIEN+DSINDINDIEN DSIN
深度興趣網絡模型探索——DIN+DIEN+DSINDINDIEN DSIN

PRelu在分割點都是0,文中提出了Dice激活函數此問題。

DIN模型

attention機制了解

需要注意:輸入包含使用者行為序列id,其長度是不同的。需要增加一個pooling層來概括序列得到混合向量。但pooling層對使用者的曆史行為是同等對待的,沒有做任何處理,這顯然是不合理的。

注意力網絡(attention network),可以看作是一個專門設計的pooling層)學習給句子中的每個單詞配置設定注意分數,即遵循資料的多樣性結構。

attention機制可以了解為:

針對不同的廣告,使用者曆史行為與該廣告的權重是不同的。假設使用者有ABC三個曆史行為,對于廣告D,那麼ABC的權重可能是0.8、0.1、0.1;對于廣告E,那麼ABC的權重可能是0.3、0.6、0.1。使用者興趣表達式如下:

深度興趣網絡模型探索——DIN+DIEN+DSINDINDIEN DSIN

其中,假設使用者的興趣的Embedding是

深度興趣網絡模型探索——DIN+DIEN+DSINDINDIEN DSIN

,候選廣告的Embedding是

深度興趣網絡模型探索——DIN+DIEN+DSINDINDIEN DSIN

,使用者興趣和候選的廣告的相關性可以寫作

深度興趣網絡模型探索——DIN+DIEN+DSINDINDIEN DSIN

。如果沒有Local activation機制的話,那麼同一個使用者對于不同的廣告,

深度興趣網絡模型探索——DIN+DIEN+DSINDINDIEN DSIN

都是相同的。

din模型結構

din模型結構可以有base model改進過來如下:

深度興趣網絡模型探索——DIN+DIEN+DSINDINDIEN DSIN

自适應正則

 CTR中輸入稀疏而且次元高,通常的做法是加入L1、L2、Dropout等防止過拟合。但是論文中嘗試後效果都不是很好。使用者資料符合長尾定律(long-tail law),也就是說很多的feature id隻出現了幾次,而一小部分feature id出現很多次。這在訓練過程中增加了很多噪聲,并且加重了過拟合。對于這個問題一個簡單的處理辦法就是:直接去掉出現次數比較少的feature id。但是這樣就人為的丢掉了一些資訊,導緻模型更加容易過拟合,同時門檻值的設定作為一個新的超參數,也是需要大量的實驗來選擇的。是以,阿裡提出了自适應正則的做法,即:

1.針對feature id出現的頻率,來自适應的調整他們正則化的強度;

2.對于出現頻率高的,給與較小的正則化強度;

3.對于出現頻率低的,給予較大的正則化強度。

定義:

深度興趣網絡模型探索——DIN+DIEN+DSINDINDIEN DSIN

B表示大小為b的小批量樣本,

深度興趣網絡模型探索——DIN+DIEN+DSINDINDIEN DSIN

是特征

深度興趣網絡模型探索——DIN+DIEN+DSINDINDIEN DSIN

頻次,

深度興趣網絡模型探索——DIN+DIEN+DSINDINDIEN DSIN

是正則參數。則權重更新如下:

深度興趣網絡模型探索——DIN+DIEN+DSINDINDIEN DSIN

DIEN

dien主要在din基礎上優化興趣演化層,在注意力機制新穎嵌入序列機制中,相對興趣作用得到強化。

背景

DIEN模型提出

大部分深度ctr模型包(括DIN)都将行為直接視為興趣,而隐性興趣很難通過顯性行為得到充分展現。DIN在捕獲順序行為之間的依賴關系方面很弱,以前的方法不能挖掘行為背後真正的使用者興趣。

此外,使用者的興趣是不斷發展的,捕捉興趣之間的動态關系對于興趣的表達是非常重要的。

DIEN關鍵點

dien兩個關鍵點在于:

  • 從顯式使用者行為中提取潛在的興趣;
  • 對興趣演化過程模組化;

dien主要改進:

  • 設計了興趣抽取層,并通過計算一個輔助loss,來提升興趣表達的準确性;
  • 設計了興趣進化層,來更加準确的表達使用者興趣的動态變化性;

合适的興趣表示是DIEN基石。在興趣提取層,DIEN選擇GRU建立行為依賴模型。

依照興趣直接導緻連續行為原則,提出了一種利用下一行為監督目前隐狀态學習的輔助損失方法。

使用者興趣多樣性,導緻興趣漂移(interest drifting phenomenon):在相鄰的通路中,使用者的意圖可能非常不同,使用者目前行為可以依賴很久之前的使用者行為。

同時,一個使用者對不同目标項的點選行為受不同興趣部分的影響。

是以,DIEN基于興趣提取層擷取的興趣序列,設計了帶注意力更新的GRU(AUGRU)。

使用興趣狀态和目标項計算相關性,AUGRU強化了相對興趣對興趣演化的影響,弱化了興趣漂移導緻的非相對興趣效應。

DIEN模型

dien首先通過embedding層對所有類别的特征進行轉換。其次,DIEN通過兩個步驟來捕捉興趣進化:興趣提取層根據行為序列提取興趣序列;興趣進化層對與目标項目相關的興趣進化過程進行模組化。

然後将最終興趣的表示和embedding向量ad、使用者畫像、上下文連接配接起來。将該向量輸入MLP進行最終預測。

興趣提取層

興趣提取層使用GRU刻畫行為序列依賴關系,并用輔助損失函數精确刻畫使用者興趣。

GRU

深度興趣網絡模型探索——DIN+DIEN+DSINDINDIEN DSIN
深度興趣網絡模型探索——DIN+DIEN+DSINDINDIEN DSIN
深度興趣網絡模型探索——DIN+DIEN+DSINDINDIEN DSIN
深度興趣網絡模型探索——DIN+DIEN+DSINDINDIEN DSIN

其中,

深度興趣網絡模型探索——DIN+DIEN+DSINDINDIEN DSIN

是sigmod激活函數,

深度興趣網絡模型探索——DIN+DIEN+DSINDINDIEN DSIN

深度興趣網絡模型探索——DIN+DIEN+DSINDINDIEN DSIN

深度興趣網絡模型探索——DIN+DIEN+DSINDINDIEN DSIN

深度興趣網絡模型探索——DIN+DIEN+DSINDINDIEN DSIN

深度興趣網絡模型探索——DIN+DIEN+DSINDINDIEN DSIN

深度興趣網絡模型探索——DIN+DIEN+DSINDINDIEN DSIN

是隐含層,

深度興趣網絡模型探索——DIN+DIEN+DSINDINDIEN DSIN

是輸入層大小。

輔助loss

然而,隻捕捉行為間依賴的隐藏狀态

深度興趣網絡模型探索——DIN+DIEN+DSINDINDIEN DSIN

不能有效地代表收益。由于目标項的點選行為是由最終收益觸發的,Loss函數中使用的标簽隻包含最終時刻興趣預測,而曆史狀态

深度興趣網絡模型探索——DIN+DIEN+DSINDINDIEN DSIN

(t < T)無法獲得适當的監督。

我們都知道,每一步的興趣狀态都會直接導緻行為的一緻性。是以,我們提出了利用下一時刻行為監督學習興趣狀态

深度興趣網絡模型探索——DIN+DIEN+DSINDINDIEN DSIN

的輔助損失。輔助損失函數公式如下:

深度興趣網絡模型探索——DIN+DIEN+DSINDINDIEN DSIN

全局損失函數公式如下:

深度興趣網絡模型探索——DIN+DIEN+DSINDINDIEN DSIN

興趣演化層

由于外部環境和内部認知的共同影響,不同類型的使用者興趣會随着時間的推移而發生變化。

以對衣服的興趣為例,随着人口趨勢和使用者品味的變化,使用者對衣服的偏好也在不斷演變。使用者對衣服興趣的演變過程将直接決定候選衣服的CTR預測。

演化過程模組化優點如下:

  • 興趣演化子產品可以為最終興趣的表示提供更多相關的曆史資訊;
  • 根據興趣演化趨勢預測目标項目的CTR更好;

值得注意的是,興趣在進化過程中表現出兩個特征:

  • 由于興趣的多樣性,興趣可以漂移。興趣漂移對行為的影響是使用者可能在一段時間内對各種書籍感興趣,而在另一段時間内需要衣服;
  • 盡管興趣可能互相影響,但每個興趣都有自己的發展過程,例如書籍和衣服的發展過程幾乎是獨立的。我們隻關注與目标項目相關的演化過程;

通過對興趣演化特征的分析,将注意力機制的局部激活能力與GRU的本質學習能力相結合,建立了興趣演化模型。GRU每一步的局部激活可以增強相對利益效應,減弱利益漂移的幹擾,有利于對相對于目标項目的利益演化過程進行模組化。

在興趣演化模型,注意力函數如下:

深度興趣網絡模型探索——DIN+DIEN+DSINDINDIEN DSIN

如何将注意力機制和GRU結合起來刻畫興趣演化?有以下幾種方法:

AIGRU

深度興趣網絡模型探索——DIN+DIEN+DSINDINDIEN DSIN

AIGRU的效果不是很好;因為即使是零輸入也會改變GRU的隐藏狀态,是以相對較少的互動也會影響興趣進化的學習。

AGRU

深度興趣網絡模型探索——DIN+DIEN+DSINDINDIEN DSIN

在興趣發展的場景中,AGRU利用注意力得分直接控制隐藏狀态的更新。 AGRU在興趣變化期間削弱了相關興趣減少的影響。 将注意力嵌入GRU可以改善注意力機制的影響,并有助于AGRU克服AIGRU的缺陷。

AUGRU

AGRU忽視不同次元重要性,AUGRU改進:

深度興趣網絡模型探索——DIN+DIEN+DSINDINDIEN DSIN
深度興趣網絡模型探索——DIN+DIEN+DSINDINDIEN DSIN

在AUGRU中,保留了更新門的原始尺寸資訊,這決定了每個次元的重要性。在區分資訊的基礎上,我們利用注意力得分t對更新門的各個次元進行了縮放,結果表明,相關興趣越少,對隐藏狀态的影響越小。AUGRU更有效地避免了利益漂移的幹擾,推動了相對利益的平穩演化。

DIEN模型結構

在行為層,行為是按時間排序的。embedding層是将one-hot表示

深度興趣網絡模型探索——DIN+DIEN+DSINDINDIEN DSIN

 轉換為embedding向量

深度興趣網絡模型探索——DIN+DIEN+DSINDINDIEN DSIN

。興趣提取層利用輔助損失提取每個興趣狀态

深度興趣網絡模型探索——DIN+DIEN+DSINDINDIEN DSIN

。在興趣演化層,AUGRU對與目标項目相關的興趣演化過程進行模組化。最終興趣狀态

深度興趣網絡模型探索——DIN+DIEN+DSINDINDIEN DSIN

與剩餘特征的嵌入向量串聯起來,輸入MLR進行最終的CTR預測。其結構模型如下:

深度興趣網絡模型探索——DIN+DIEN+DSINDINDIEN DSIN

 DSIN

dsin指出使用者同一session下浏覽商品的相似性和不同session浏覽商品差異性,在self-attention做local activation又加入BI-LSTM做改進。

背景

DSIN模型提出

din和dien利用使用者行為序列,挖掘使用者動态演化興趣。但忽視使用者行為序列是會話,一個session是在給定的時間範圍内發生的互動(使用者行為)的清單。paper指出使用者行為在每個會話中都是高度同構的,但跨會話是異構的。

如何了解呢?以某使用者行為序列為例,如下圖所示。使用者通常在一個會話中有一個明确的獨特意圖,而她的興趣可以急劇變化當她開始一個新的會話時。不同session存在30分鐘以上的時間差。這張現象是普遍存在的。基于以上觀察,paper提出了深度會話網絡模型(DSIN),利用使用者的多個曆史會話,對CTR預測任務中的使用者順序行為進行模組化。

深度興趣網絡模型探索——DIN+DIEN+DSINDINDIEN DSIN

DSIN改進點

dsin主要改進點如下:

  • 将使用者的連續行為自然地劃分為會話,然後利用帶有偏置編碼的self attention網絡對每個會話進行模組化;
  • 應用BI-LSTM捕捉使用者不同曆史會話興趣的互動和演變;
  • 設計了一個局部的活動單元,将它們與目标項聚合起來,形成行為序列的最終表示形式;

DSIN模型

DSIN在資料喂入MLPs之前,有兩部工作要做:

  • 使用者畫像和物品集合轉換為embedding向量;
  • 使用者行為四層處理,如下圖所示;
深度興趣網絡模型探索——DIN+DIEN+DSINDINDIEN DSIN

會話劃分層

為了提取更精确的使用者會話興趣,我們将使用者的行為序列

深度興趣網絡模型探索——DIN+DIEN+DSINDINDIEN DSIN

劃分為會話

深度興趣網絡模型探索——DIN+DIEN+DSINDINDIEN DSIN

,其中第

深度興趣網絡模型探索——DIN+DIEN+DSINDINDIEN DSIN

個會話

深度興趣網絡模型探索——DIN+DIEN+DSINDINDIEN DSIN

深度興趣網絡模型探索——DIN+DIEN+DSINDINDIEN DSIN

是在會話中保持的行為數量,

深度興趣網絡模型探索——DIN+DIEN+DSINDINDIEN DSIN

是使用者在會話中的第

深度興趣網絡模型探索——DIN+DIEN+DSINDINDIEN DSIN

個行為。使用者情景的分割存在于時間間隔大于30分鐘的相鄰行為之間。

會話興趣提取層

同一會話中的使用者行為密切相關。此外,使用者在會話中的随意行為也使得原有會話展示發生偏差。捕捉同一會話中行為之間的内在關系并減少這些不相關行為的影響,paper在每個會話中都采用了多頭注意機制并對自我注意機制做了一些改進。

Bias Encoding

為了利用序列的順序關系,自注意機制對輸入嵌入應用位置編碼。此外,還需要捕獲會話的順序關系和存在于不同表示子空間中的偏差。paper在位置編碼的基礎上,提出偏差編碼

深度興趣網絡模型探索——DIN+DIEN+DSINDINDIEN DSIN

模型,其中BE中的每個元素定義如下:

深度興趣網絡模型探索——DIN+DIEN+DSINDINDIEN DSIN

其中

深度興趣網絡模型探索——DIN+DIEN+DSINDINDIEN DSIN

為會話的偏置向量,

深度興趣網絡模型探索——DIN+DIEN+DSINDINDIEN DSIN

為會話中位置的偏置向量,

深度興趣網絡模型探索——DIN+DIEN+DSINDINDIEN DSIN

是行為嵌入中單元位置的偏置向量。添加偏見編碼後,使用者的行為會話

深度興趣網絡模型探索——DIN+DIEN+DSINDINDIEN DSIN

更新如下:

深度興趣網絡模型探索——DIN+DIEN+DSINDINDIEN DSIN

Multi-head Self-attention

在推薦系統中,使用者的點選行為受多種因素的影響,多注意力機制可以在不同的表示子空間中捕獲關系。公式如下:

深度興趣網絡模型探索——DIN+DIEN+DSINDINDIEN DSIN
深度興趣網絡模型探索——DIN+DIEN+DSINDINDIEN DSIN
深度興趣網絡模型探索——DIN+DIEN+DSINDINDIEN DSIN

是線性矩陣。不同head向量串聯起來,喂入前向傳播網絡。如下:

深度興趣網絡模型探索——DIN+DIEN+DSINDINDIEN DSIN

其中

深度興趣網絡模型探索——DIN+DIEN+DSINDINDIEN DSIN

是前向傳播網絡,

深度興趣網絡模型探索——DIN+DIEN+DSINDINDIEN DSIN

是線性矩陣。還先後進行了剩餘連接配接和層歸一化。使用者的第

深度興趣網絡模型探索——DIN+DIEN+DSINDINDIEN DSIN

個會話興趣

深度興趣網絡模型探索——DIN+DIEN+DSINDINDIEN DSIN

計算如下:

深度興趣網絡模型探索——DIN+DIEN+DSINDINDIEN DSIN
深度興趣網絡模型探索——DIN+DIEN+DSINDINDIEN DSIN

是平均池。注意,在不同會話的self-attention機制中,權重是共享的。

會話興趣互動層

使用者會話興趣與上下文興趣具有順序關系,對動态演變進行模組化可以豐富會話興趣的表示。BI-LSTM擅長捕捉順序重定向,并自然地應用于DSIN中會話興趣的互動模組化。LSTM的存儲單元實作如下:

深度興趣網絡模型探索——DIN+DIEN+DSINDINDIEN DSIN
深度興趣網絡模型探索——DIN+DIEN+DSINDINDIEN DSIN
深度興趣網絡模型探索——DIN+DIEN+DSINDINDIEN DSIN
深度興趣網絡模型探索——DIN+DIEN+DSINDINDIEN DSIN
深度興趣網絡模型探索——DIN+DIEN+DSINDINDIEN DSIN

其中,

深度興趣網絡模型探索——DIN+DIEN+DSINDINDIEN DSIN

是邏輯回歸函數,

深度興趣網絡模型探索——DIN+DIEN+DSINDINDIEN DSIN

分别是輸入門,遺忘門,輸出門和機關向量。雙向表示存在正向和反向RNNs,隐藏狀态H計算如下:

深度興趣網絡模型探索——DIN+DIEN+DSINDINDIEN DSIN

其中,

深度興趣網絡模型探索——DIN+DIEN+DSINDINDIEN DSIN

為正向LSTM隐藏狀态,

深度興趣網絡模型探索——DIN+DIEN+DSINDINDIEN DSIN

為負向LSTM隐藏狀态。

會話興趣激活層

與目标項關聯更密切的使用者會話興趣對使用者是否單擊目标項影響更大,使用者會話興趣的權重需要重新配置設定到目标項。注意機制在源和目标之間進行軟對齊,是一種有效的權重配置設定機制。會話興趣與目标項自适應表示如下:

深度興趣網絡模型探索——DIN+DIEN+DSINDINDIEN DSIN
深度興趣網絡模型探索——DIN+DIEN+DSINDINDIEN DSIN

類似的,帶有上下文資訊會話興趣與目标項自适應表示如下:

深度興趣網絡模型探索——DIN+DIEN+DSINDINDIEN DSIN
深度興趣網絡模型探索——DIN+DIEN+DSINDINDIEN DSIN

DSIN模型結構

總的來說,在MLP層之前,DSIN主要由兩部分構成。一個是稀疏特性,另一個是處理使用者行為序列。從下至上,将使用者行為序列S劃分為會話Q,再将會話Q加入偏置編碼,并以self-attention的方式提取到會話興趣I中。在Bi-LSTM中,我們将會話興趣I和上下文資訊混合為隐藏狀态H。目标項激活的會話興趣I和隐藏狀态H的向量以及使用者畫像和物品池的嵌入向量連接配接起來,喂入MLPs進行最終預測。結構如下所示:

深度興趣網絡模型探索——DIN+DIEN+DSINDINDIEN DSIN

繼續閱讀