| 作者:陽光明媚
| 機關:華東師範大學
| 研究方向:推薦系統、強化學習
強化學習在訓練agent時,優化的目标是最大化決策所能帶來的長期獎勵。傳統的基于監督學習的推薦系統往往不考慮長期獎勵,而是僅考慮短期的收益(例如此刻推薦什麼物品點選率最高,或者本日推薦什麼轉化率最高)。是以,如果可以用強化學習的訓練方式來訓練推薦系統模型,使得推薦系統可以更多地考慮長期收益,就會使得決策模型眼光更長遠,長遠來看可能會帶來更高的受益。關于推薦系統與強化學習相結合的背景知識,可查閱強化學習推薦系統的模型結構與特點總結。
(*^▽^*)祝大家明天六一兒童節快樂~

這次介紹的文章:Reinforcement Learning to Optimize Long-term User Engagement in Recommender Systems,就是以此為切入點,考慮用強化學習優化互動式推薦的長期使用者參與度,原文連結:
https://arxiv.org/pdf/1902.05570.pdfarxiv.org
強化學習之是以可以模組化決策的長期收益,奧秘在于其優化目标。監督學習優化目标一般是最小化決策值與标簽值的差異,例如二範數。如果我們從“獲得獎勵”的角度看待監督學習,當模型決策與标簽一緻或者相似時獲得獎勵,不一緻或者不相似時就得不到獎勵甚至得到懲罰,監督學習希望最大化每次決策所能得到的獎勵,也就是每次決策都要和标簽類似。這樣做顯然沒有從全局考慮問題:在序列化推薦場景中,可能為了得到使用者的點選率,模型會重複推薦同一物品,而沒有考慮到前面已經反複推薦過該物品了。
而對于強化學習來說,其希望最大化的獎勵是長期獎勵
,
是沒有可以去監督學習的标簽的,隻能通過最小化TD error的方式去近似:
r是與環境互動時獲得的及時獎勵,在推薦系統中對應使用者的正向行為,例如收藏,下單。
下表對比了強化學習與監督學習在模組化獎勵上的不同:
學習範式 | 模組化的獎勵 | 獎勵含義 | 動作選擇的依據 | 優化目标(最小化) |
---|---|---|---|---|
強化學習 | Q(s,a) | s狀态采取動作a所能得到的長期獎勵 | 選擇最大化Q的動作 | ∣∣Q(st,at)−(rt+Q(st+1,at+1))∣∣2 |
監督學習 | R(s,a) | s狀态采取動作a,環境所傳回的即時獎勵 | 選擇最大化R的動作 | ∣∣R(st,at)−rt∣∣2 |
TD error的訓練方式雖然理論上是可行的,但是實踐中容易出現過估計(對一些決策過分的高估其
值),且訓練不穩定的問題,這也是強化學習理論性質優美,但在工業界難落地的主要原因。本文所要介紹的京東這篇優化推薦系統長期收益的文章,其實按照論文中的講解,從頭到尾都沒有上線測試,但是其中的一些思路還是值得借鑒。
獎勵設定
獎勵包括即時獎勵與延遲獎勵,最終的獎勵為各種獎勵的權重和:
其中
,被拼接起來的三項分别為:
- 即時獎勵,使用者的點選或者下單行為
- 延遲獎勵,使用者浏覽時長:
- 延遲獎勵,使用者傳回時間:
其中
是超參數,
是兩次通路之間的時間間隔。
值函數模組化
值函數的形式和DQN相同,就是
,論文對于Q網絡畫了一張複雜的模型圖,但其主要内容都是關于資料的embedding:
f_j代表使用者的回報,如點選,購買,停留,劃過等;d_j代表行為持續時間。
整個過程可以概括如下:
得到初始item的embedding後,與使用者行為的投影矩陣相乘:
然後與dwell time特征拼接喂給LSTM:
不同的使用者行為對應隐特征又會被各自喂入各自的LSTM,進一步提取不同使用者行為對應的特征:
拼接user embedding得到最終的狀态的表示:
item embdgging作為動作的表示,将狀态動作輸入MLP,輸出作為Q值:
使用者模拟器
使用者模拟器部分,是用的普通的監督學習模型,加一個多任務學習,輸出使用者行為類型以及持續時間,是否線上以及下次傳回時間,模型結構圖:
這裡面的state-action embedding部分,與Q網絡結構圖中的embedding部分一樣,可以直接拿來用。
完整算法流程
算法流程圖很長,但是整個流程就是簡單的四部分:
- 線下的日志資料提取使用者行為,預訓練使用者模拟器
- 推薦政策與使用者模拟器互動,收集轉移元組
- 根據轉移元組訓練Q網絡
- 根據資料訓練使用者模拟器
實驗效果
文章先做了一些實驗,證明自己的模型确實可以捕獲使用者的長期興趣,然後有實驗證明了本文算法相比于其他base算法在一些短期和長期度量上的優越性,但是一直回避了一個問題,就是使用者模拟器的效果對最終模型的效果影響幾何?因為文章和base模型對比的實驗效果都是從使用者模拟器中得來的,使用者模拟器的性能是以就至關重要,文章回避了這一點。但是使用者模拟器的思路,在虛拟淘寶中也有用到,另外,滴滴的基于深度強化學習的派單系統,據說(葉傑平在報告上說)也用到了類似思路的模拟環境。