天天看點

YuLan-RecAgent:推薦系統中的《西部世界》

作者:mistlike

摘要:在這個資訊爆炸的時代,你是否感到篩選資訊的壓力重重,對各種推薦系統的存在感到萬分的感激?無論是你每天刷的TikTok,還是日常購物的淘寶,推薦系統已經深深地融入到我們的生活中,為我們的決策提供了友善,也帶來了巨大的商業價值。

在過去,推薦系統的研究主要基于真實資料,但真實資料的擷取成本,以及安全、隐私等問題一直是難以逾越的障礙。相比之下,基于模拟的研究範式顯得更加靈活,且成本效益更高,然而,傳統的模拟方法在推演人類行為方面往往力所不及。

近日,來自中國人民大學高瓴人工智能學院的研究團隊打破過去的研究桎梏,借助大語言模型強大的拟人能力,提出了“基于大語言模型的推薦環境模拟”這一新的研究視角,并建構了名為RecAgent的多智能體推薦系統模拟器,讓我們看到了未來推薦系統更廣闊的可能性和期待。

YuLan-RecAgent:推薦系統中的《西部世界》

項目首頁:

https://github.com/RUC-GSAI/YuLan-Rec

論文連結:

https://arxiv.org/pdf/2306.02552.pdf

RecAgent:基于大模型的推薦系統沙盒模拟

YuLan-RecAgent:推薦系統中的《西部世界》

01

RecAgent是什麼

在資訊時代的浪潮下,推薦系統已然成為衆多網際網路應用的重要元件。它不僅給人類的生活、生産帶來了極大便利,也催生出了巨大的商業價值。推薦系統的研究既可以基于真實資料,也可以基于模拟環境。真實資料往往更加精準,但卻價格昂貴,且應用場景受限;模拟環境準确度較低,但成本低廉,且适用更多場景。長期以來,基于真實資料的研究範式占據着絕對主導地位,這是因為傳統的模拟方法很難對人類思想進行精準推演。近年來,大語言模型的蓬勃發展使人們在探尋人類智能的道路上更進一步,這為基于模拟環境的推薦系統研究範式提供了新契機。人們可以借助大語言模型強大的拟人能力來對使用者行為進行高效模拟。基于這個想法,中國人民大學團隊提出了“基于大語言模型的推薦環境模拟”這一研究方向,并建構了名為RecAgent的推薦系統沙盒模拟環境。同時,RecAgent也是中國人民大學大語言模型YuLan的一部分,團隊期待它能為推薦系統的研究帶來新的啟示,為未來的推薦系統設計提供新的思考方向,也希望能有更多的研究者加入一起探索這個充滿可能性的新領域。

02

RecAgent能幹什麼

RecAgent可以模拟使用者在推薦系統中的浏覽、搜尋、觀看等行為,也可以模拟和推薦相關的社交行為,例如使用者在社交媒體上交談、發帖等。為了給讀者提供更加直覺的感受,我們首先舉例說明在RecAgent中觀察到的使用者行為。

1. 使用者浏覽推薦網站,得到第一次推薦不滿意後,系統繼續推薦,而後,使用者觀看某些電影,并産生對電影的感受

YuLan-RecAgent:推薦系統中的《西部世界》

2. 使用者在社交媒體中得到朋友對某電影的推薦,并到推薦網站中搜尋該電影進行觀看。

YuLan-RecAgent:推薦系統中的《西部世界》

3. 使用者觀看電影後,産生自己的想法和感受,并将該電影分享給他的朋友

YuLan-RecAgent:推薦系統中的《西部世界》

4. 使用者在社交媒體發消息,他的朋友看到消息後,為其推薦電影

YuLan-RecAgent:推薦系統中的《西部世界》

5. 使用者A給他的朋友B推薦電影,B又将該電影推薦給他的朋友C

YuLan-RecAgent:推薦系統中的《西部世界》

6. 使用者根據近期的記憶進行反思,并更新自己的記憶

YuLan-RecAgent:推薦系統中的《西部世界》
YuLan-RecAgent:推薦系統中的《西部世界》

示範視訊

,時長02:06

03

RecAgent是如何搭建的

RecAgent主要包含兩大子產品:(1)使用者子產品 和(2)推薦系統子產品。前者旨在模拟使用者行為,後者則是真實的推薦系統。

具體來說,在RecAgent中使用者可以有三種行為:

  1. 通路推薦網站。使用者登陸推薦網站的原因有兩種,一是有明确想要觀看的電影,二是通過浏覽網站找到自己想看的電影。對于第一種原因,使用者會主動搜尋該電影,并進行觀看。對于第二種原因,推薦系統會給使用者展示他可能感興趣的電影供其選擇。在通路推薦網站的過程中,如果使用者對目前系統傳回結果不滿意,可以提出通路下一頁,并可在任意時刻選擇離開網站。
  2. 和他人交流。使用者可以選擇和他的朋友進行聊天,分享最近觀看電影的感受,心得或向他的朋友推薦電影等。交流的内容由大語言模型決定。
  3. 在社交媒體廣播發帖。除了和朋友聊天以外,使用者還可以在社交媒體發文章。如果我們認為和他人聊天是一種一對一的消息傳遞方式,那麼在社交媒體發帖則是一種一對多的消息傳播方式。該使用者在社交媒體的好友看到消息後,可能會發起聊天,繼續深入讨論發帖内容。

每個使用者維護了一個可更新的記憶子產品,并在以下情況下觸發更新:(1)觀看電影後,使用者産生觀影感受。(2)和朋友交談後,擷取新的資訊。(3)在社交媒體收到朋友的廣播消息。(4)基于近期記憶進行自主反思。

在RecAgent中推薦系統可以有兩種行為:

1. 傳回推薦結果。系統通過調用實作部署的推薦算法為使用者産生推薦結果。

2. 傳回搜尋結果。系統通過計算電影相似度傳回和使用者查詢最接近的電影。

在RecAgent中,使用者和推薦系統的完整行為架構圖如下圖所示:

YuLan-RecAgent:推薦系統中的《西部世界》

RecAgent的整體架構

04

RecAgent的潛在應用

1. 緩解冷啟動問題:推薦系統的冷啟動問題是困擾科研人員的多年頑疾,RecAgent有可能對這一問題起到一定的緩解作用。具體來說,人們可以首先利用公開資料中使用者的Profile來對模拟器使用者的背景進行初始化,其次讓這些使用者在RecAgent中自由行為,生成新的推薦訓練資料,最後利用新生成的資料重新訓練模型。

為了初步驗證該方向的可能性,作者在經典的推薦系統資料集Movielens中抽取了20位使用者,并令每位使用者僅有1-2個互動資料(模拟冷啟動場景),然後基于這些使用者的背景資訊(例如年齡,職業等),作者在RecAgent中初始化了20個虛拟使用者,并令這些使用者自主行為,産生新的互動資料。作者對比了基于原始資料和擴充後資料,BPR模型的性能,得到如下實驗結果:

YuLan-RecAgent:推薦系統中的《西部世界》

實驗表明,RecAgent可以生成合理的使用者行為,進而為模型揭示更多的資訊,得到更加精準的推薦模型。

2. 反事實和因果環境模拟:反事實因果推理的本質問題是考慮在兩個平行世界中,當某個變量被置成不同的值(即幹預)時,目标變量将會如何改變。人們可以通過啟動不同的RecAgent程序來模拟這一場景。不同的程序相當于平行世界,人們隻需要在不同程序中将被幹預變量設成不同值,即可觀察平行世界中人們将如何演化(進而得到目标變量的變化規律)。

3. 基于社交關系的推薦:人們可以基于RecAgent模拟消息如何在社交網絡中傳播,并利用這些資訊建構基于社交關系的推薦算法。和以往的基于社交的推薦不同,模拟資料中擁有豐富的使用者交流和發帖資訊,這些資訊可以有效揭示使用者分享消息的基本模式和内在規律,這對深入了解社交關系在推薦算法中的本質作用奠定了重要基礎。

4. 基于強化學習的推薦算法:近年來,基于強化學習的推薦算法受到了科研人員的廣泛關注。該領域一個重要問題是缺乏良好的環境模拟器。作者認為RecAgent可能會給該領域帶來新的讨論和啟發。人們可以将設計好的強化學習推薦算法部署到RecAgent的推薦子產品,并基于大語言模型實時詢問使用者對推薦結果的滿意度,進而得到獎勵,優化模型。

5. 可解釋推薦算法的評測:如何為推薦結果提供解釋一直是科研人員關注的重點方向之一。然而如何評價推薦解釋,并根據評價結果更新模型是該領域的難點。作者認為RecAgent可以在這些問題上提供新的思路。人們可以将可解釋推薦算法部署在RecAgent中,然後通過詢問使用者對解釋的感受,或者觀察使用者的記憶子產品得到使用者對解釋的滿意度和了解程度,進而可以反過來指導可解釋推薦模型的學習。

05

總結與展望

RecAgent在“基于大語言模型的推薦系統模拟”這一方向上進行了早期探索,還有很大的改進空間。首先,未來人們可以引入使用者心理學特征來探索真實世界中,不同人格的使用者在推薦系統、社交網絡以及社會演化中扮演着怎樣的角色。其次,RecAgent未來可以嘗試進行大規模使用者模拟,并和真實資料打通,建構真實與虛拟資料相結合的新的推薦系統研究範式。

在未來,RecAgent的研發團隊會結合人大的學科特色,在政府政策模拟,市場經濟模拟等方面開展進一步探索,敬請期待。

繼續閱讀