天天看點

大語言模型在推薦系統中的應用總結

作者:大資料與人工智能分享

傳統的推薦模型依賴顯式的ID來模組化使用者或物品。由于不同域的ID不能共享語義,已經訓練好的推薦模型可能無法直接遷移到新的推薦領域。最近,自然語言處理領域正在經曆一場範式的革新:通過增加模型的參數,以及在大量語料上預訓練,模型可以學習到通用的語義,并可以被遷移到不同的下遊場景。特别的,大語言模型(LLM)龐大的參數中存儲了通用的世界知識,在各種任務上取得了突出的表現,引起了研究人員的廣泛關注。一個自然的想法是:能否利用大語言模型的通用知識輔助推薦?本文簡單整理了近期大語言模型在推薦系統的相關應用,旨在與讀者分享并互相交流。

評測相關:

Large Language Models are Zero-Shot Rankers for Recommender Systems

大語言模型在推薦系統中的應用總結

本文評測了LLM在推薦系統中的零樣本排序能力。具體來說,本文将推薦問題形式化為給定條件的排序任務,其中使用者的曆史互動作為條件,召回得到的物品作為候選。本文通過設計合适的prompt模版,結合條件、候選、排序指令,使得LLM可以執行推薦中的排序任務。本文在兩個公開資料集上進行了詳細的實驗,并得到以下發現:

  • LLM可以基于使用者的曆史互動實作個性化的排序,但是LLM很難感覺到使用者曆史互動的序列關系。
  • 基于特别設計的提示,例如“recency-focused prompting”, “in-context learning”, LLM可以被激發出感覺曆史互動序列性的能力,進而提升排序能力。
  • LLM優于其他的零樣本推薦模型,展示了較好的零樣本排序能力。特别當采用多路召回生成候選時,LLM具有更好的判别能力。
  • LLM在排序時有position bias和popularity bias,但可以被适當的提示或bootstrapping等政策所緩解。

Chat-REC: Towards Interactive and Explainable LLMs-Augmented Recommender System

大語言模型在推薦系統中的應用總結

本文指出傳統的推薦模型的互動和解釋能力較差,阻礙了将他們部署在真實的系統中。為此,本文嘗試利用LLM來建構對話式推薦系統,其中使用者畫像和曆史互動等資訊被轉化為提示資訊。本文提出, LLM可以基于in-context learning較好的了解使用者偏好以及建構使用者和物品之間的聯系。是以,LLM在向使用者推薦合适物品的同時,也可以向使用者提供個性化的解釋結果。特别的,基于LLM的通用知識,chat-rec可以靈活的遷移到不同的推薦場景,處理物品冷啟動的問題。

Rethinking the Evaluation for Conversational Recommendation in the Era of Large Language Models

大語言模型在推薦系統中的應用總結

本文同樣嘗試利用ChatGPT來建構對話式推薦系統,并為此進行了系統性的評測。本文首先在已有的benchmark資料集上評測了ChatGPT的對話推薦能力。然而,結論是反直覺的:“ChatGPT并沒有展示較好的效果”。為此,本文作者檢查了ChatGPT失敗的案例,并發現失敗的原因在于:已有的評測方式依賴于對齊人類手工标注的推薦和對話,并過分強調了基于對話上下文來對ground-truth物品的拟合。是以,傳統的評測名額,如BLEU和GOUGE等無法反映LLM在文本生成任務上的真實能力。

為了解決上述的問題,本文旨在改善評測的方式,使其更加關注于對話推薦系統的互動能力。理想來說,這樣的評測應該由人類标注,然而由于高昂的成本,本文嘗試使用基于LLM的使用者模拟器來測試LLM的對話推薦能力。在這樣的評測方式下,ChatGPT取得了出色的表現。特别的,ChatGPT具有突出的解釋能力,這是目前的對話推薦系統難以做到的。

Zero-Shot Next-Item Recommendation using Large Pretrained Language Models

大語言模型在推薦系統中的應用總結

本文評測了零樣本設定下,LLM在下一個物品預測任務下的能力。本文提出了兩個挑戰:1. 對于LLM來說,推薦的候選空間非常大,2. LLM不清楚使用者的曆史互動和偏好。為此,本文提出了一種提示政策:“Zero-Shot Next-Item Recommendation (NIR)”, 使得LLM可以處理預測下一個物品的任務。具體來說,本文首先利用外部子產品(傳統的協同過濾模型)生成候選物品,然後分别提示LLM:1. 提取使用者偏好,2. 選擇代表性的曆史互動物品, 3. 推薦并排序包含十個物品的清單。本文結果表明GPT-3在MovieLens 100K資料集上具有較強的零樣本能力,甚至可以優于在該資料集上完整訓練的傳統推薦模型。

Is ChatGPT a Good Recommender? A Preliminary Study

大語言模型在推薦系統中的應用總結

本文探索了将ChatGPT作為通用推薦模型的能力。具體來說,本文分别在評分預測,序列推薦,直接推薦,解釋生成和評論摘要等五個任務下測試了ChatGPT的能力。除此以外,本文探索了使用少量樣本的提示資訊,來向LLM注入使用者的互動資訊,使得語言模型可以更好的了解使用者偏好和需求。實驗表明,LLM在序列推薦任務和直接推薦任務上的效果較差,而在評分預測,解釋生成和評論摘要任務具有較好的表現。特别的,本文還基于人類評測了解釋生成和評論摘要任務。盡管LLM生成的結果可能不受傳統評測名額的青睐,但是從人類角度來看,LLM生成的解釋和摘要更加清晰且符合邏輯。

Uncovering ChatGPT’s Capabilities in Recommender Systems

大語言模型在推薦系統中的應用總結

本文從資訊檢索的視角,對ChatGPT的在point-wise,pair-wise,和list-wise的排序能力做了分析。如上圖所示,本文将以上的三個推薦政策描述為不同的提示格式。通過在來自不同領域的四個資料集上進行的大量的實驗,本文證明ChatGPT在所有的排序政策上都優于其他的LLM。由于使用ChatGPT做推薦任務也會帶來高昂的費用,本文特别分析了不同排序政策下的費用,并指出list-wise排序具有最高的成本效益。除此以外,ChatGPT在緩解冷啟動問題以及可解釋推薦上也取得了出色的效果。

Do LLMs Understand User Preferences? Evaluating LLMs On User Rating Prediction

本文專門評測了LLM在評分預測任務上的表現。本文的評測從兩個次元展開:1. model scale:從250M到540B, 2. setting:zero-shot,few-shot,和fine-tuning. 具體來說,本文得到了如下的實驗結論:

大語言模型在推薦系統中的應用總結
  • 在冷啟動的場景下,模型參數的增加可以帶來更好的推薦,最終取得類似于啟發式算法的效果。
  • 在零樣本設定下,LLM的效果遠差于在完整資料上訓練的傳統模型,這表明了使用者互動資料的重要性。
  • LLM具有更好的data efficiency:通過在适量資料上微調,LLM可以取得可比甚至優于傳統模型的結果。

Is ChatGPT Fair for Recommendation? Evaluating Fairness in Large Language Model Recommendation

大語言模型在推薦系統中的應用總結

本文旨在評測達模型的推薦結果是否公平。實際上,由于在大量的無标注語料上預訓練,LLM存在一定的社會偏見,可能導緻LLM産生不公平的推薦結果。為此,本文提出了一個新的公平性benchmark:"Fairness of Recommendation via LLM (FaiRLLM)."

具體來說,FaiRLLM通過比較LLM在"neutral instructions" (沒有包含使用者的敏感屬性)和"sensitive isntructions" (包含敏感屬性)下的推薦結果,來評估LLM的公平性。結果表明,LLM 可能産生不公平的推薦,而且LLM的公平性随着不同的敏感屬性而變化。

生成相關:

Generative Recommendation: Towards Next-generation Recommender Paradigm

大語言模型在推薦系統中的應用總結

本文作者認為傳統的推薦模型往往從物品集合中檢索合适的物品來實作個性化推薦。然而,這樣的範式可能存在一些問題:1. 已有的人類生成的物品集合并不一定能符合使用者多樣化的需求, 2. 使用者往往通過被動的,低效的回報(如點選),來調節推薦。基于AIGC的蓬勃發展,作者構想的下一代的推薦範式應該具有以下兩個目标:1. 通過生成式AI來生成個性化的内容,2. 融入使用者指令來指導内容的生成。

為了實作這個目标,作者提出了一個新的生成式推薦範式:GeneRec. 具體來說,作者首先預處理使用者的指令和傳統的回報作為生成的依賴。然後,作者基于AI editor和AI creator來執行個體化AI generator,使得GeneRec可以基于使用者的需求重新定制已有的物品和建立新的物品。

GPT4Rec: A Generative Framework for Personalized Recommendation and User Interests Interpretation

大語言模型在推薦系統中的應用總結

本文認為傳統的推薦模型用ID來表征物品,并且使用判别式方法模組化,可能會導緻以下幾個限制:1. 無法利用物品的内容資訊和NLP模型的語言模組化能力。2. 無法解釋使用者興趣來提升推薦的相關性的多樣性。3. 無法适配更實際的應用場景,例如不斷增加新的商品。

為此,本文提出GPT4Rec,利用靈活的生成架構來處理推薦任務。具體來說,基于使用者曆史互動的物品,和它們對應的标題 ,GPT4Rec首先要求GPT2來生成假設的"搜尋查詢",然後引入搜尋引擎(BM25),來基于這個查詢檢索相關的物品。實驗證明通過beam search,GPT2可以生成多樣化的召回商品以及覆寫使用者的多樣化的興趣。

A First Look at LLM-Powered Generative News Recommendation

大語言模型在推薦系統中的應用總結

本文指出傳統的新聞推薦可能存在以下幾個挑戰:1. 冷啟動。對于長尾或新使用者,模型無法較好的模組化和了解他們的興趣。2. 使用者畫像模組化。出于隐私保護的考量,現有的資料集可能無法包含詳細的使用者畫像資訊。3. 新聞内容了解。由于新聞資料中标題和内容存在不一緻的問題,導緻難以識别新聞中的關鍵概念和主題。

為了解決這些問題,本文提出GENRE,一個基于LLM的生成式新聞推薦架構。具體來說,GENRE利用可獲得的新聞資料,如标題,摘要,和新聞類别,來建構提示,進而激發LLM基于其通用知識來産生相關的資訊 ,如新聞摘要,使用者畫像,個性化新聞等。這些生成的新聞資訊将被加入到資料庫中,并疊代的優化LLM生成。在此之後,這些生成出來的新的資料将被用來訓練新聞推薦模型。

指令微調相關:

Recommendation as Instruction Following: A Large Language Model Empowered Recommendation Approach

大語言模型在推薦系統中的應用總結

本文作者指出傳統的推薦模型依賴ID來表征使用者和物品。盡管這些方法可以較好的模組化系統中的協同資訊,它們難以泛化到新的推薦場景中(如新物品,新任務)。除此以外,在傳統的推薦算法中,使用者和系統的互動方式是固定且不靈活的。系統通過分析使用者的曆史互動來捕捉他們的隐式偏好,而使用者被動的參與到推薦算法當中,無法主動的表達他們的真實需求。實際上,使用者的需求是多樣化且靈活的,可能十分模糊,也可能十分具體;可能是隐式的,也可能是顯式的表達。是以,傳統的推薦算法可能導緻不合适的推薦和較低的使用者使用體驗。

最近,越來越多的證據表明,指令微調可以賦予LLM了解使用者意圖的能力,使得使用者可以自然靈活的與LLM交流。為此,本文期望發展一種新的推薦範式:使用者可以靈活的使用自然語言指令來表達自身的需求,而系統通過分析這些指令來實作個性化的推薦,即InstructRec. 為此,本文首先形式化了推薦指令的三個關鍵因素:偏好,意圖和任務形式。并基于這些因素的組合執行個體化了不同的互動場景。本文通過self-instruct的方式,利用一個指令微調過的模型(teacher-LLM)來基于使用者的曆史行為,評論等資料,生成大量能反映使用者意圖和偏好的指令資料。利用這些指令資料,本文指令微調了3B Flan-T5-XL。實驗結果表明,InstructRec可以準确了解使用者的需求,在不同的互動場景中均取得較好的效果。

TALLRec: An Effective and Efficient Tuning Framework to Align Large Language Model with Recommendation

大語言模型在推薦系統中的應用總結

本文作者指出即使LLM能夠基于其豐富的世界知識和強大的泛化能力來處理推薦任務,LLM在推薦任務中的表現仍然是次優的。作者認為這主要是由LLM的訓練任務和推薦任務的不一緻所造成的。為此,本文提出一種高效的微調架構,來将LLM對齊到推薦系統中,即TALLRec. 具體來說,TALLRec包含兩個微調階段:指令微調和推薦微調。在指令微調階段,TALLRec基于Alpaca的指令資料來微調LLM。在推薦微調階段,TALLRec将推薦資料形式化為指令微調的格式。在推薦微調的資料中, TALLRec首先聲明任務的格式:是否喜歡目标商品,然後将使用者的曆史互動基于其喜好程度(評分)分成喜歡和不喜歡兩類。TALLRec将這兩類資料以及目标商品組合起來,得到任務的輸入:"User Preference: . User Unpreference: . Whether the user will enjoy the target movie/book: ". 最後,TALLRec将使用者對目标商品的回報轉換為自然語言的"Yes. / No." 來得到任務輸出。除此以外,TALLRec引入了LoRA來實作輕量化微調。通過兩階段的高效微調,LLM可以較好的适配到推薦系統,并展現了魯棒的跨域泛化能力。

本文簡單整理了近期大語言模型在推薦系統的相關應用,更多關于大語言模型的綜合性介紹可以參考綜述:A Survey of Large Language Models.

論文連結:https://arxiv.org/abs/2303.18223

大語言模型在推薦系統中的應用總結

繼續閱讀