天天看點

《上下文感覺協同過濾推薦系統的矩陣分解技術綜述》學習筆記

《Matrix Factorization Techniques for Context-Aware Collaborative Filtering Recommender System: A Survey》,2018年,在dblp可下載下傳。

摘要

協同過濾推薦系統通過學習過去使用者項目關系來預測使用者在線上資訊、産品、服務的偏好。協同過濾的一個主要方法是基于鄰域的,使用者和項目的評分通過相似項目或使用者計算。随着資訊量和活躍使用者增多,這種方法因為資料稀疏性和可伸縮性的限制,導緻性能下降、推薦低品質、不準确預測。盡管有這些缺點,資訊過載的問題還是引起了人們對個性化推薦技術的興趣。上下文資訊、矩陣分解技術被證明是一種解決這些挑戰的方案。我們對使用了矩陣分解的上下文感覺推薦系統領域的文獻做了一個集中回顧。本文對上下文感覺推薦系統和大規模資料集性能提高方法和上下文資訊對推薦品質準确性的影響做了詳細文獻綜述。研究結果可作為改進和優化現有基于上下文感覺的協同過濾推薦系統的基本參考。本文的主要貢獻是對上下文感覺協同過濾推薦系統中的矩陣分解技術進行了綜述。

引言

推薦系統是一類web應用程式,它通過提供關于各種類型的資訊、産品和服務的個性化建議來幫助使用者實作資訊過載。現有的推薦系統應用可分為娛樂、電子商務、電子學習和旅遊服務推薦、專家咨詢和配對等特定領域。随着可通路的資訊量和使用者的不斷增長,用于生成建議的各種技術都存在稀疏性和可伸縮性問題,導緻準确性和品質下降。然而,該方法的普及吸引了大量的研究,以提高預測精度和品質的建議。由于對實際應用程式的需求不斷增長,人們對這一領域的興趣仍然很高,這些應用程式能夠提供個性化的建議并有效地處理資訊過載問題。這是因為個性化技術的重要性,它不僅旨在根據客戶的偏好、限制或口味為客戶提供量身定制的資訊,而且還可以增加商業系統的利潤。

這些不斷增長的需求對推薦系統和解決這些問題提出了一些關鍵的挑戰,許多先進的技術,如内容增強的協同過濾,内容增強的矩陣分解,以及上下文資訊的合并一直緻力于提高推薦預測的準确性。上下文感覺推薦系統方法已經證明可以提供更準确的預測和相關建議。

在協同過濾中使用了兩種主要的方法:基于鄰域的和矩陣分解。鄰域方法依賴于使用者鄰居的偏好,即具有相似偏好的其他使用者來估計使用者偏好矩陣分解的基本形式是用因子向量來表征項目和使用者。這些因素是從項目評級模式中推斷出來的(Koren&Bell,2015)。矩陣分解通過一組潛在因素(也稱為特征)來表示使用者和項目之間的關系。它形成兩個低秩矩陣,分别表示使用者(或項目)與集合潛在特征之間的關系。這兩個矩陣相乘可以估計使用者未來的偏好(Chertov、Brun、Boyer和Aleksandrova,2015)。

在這篇論文中,我們探讨了在研究中所研究的各種矩陣因子分解方法,這些方法的目的是提高大規模資料集的性能和合并上下文資訊的影響。

評價名額

沒有一個通用的評價架構可以适用于所有的推薦系統。然而,有各種各樣的方法來評估它們的性能。通常使用三種度量算法品質的名額:預測、分類和排名精度。預測精度衡量系統預測的評級與實際評級之間的差異。這類度量中最流行的是平均絕對誤差(MAE)。(幾篇關于推薦算法的比較,都是用MAE這個度量)使用的其他相關度量包括均方誤差(MSE)、均方根誤差(RMSE)或标準化平均絕對誤差。分類的準确性衡量了系統如何區分好的項目和壞的項目。分類名額有Precision、Recall和ROC。排名精度衡量系統像使用者那樣對推薦項目進行排序的能力。

相關文獻

本節簡要概述了有關推薦系統的調查。我們将現有的調查分為四類。第一類介紹推薦系統研究。這包括(Adomavicius&Tuzhilin,2005;Bouraga、Jureta、Faulkner和Herssens,2014;Park、Choi、Kim和Kim,2011)的工作。第二類調查提供了方法;上下文感覺系統(Baldauf、Dustdar和Rosenberg,2007)、方法和限制(M.Sharma,2013)、基于社會網絡的協作過濾(Yang、Guo、Liu和Steck,2013);推薦系統的基本方法(Felfrnig等人,2014)。第三類是推薦系統的各種應用。這包括旅遊套餐推薦)、旅遊指南、電台托管,第四類包括各種推薦系統技術的評估。

協同過濾的研究主要集中在傳統的二維使用者/項目問題上。2006年,為了改善電影推薦狀态,推出了價值100萬美元的網絡電影推薦競賽,推薦系統算法的研究得到了重視。這場競賽引起了許多研究人員的興趣。Koren等人。證明了矩陣分解模型優于經典的最近鄰技術(Koren等人,2009)。

标準矩陣分解的擴充包含了上下文資訊,如時間感覺矩陣分解,上下文感覺矩陣分解(Baltrunas,Ludwig,&Ricci,2011)和上下文SLIM(Zheng,Mobasher,&Burke,2014)。Tensor Factorization的應用。

文章會将對之前的推薦資訊過濾系統進行補充和擴充。Su和Khoshgoftaar的調查研究了協同過濾技術,并全面介紹了基于記憶體、模型和混合方法的優點、缺點和挑戰。Karydi和Margaritis調查介紹了并行和分布式系統在推薦系統領域的應用。該調查為采用并行和分布式技術的推薦系統提供了詳細的背景知識。

文章架構

論文的其餘部分由四個部分組成。下一節描述了本研究中使用的方法,而第3節概述了上下文感覺矩陣分解技術。最後一部分給出了結論,并對未來的發展方向提出了建議。

方法

我們進行了一次集中的文獻回顧,以确定上下文感覺矩陣分解技術的研究論文,重點關注2007年至2016年現有上下文感覺協同過濾推薦系統的局限性、優點和挑戰。布爾搜尋技術的搜尋條件是推薦系統、協同過濾、矩陣分解以及它們與上下文感覺的組合。在最初的搜尋中,重複的文章被删除了。那些不符合我們調查要求的論文摘要被删除了。最後,對基于矩陣分解技術的CARS論文進行了全文回顧。

上下文感覺協同過濾推薦系統的矩陣分解技術

上下文感覺協同過濾

軟體應用系統中的上下文感覺的概念已經被許多不同應用領域的研究團體所接受。上下文的精确定義取決于推薦系統應用領域(Bazire&Brézillon,2005)。我們采用了一個被廣泛接受的上下文定義,即可以用來描述一個實體的情況的任何資訊(Dey&Abowd,2000)。實體是被認為與使用者和應用程式(包括使用者和應用程式本身)之間的互動相關的人、地方或對象。除了使用者、項目和評分之外,上下文通常扮演着附加資訊的角色,這些資訊可能與目前的推薦相關。合并上下文資訊的目的是通過使它們适應使用者的上下文情況來生成更相關的建議。

上下文感覺系統根據不斷變化的上下文感覺和調整其行為,通常由四個基本元件組成:上下文擷取、上下文發現、上下文模型和上下文處理。傳統的二維推薦系統處理兩類實體,使用者和項目,試圖在使用者×項目矩陣中估計未知的評分。

在過去的十年裡,許多推薦系統的算法和應用已經被開發出來,将上下文資訊引入到推薦算法中。Sarkaleh等人。(Sarkaleh、Mahdavi和Baniardalan,2012)提出了一種模型,該模型能夠向遊客推薦博物館内的新地點,同時向遊客提供有關建議地點某些特征的基本資訊,并考慮到學生、遊客和普通人的特殊需要。基于特征的個性化推薦系統,分類為知識水準、工具、民族語言和工具,考慮通路者擷取藝術作品的内容。在TripAdvisor(Wang、Chan和Ngai,2012)中,一個專注于所提供景點的應用程式,結合人口統計學資料,研究推薦算法與機器學習方法相結合,用于預測旅遊景點評級的适用性。情緒作為上下文變量的角色(Zheng,Mobasher,&Burke,2013)評估了兩種流行的上下文感覺推薦算法——上下文感覺分割方法和差異上下文模組化。結果表明,情緒關聯語境對情境感覺推薦有重要貢獻。使用額外的上下文資訊資料,如天氣、時間、社交媒體情緒和使用者偏好,可以提供使用者目前上下文的更準确模型,進而改進推薦(Meehan、Lunney、Curran和McCaughey,2013)。

矩陣分解技術

随着使用者和項目數量的增加,協同過濾面臨着資料稀疏性和可伸縮性問題。矩陣分解已經成為揭露資料背後隐藏結構的有力工具。一些常用的矩陣分解模型有奇異值分解(Sarwar、Karypis、Konstan和Riedl,2000)、主成分分析(PCA)(Goldberg&Roeder,2014)、機率矩陣分解(PMF)(Salakhutdinov&Mnih,2008)和非負矩陣分解(Cai、He、Han和Huang,2011)。矩陣分解方法基于矩陣分解。結果表明,基于奇異值分解的預測算法可以利用潛在關系克服稀疏性問題。SVD可以通過增加使用者和項目的偏差來進一步改進。Koren等人。提出了SVD++利用隐式回報,以較高的計算成本為代價,獲得了較高的精度。

張量分解(TF)通過結合上下文資訊,将傳統的二維矩陣分解問題擴充為同一問題的n維版本(Gautam、Chaudhary、Sindhwani和Bedi,2016)。多元矩陣被分解為低維表示,其中使用者、項目和每個上下文次元用一個低維特征向量表示(Baltrunas等人,2011;Hidasi&Tikk,2013)。Karatzoglou等人。(Karatzoglou等人,2010)提出了一種基于張量分解的CF方法的多宇宙推薦模型。

一些研究側重于解釋由使用者項矩陣的因式分解産生的潛在特征。從非負矩陣分解中提取的特征用于建立使用者和項目之間的關系。在這些作品中,特征被視為使用者組、組或項或項的屬性。這些解釋需要人為幹預。在(Brun,Aleksandrova和Boyer,2014)中,潛在特征被解釋為使用者。

上下文感覺系統的矩陣分解

開發上下文感覺推薦算法有三種基本方法(Adomavicius&Mobasher,2011):預過濾、後過濾和上下文模組化。在預過濾方法中,上下文資訊被用來過濾掉不相關的評級,然後再用于計算推薦。上下文感覺分割方法(CASA)有三種方法:使用者、項和使用者項分割。在項目拆分(Baltrunas&Ricci,2014);(Baltrunas&Ricci,2009)中,會建立一個項目的多個副本,以儲存基于評級的上下文在不同上下文中生成的評級。當尋求建議時,隻考慮與目前上下文比對的項目。以使用者拆分為例(Baltrunas&Amatriain,2009年);(Said,De Luca,&Albayrak,2011年),它分割使用者而不是項目。第三個CASA是使用者項拆分,它是項拆分和使用者拆分的結合。使用者項目分割方法已經被證明優于單獨項目或使用者分割方法(Zheng,Mobasher,et al.,2013)。

在後過濾方法中,将經典的二維推薦方法應用于非上下文推薦資料後,使用上下文資訊(Baltrunas&Ricci,2014);(Zheng,Burke,&Mobasher,2014);(Zheng,Mobasher,&Burke,2015)。在後過濾中有兩種常用的方法:基于模型的方法和啟發式方法。在基于模型的方法中,通過構模組化型來預測在給定的上下文情況下推薦的項目與使用者相關的機率,進而從推薦結果清單中篩選出項目。将從清單中篩選出機率低于設定門檻值的項目,并根據機率權重評級進行重新排名。

上下文模組化包括在推薦模型中使用上下文(Zheng、Burke和Mobasher,2012年);(Zheng、Burke和Mobasher,2013年)。上下文模組化将上下文資訊直接整合到其推薦過程中。上下文感覺矩陣分解、回歸和決策樹等預測模型都是将上下文納入其方法的上下文模組化技術的示例。

為使用者提供一種基于社交關系的間接推薦方式。基于信任的上下文感覺矩陣分解(TCMF)将信任資訊結合到使用者偏好和使用者項上下文互動中(Li,Sun,&Lv,2014)。因子分解方法建立在信任感覺協同過濾(Jamali&Ester,2010)的工作基礎上。在(Li,Y ang,&Jiang,2016)中,通過使用社會網絡分析将靜态信任模型擴充到新的基于動态信任的上下文感覺矩陣分解(DTCMF),以充分捕捉信任的動态。比較結果表明,動态信任上下文感覺矩陣分解技術具有更好的性能。

布爾矩陣分解(BMF)與奇異值分解(SVD)的比較研究由(Akhmatnurov&Ignatov,2015)提出。用二進制矩陣的布爾矩陣乘積進行的實驗表明,在鄰域數目不多的情況下,二進制矩陣的布爾矩陣乘積具有更高的精度。

(Fang&Guo,2013)提出了一種基于上下文因子和潛在因子之間模糊映射的張量因子分解模型。在這個工作電影标簽和釋出時間我們使用作為上下文變量。标簽和釋出時間的組合被模組化為多元上下文。據報道,時間标簽(TTSVD)實作了更好的RMSE和HLU,同時減少了25%的疊代次數。

稀疏線性方法(SLIM)是為傳統推薦系統中的Top-N推薦而設計的(Ning&Karypis,2011)通過直接從資料中學習聚集系數的稀疏矩陣(與傳統項目項相似性相似)改進了基于項目的最近鄰協同過濾。上下文SLIM(Zheng,Mobasher,et al.,2014)源于SLIM合并上下文資訊,是Top-N推薦的矩陣分解方法。表1總結了上下文感覺矩陣分解技術、評估名額和比較研究的結果。

(Akhmatnurov & Ignatov, 2015) BMF與SVD的比較研究。将原始矩陣分解為二進制矩陣的布爾矩陣乘積的實驗,并與SVD進行了比較。

結論和未來工作

這篇綜述提供了一個廣泛的概述,利用矩陣分解技術将上下文資訊合并到基于協同過濾的推薦系統中。盡管推薦系統領域已經有了長足的發展,但是自從推薦系統研究開始以來,推薦品質、稀疏性、可擴充性、冷啟動和隐私問題等方面的問題一直沒有得到解決。

推薦系統無論他們提供推薦的方法如何,都證明通過提供相關的個性化資訊來克服資訊過載的問題是有用的。CF是最成功、應用最廣泛的推薦技術。然而,與其他方法一樣,該技術也受到資料稀疏性和可伸縮性問題的限制,這些問題阻礙了預測的性能、品質和準确性。協同過濾中資料稀疏的主要原因是大多數使用者沒有對大多數項目進行評分,使得可用的評分稀疏。CF面臨這個問題,因為它依賴于評級矩陣。為了克服傳統推薦系統存在的問題,提出了引入上下文資訊的方法。除了使用者、項目和評分之外,上下文還扮演着其他資訊的角色,這些資訊可能與目前的推薦相關。

矩陣分解是一種發現資料背後隐藏結構的強大技術。奇異值分解、非負矩陣分解和機率矩陣分解是目前比較流行的分解模型。SVD能夠有效地處理大資料集、等級矩陣稀疏性和CF算法的可擴充性問題。NMF被廣泛用于降維和提取潛在因子。PMF模型對使用者和電影特征設定高斯先驗,将推薦任務轉化為機率問題。矩陣/張量因子分解模型可以通過使用随機梯度下降(SGD)、交替最小二乘法(ALS)或MCMC(MCMC)來優化。張量因式分解模型計算量大,在實際應用中并不流行。現有的各種評價名額也可以通過測量推薦系統的覆寫率和準确性來評價推薦系統的性能,但現有的評價名額還不足以評價推薦系統的品質和有用性。推薦系統的評價名額被困在推薦準确度上。

未來CARS的研究方向應該是對語境的統一定義以及語境資訊的構成。另一個需要考慮的重要方面是解決因合并上下文資訊而産生的隐私問題。在使用者研究中進行更多的研究對于獲得必要的回報和走出準确性的籠子至關重要。雖然已經開發了許多先進的技術來解決資料稀疏性問題,但它仍然是一種解決資料稀疏性的方法。對快速和可伸縮計算的需求是至關重要的,是以必須花費大量精力來開發高效和可伸縮的算法。

上一篇: beta5/7
下一篇: beta沖刺4/7