天天看點

《推薦系統:技術、評估及高效算法》一3.2 基于内容的推薦系統的基礎

本節書摘來自華章出版社《推薦系統:技術、評估及高效算法》一書中的第3章,第3.2節,作者 [ 美]弗朗西斯科·裡奇(francesco ricci)利奧·羅卡奇(lior rokach)布拉哈·夏皮拉(bracha shapira)保羅 b.坎特(paul b.kantor),更多章節内容可以通路雲栖社群“華章計算機”公衆号檢視

基于内容的推薦系統通過分析一系列使用者之前已評分物品的文檔和(或)描述,進而基于使用者已評分對象的特征建立模型或個人資訊[63]。個人資訊是使用者興趣的結構化描述,并且被應用在推薦新的感興趣的物品中。推薦的主要處理過程是将使用者個人資訊的特征和内容對象的特征相比對,結果就是使用者對某個對象感興趣程度的評價。如果這份個人資訊準确地反映了使用者的偏好,資訊通路處理過程則能帶來巨大的優勢。例如,通過判斷這個使用者是否對指定網頁感興趣,以及在不感興趣的情況下阻止顯示,進而達到有效過濾搜尋結果的效果。

基于内容的資訊過濾系統需要描述物品和生成使用者個人資訊的恰當技術,以及一些能夠比較使用者個人資訊和物品描述的政策。一個基于内容的推薦系統的高層次結構如圖3.1所示。推薦的過程有三個階段,每一階段都由獨立的部件控制。

《推薦系統:技術、評估及高效算法》一3.2 基于内容的推薦系統的基礎

内容分析器:當資訊沒有結構化時(如文本),某些預處理階段需要抽取相關的結構化資訊。這個部件的主要功能就是将來自資訊源的對象(如文檔、網頁、新聞、産品描述等)的内容表示成恰當的格式,以便于下一階段的處理。資料對象經過特征抽取技術的分析,目的是将原始資訊空間轉換到想要的物品描述格式(如将網頁表示成關鍵詞向量)。這樣的描述格式作為資訊學習器和過濾元件的輸入。

資訊學習器:這個子產品收集了有關使用者偏好的資料特征,并試圖去泛化這些資料,進而建構使用者特征資訊。泛化政策通常是通過機器學習技術實作的[61],它可以從使用者過去喜歡的或不喜歡的物品中推斷出一個使用者的興趣模型。例如,網頁推薦的資訊學習器可以實作相關的回報方法[75],通過學習技術将正負樣例向量組合到一個表示使用者特征的模型向量中。訓練樣本是由使用者提供的具有正負回報的網頁。

過濾元件:這個子產品将使用者個人資訊和物品在表示空間進行比對,利用使用者個人資訊來推薦相關物品。這個元件的結果是一個二進制的或者連續型的相關性判斷(使用某種相似度來計算[42]),後者能生成一個潛在感興趣物品的排名清單。在上面提過的例子中,這種比對是通過計算原型向量和物品向量的餘弦相似度得到的。

推薦步驟的第一個階段是由内容分析器完成的,它通常是借鑒了資訊檢索系統的技術[80,6]。來自資訊源的物品描述經過内容分析器,從非結構化的文本中抽取特征(如關鍵詞、n-grams、概念等),進而得到結構化的物品描述,并儲存在被表示物品庫中。

為了結構化和更新活躍使用者ua(必須為其提供推薦的使用者)的個人資訊,該使用者對物品的偏好反應是通過某些管道收集并記錄在回報庫中的。這些被稱作注釋[39]或回報的互相作用和物品的相關描述一起被用在模型學習的過程中,這些資訊對實際中預測新的相關物品的表示非常有用。是以,即使沒有提供任何回報,使用者也可以清晰地定義他們自己感興趣的領域作為初始的個人資訊。

通常情況下,我們能夠區分這兩種類型的相關性回報:正面的資訊(使用者喜歡的特征)和負面的資訊(使用者不感興趣的特征[43])。

兩種不同的技術都能用來記錄使用者的回報。當系統要求使用者明确評價物品時,這項技術通常稱作“顯式回報”;反之,則稱作“隐式回報”,由于回報來自監控和分析使用者的行為,是以它不需要任何活躍使用者的參與。

确切的評價能夠表明使用者對一個物品相關或感興趣的程度[74]。主要有三種方式來得到顯式的相關性回報:

喜歡/不喜歡:利用一個簡單的二進制化評分刻度,将物品分成“相關的”或“不相關的”兩大類,如[12]。

評分:經常用來評價物品的一個離散的數值刻度,詳情參見文獻[86]。當然,标記化的評價也可以映射到數值刻度,如在syskill&webert[70]中一樣,把使用者對網頁的評價劃分為熱門、一般、冷門。

文本評論:收集并展示單一物品的評論給使用者,使其成為使用者加快決策過程的一種方式,詳情參見文獻[72]。例如,在amazon或ebay上,使用者的回報可以幫助其他使用者判斷一件物品是否被大衆所接受。文本評論是有益的,但是這些評論也會對使用者造成負擔,因為她必須閱讀和了解每條評論,并決定哪些評論是正面的哪些是負面的,以及這些評論的程度。文獻[71]從情感計算研究領域中提出的先進技術,使得基于内容的推薦系統能夠自動執行這種分析。

即使數值/符号刻度的可采納性會增加使用者的認知負荷,而且也許不能完全得到使用者對物品的評價,顯式回報仍然具有簡單的優點。隐式回報的方法是基于對使用者在某樣物品上的特定行為進行相關性評分指派,如儲存、删除、印刷、收藏等。這個方法的主要優點是不需要使用者的直接參與,當然偏差是可能發生的,如在閱讀的時候被電話打斷。

為了建立活躍使用者ua的個人資訊,必須定義使用者ua的訓練集tra。tra是一個成對的〈ik,rk〉的集合,其中rk是使用者對物品描述ik的評分。給定一組有評分的物品描述,資訊學習器通過監督式學習算法生成一個預測模型——使用者資訊,使用者資訊通常存儲在資訊資源庫裡,并被之後的過濾元件所使用。給定一個新的物品描述,通過比較存儲在使用者資訊資源庫裡的使用者偏好和表述物品的特征,過濾元件将會預測活躍使用者是否對它感興趣。過濾元件通常會實作根據使用者個人資訊相關性的程度對潛在感興趣物品進行排序的政策。排名靠前的物品會形成一個推薦清單la,并被推薦給使用者ua。使用者的品味通常時刻改變,是以必須維護最新的變更,并提供給資訊學習器去自動更新使用者個人資訊。通過讓使用者表明對la中的物品滿意與否,能從生成的推薦中收集到更深層次的回報。在收集了這些回報後,學習過程将在新的訓練資料集上再次執行,并将學習的結果應用于生成使用者的最新興趣。随着時間的推移,“回報—學習”的循環疊代使得該系統可以考慮到使用者偏好的動态變化。

基于内容的推薦與基于協同過濾的推薦相比有以下優點:

使用者獨立性:基于内容的推薦僅使用目前使用者提供的評分來建構自己的個人資訊。而協同過濾的方法需要其他使用者的評分,來發現該使用者最近的近鄰,例如,由于對相同的物品評分相似而品味相似的使用者。這時,隻有目前使用者最近鄰很喜歡的物品才有可能推薦給目前使用者。

透明度:通過顯式地列出使得物品出現在推薦清單中的内容特征或描述,可以解釋推薦系統是如何工作的。這些物品特征是決定是否信任該推薦的名額。相反,協同過濾系統是一個黑盒子,對一個推薦物品的唯一解釋是相似品味的未知使用者喜歡過該物品。

新物品:基于内容的推薦系統在沒有任何使用者評分的情況下也可以進行推薦。是以,新物品沒有第一次評分會影響協同過濾推薦系統,因為協同過濾推薦系統僅依賴于使用者的偏好産生推薦。是以隻有當一個新物品被一系列使用者評分之後,系統才可能推薦它。

盡管如此,基于内容的推薦系統也有以下一些缺點:

可分析的内容有限:基于内容的推薦技術有一個天然的限制,即與推薦對象相關的特征數量和類型上的限制,不管是自動還是手動的。領域知識一般是必需的,例如,對于電影推薦,系統需要知道電影的演員、導演,有時候領域本體也是需要的。當分析的物品内容資訊不足以區分哪些物品是使用者喜歡的、哪些物品是使用者不喜歡的時候,沒有任何基于内容的推薦系統可以給出合适的推薦。有些解釋隻能擷取物品内容的某些方面,但是還有很多别的方面也能影響使用者體驗。舉個例子,在玩笑或者詩詞裡,沒有足夠的詞頻資訊去為使用者興趣模組化,這時,情感計算的技術就會更适用。此外,對于網頁來說,文本特征抽取技術完全忽略其美學特征和附加的多媒體資訊。

總之,不論是手動還是自動為物品配置設定特征,都不足以定義物品不同的特點,而這些特點被證明對提取出使用者興趣是必要的。

過度特化:基于内容的推薦在本質上無法發現一些出人意料的物品。系統建議的物品和使用者的個人資訊高度比對的時候,給使用者的推薦也将會是與已有的評分物品相似的物品。這個缺點主要是由于基于内容的系統産生的推薦物品在新穎性上的缺陷,稱作驚喜度問題。舉例來說,當一個使用者隻評價了stanley kubrick導演的電影,那麼她得到的推薦就隻有這種類型的電影。一個“完美”的基于内容的技術可能很少發現任何新穎的東西,這限制了使用它的應用程式的範圍。

新使用者:在一個基于内容的推薦系統可以真正了解使用者偏好且給出準确的推薦之前,需要收集足夠的評分。是以,當隻有很少的評分可用的時候,即對于新使用者來說,系統不能提供可靠的推薦。

接下來,将就采用何種政策來處理對上面提出的問題,進行介紹和讨論。更具體地,會闡述利用常識和特定領域的知識來提高内容解釋的新技術(3.3.1.3節~3.3.1.4節)。通過提供新的特征可能有助于克服傳統的内容分析方式的限制,如wordnet[60,32]或wikipedia概念,幫助物品用一種更準确透明的方式進行推薦。此外,将推薦過程中使用者定義詞典,如大衆分類,作為擴充詞表加入考慮并進行整合的過程,将在3.4.1節進行介紹。

使用驚喜度推薦,即新穎性很高的使用者感興趣的物品,來滿足使用者的可能方式将作為解決過度特化問題的解決方案進行分析(3.4.2節)。

最後,将會介紹克服新使用者問題的各種不同政策。其中,當在特定使用者的評分很少或者沒有的情況下推薦時,社群使用者所提供的社交标簽可以作為推薦的回報應用到系統中(3.4.1.1節)。

繼續閱讀