天天看點

推薦系統——标簽推薦系統:UGC的标簽應用

UGC: user generated content, 使用者生成的内容。 Delicious
允許使用者給網際網路的每個網頁打标簽,進而通過标簽重新組織整個網際網路。
CiteULike
是一個著名的論文書簽網站,允許研究人員送出或者收藏自己感興趣并且給論文打标簽,幫助使用者更好的發現與自己領域相關的優秀論文。
Last.fm
分析使用者的聽歌行為預測使用者對音樂的興趣,進而給使用者推薦個性化的音樂。
豆瓣
允許使用者對圖書和電影打标簽,借此獲得圖書和電影的内容資訊和語義,并用這種資訊改善推薦效果。
标簽系統推薦中的問題有兩個:
如何利用使用者打标簽的行為為其推薦物品
如何在使用者給物品打标簽時為其推薦适合該物品的标簽

推薦算法

定義一個三元組 (u,i,b) 表示使用者u給物品i打了标簽b,如何推薦?

1、統計每個使用者最常用的标簽

2、對于每個标簽,統計被打過這個标簽次數最多的物品

3、對于一個使用者,找到他常用的标簽,找到具有這些标簽的最熱門的物品推薦給這個使用者

使用者u對物品i的興趣公式如下:

p(u,i)=∑bnu,bnb,i

其中 nu,b 是使用者u打過标簽b的次數, nb,i 是物品i被打過标簽b的次數。

但是該公式存在很多缺點:

1、傾向于給熱門标簽對應的熱門物品很大的權重,借鑒TF-IDF的思想更新如下:

p(u,i)=∑bnu,blog(1+n(u)b)nb,ilog(1+n(u)i)

其中 n(u)b 記錄了标簽b被多少個不同的使用者使用過, n(u)i 記錄物品i被多少個不同的使用者打過标簽。

2、對于新使用者或者新物品,标簽數量較少。進行标簽擴充(常用話題模型),标簽擴充的本質是對每個标簽找到和它相似的标簽,即計算标簽之間的相似度。

3、并不是所有的标簽都可以反映使用者的興趣,是以我們需要對标簽進行清理。去除詞頻很高的停止詞;去除詞根不同造成的同義詞(recommender system 和 recommendation system);去除分隔符造成的同義詞(collaborative_filtering和collaborative-filtering);讓使用者回報标簽是否合适等。

基于圖的推薦算法

利用圖模型做基于标簽資料的個性化推薦。

首先将使用者打标簽的行為表示到一張圖上,對于三元組 (u,i,b) 在圖中增加三條邊:使用者u對應的頂點v(u)和物品i對應的頂點v(i);v(b)和v(u); v(i)和v(b)之間加一條。如下圖所示:

推薦系統——标簽推薦系統:UGC的标簽應用

基于圖的算法中,使用者對物品的興趣公式如下:

p(i|u)=∑bp(i|b)p(b|u)

公式假定使用者對物品的興趣通過标簽傳遞,此時轉化為 基于圖的推薦模型

但是此時我們的問題是:當使用者u遇到物品i的時候,會給i打什麼标簽,重新設計頂點的啟動機率如下:

rv(k)=⎧⎩⎨⎪⎪α(v(k)=v(u))1−α(v(k)=v(i))0(others)

上一篇: 25779.html
下一篇: 啥是UGC和PGC

繼續閱讀