論文題目:The YouTube Video Recommendation System
YouTube 電影推薦存在的難題:
- 使用者上傳的電影幾乎沒有電影的相關描述
- 電影的數量和活躍使用者的使用者數量在同一數量級
- 電影長度比較短,使用者對電影的互動也短,是以資料噪聲比較大
- 電影的生存周期比較短,推薦清單需要實時更新
推薦資料源: 第一類:視訊資料流,視訊中繼資料(标題,描述等) 第二類:使用者活動資料,主要分為兩種。 1 -> 直接活動:對電影評分,對電影點贊,訂閱一個上傳 2 -> 間接活動:使用者觀看電影的時長
計算兩個電影之間的相似度
其中Cij表示電影i和電影j在一定時間段内,使用者同時看電影i和電影j的使用者數量
f(vi,vj) 歸一化函數,可以是f(vi,vj) = ci * cj , 其中ci表示在時間段t内,觀看電影i的使用者數量,cj也類似
f函數的歸一化方式可以參考如下論文。
a large-scale study in the orkut social network kdd 2005 ACM
尋找相似電影:
根據電影之間的相似性,以電影為頂點,電影直接愛你的相似性為邊,建構無項有權的圖W。
在圖中可以找電影的相似電影。
首先構造使用者喜歡電影集合S
再根據如下公式找尋推薦集合C1
該計算公式隻考慮與S相似的電影,這樣推薦不夠新穎和多樣性,是以可以進行拓展,按如下公式進行計算
最終候選集如下:
如何對這些候選推薦電影進行排序,可以按如下想法進行;
1 考慮電影的品質
2 考慮使用者的個人愛好
3 考慮多樣性