在推薦系統中,主要有3種評測推薦系統的方法。即離線實驗(offline experiment),使用者調查(user study),線上實驗(online experiment)。
1.離線實驗
離線實驗一般由如下幾個步驟組成:
(1)通過日志系統獲得使用者的行為資料,并按照一定格式生成一個标準的資料集。
(2)将資料集按照一定的規則分成訓練集和測試集。
(3)在訓練集上訓練使用者興趣模型,在測試集上進行預測
(4)通過事先定義好的離線名額評測算法在測試集上測試結果
優點 | 缺點 |
不需要有對實際系統的控制權 不需要使用者參與實驗 速度快,可以測試大量算法 | 無法計算商業上關心的名額 離線實驗的名額和商業名額存在差距 |
2.使用者調查
3.線上實驗(AB測試)
評測名額
1.使用者滿意度
(1)問卷
(2)可以通過點選率、使用者停留的時間和轉化率等名額度量使用者的滿意度
2.預測準确度
(1)評分預測
RMSE(均方根誤差)
MAE(平均絕對誤差)
比較使用者的實際評分,和預測評分
(2)TopN推薦
一般通過準确率(precision)/召回率(recall)度量
(3)覆寫率
描述的是對長尾的挖掘能力。
(4) 多樣性
(5)新穎性
(6)驚喜度(serendipity):可以了解為與使用者的曆史興趣并不同,但卻讓使用者滿意,那麼就說驚喜度很高.
(7)信任度
(8)實時性
(9)健壯性
(10)商業目标
評測次元
使用者次元
物品次元
時間次元