推薦系統上線後需要有名額來評估系統建設的成效,同時根據名額結果分析推薦系統優化方向。
一、使用者滿意度
可通過問卷調查、使用者行為統計等手段衡量使用者滿意度,其中使用者行為包括轉化率、回報按鈕等等。
二、預測準确度
主要通過離線資料集進行測評,不同的推薦方式有不同的名額值進行評分。
- 評分預測
- 均方根誤差RMSE
- 平均絕對誤差MAE
- TopN推薦
- 一般通過準确率precision/召回率recall
三、覆寫率Coverage
覆寫率代表了長尾挖掘能力,即商品都出現在推薦中,并且次數相似。
- 資訊熵:其中使用的p(i)等于物品i的流行度除以所有物品流行度之和
- 基尼系數Gini index:可用來評測推薦是否具有馬太效應
四、多樣性
物品倆倆之間的不相似性。diversity
五、新穎性
推薦使用者沒見過的物品,推薦結果的平均流行度,越冷門越新穎。
六、驚喜度
與使用者曆史興趣不相似,但卻讓使用者覺得滿意
七、信任度
一般通過問卷調查的方式評測,提高信任度一般使用以下兩個方法:
- 增加推薦系統的透明度transparency,提供推薦解釋
- 利用社交網絡資訊,并用好友進行推薦解釋
八、實時性
部分類型的物料具有強時效性,比如新聞微網誌等等,是以需要推薦系統具有實效性能。
- 需要實時更新推薦清單來滿足環境或使用者行為的變化,可通過推薦清單的變化速率來評測。
- 能夠将新加入系統的物料推薦給使用者,即物品冷啟動的能力,可通過推薦清單中當日新品的比例來評測。
九、健壯性robust
衡量推薦系統抗擊作弊的能力。測量健壯性,一般要注入噪聲資料,觀察推薦清單的變化程度,變化越小證明噪聲的影響越小。提高推薦系統健壯性一般通過如下方法:
- 系統設計時使用代價比較高的使用者行為作為推薦依據,比如購買。
- 使用資料前,進行攻擊檢測,清理作弊資料。
十、商業目标
根據企業的盈利模式設計不同的商業目标。
總結:
- 應在多重次元(使用者、物料、日期等等)下來審視算法的優劣,揚長補短。
- 名額計算最重要的問題是,如何通過優化離線計算來提高線上計算。評測名額的途徑如下:
- 推薦系統應在指定的覆寫率、多樣性、新穎性的限制條件下,盡量優化預測準确度。