天天看點

推薦系統之評測名額

推薦系統上線後需要有名額來評估系統建設的成效,同時根據名額結果分析推薦系統優化方向。

一、使用者滿意度

  可通過問卷調查、使用者行為統計等手段衡量使用者滿意度,其中使用者行為包括轉化率、回報按鈕等等。

二、預測準确度

  主要通過離線資料集進行測評,不同的推薦方式有不同的名額值進行評分。

  • 評分預測
  • 均方根誤差RMSE
  • 平均絕對誤差MAE
  • TopN推薦
  • 一般通過準确率precision/召回率recall

三、覆寫率Coverage

  覆寫率代表了長尾挖掘能力,即商品都出現在推薦中,并且次數相似。

  • 資訊熵:其中使用的p(i)等于物品i的流行度除以所有物品流行度之和
  • 基尼系數Gini index:可用來評測推薦是否具有馬太效應

四、多樣性

  物品倆倆之間的不相似性。diversity

五、新穎性

  推薦使用者沒見過的物品,推薦結果的平均流行度,越冷門越新穎。

六、驚喜度

  與使用者曆史興趣不相似,但卻讓使用者覺得滿意

七、信任度

  一般通過問卷調查的方式評測,提高信任度一般使用以下兩個方法:

  • 增加推薦系統的透明度transparency,提供推薦解釋
  • 利用社交網絡資訊,并用好友進行推薦解釋

八、實時性

  部分類型的物料具有強時效性,比如新聞微網誌等等,是以需要推薦系統具有實效性能。

  • 需要實時更新推薦清單來滿足環境或使用者行為的變化,可通過推薦清單的變化速率來評測。
  • 能夠将新加入系統的物料推薦給使用者,即物品冷啟動的能力,可通過推薦清單中當日新品的比例來評測。

九、健壯性robust

  衡量推薦系統抗擊作弊的能力。測量健壯性,一般要注入噪聲資料,觀察推薦清單的變化程度,變化越小證明噪聲的影響越小。提高推薦系統健壯性一般通過如下方法:

  • 系統設計時使用代價比較高的使用者行為作為推薦依據,比如購買。
  • 使用資料前,進行攻擊檢測,清理作弊資料。

十、商業目标

  根據企業的盈利模式設計不同的商業目标。

總結:

  • 應在多重次元(使用者、物料、日期等等)下來審視算法的優劣,揚長補短。
  • 名額計算最重要的問題是,如何通過優化離線計算來提高線上計算。評測名額的途徑如下:
推薦系統之評測名額
  • 推薦系統應在指定的覆寫率、多樣性、新穎性的限制條件下,盡量優化預測準确度。