学习笔记(03):推荐系统核心精讲-推荐系统离线评估

2023-07-15 16:16:42

立即学习:https://edu.csdn.net/course/play/26133/323852?utm_source=blogtoedu

推荐系统离线评估

1.什么是离线评估？

离线评估在推荐算法全生命周期评估中的作用与位置，如图所示：

学习笔记(03):推荐系统核心精讲-推荐系统离线评估

离线评估是整个推荐系统评估的第一个环节，它处于算法模型训练和模型上线提供服务之间，也就是说，模型训练好之后，通过离线评估来选择一个比较好的模型，来作为上线服务的模型。

总的来说，离线评估是在推荐算法模型开发与选型的过程中对推荐算法模型做评估，通过评估具体指标来选择合适的推荐算法，将算法部署上线为用户提供服务。

推荐算法作为机器学习的一个算法，它的流程和一般的机器学习流程类似，如下图所示：

学习笔记(03):推荐系统核心精讲-推荐系统离线评估

离线评估通常发生在第二个阶段，即预测阶段。

2.离线评估的目的

推荐系统评估的目的就是从精确度、惊喜度、多样性等维度来评估出推荐系统的实际效果及表现，从中发现可能的优化点，通过优化推荐系统，期望更好地满足用户的诉求，为用户提供更优质的推荐服务，同时通过推荐获取更多的商业利益。

3.常用的评估指标

（1）均方根误差（RMSE）和平均绝对误差（MAE）

要求用户对物品有真实的打分，但在实际中，用户对物品打分较少，故在推荐业务上应用较少。

学习笔记(03):推荐系统核心精讲-推荐系统离线评估

（2）准确率、召回率

精确度：Pu

召回率：Ru

一般来说精确率和召回率不可能同时很差或者同时很优，它们是相对立的。在推荐过程中，我们一般希望这两者效果都好，因此用到F1指标（调和平均数）来权衡。

下图第一行是单个用户的精确度和召回率的计算；第二行是所有用户的精确度和召回率的计算。

学习笔记(03):推荐系统核心精讲-推荐系统离线评估

（3）其他指标

---覆盖率：推荐的物品能够覆盖总物品的比例

---多样性：给用户推荐多类物品，满足用户多样性的兴趣偏好

---惊喜度：让用户有耳目一新的感觉，无意中给用户带来惊喜

---新颖性：推荐用户之前没有了解过的物品

继续阅读