协同过滤是利用集体智慧的一个典型方法。要理解什么是协同过滤 (collaborative filtering, 简称 cf),首先想一个简单的问题,如果你现在想看个电影,但你不知道具体看哪部,你会怎么做?大部分的人会问问周围的朋友,看看最近有什么好看的电影推荐,而我们一般更倾向于从口味比较类似的朋友那里得到推荐。这就是协同过滤的核心思想。
协同过滤一般是在海量的用户中发掘出一小部分和你品位比较类似的,在协同过滤中,这些用户成为邻居,然后根据他们喜欢的其他东西组织成一个排序的目录作为推荐给你。当然其中有一个核心的问题:
如何确定一个用户是不是和你有相似的品位?
如何将邻居们的喜好组织成一个排序的目录?
协同过滤相对于集体智慧而言,它从一定程度上保留了个体的特征,就是你的品位偏好,所以它更多可以作为个性化推荐的算法思想。
mahout提供了2个评估推荐器的指标,查准率和召回率(查全率),这两个指标是搜索引擎中经典的度量方法。
相关 不相关
检索到 a c
未检索到 b d
a:检索到的,相关的 (搜到的也想要的)
b:未检索到的,但是相关的 (没搜到,然而实际上想要的)
c:检索到的,但是不相关的 (搜到的但没用的)
d:未检索到的,也不相关的 (没搜到也没用的)
被检索到的越多越好,这是追求“查全率”,即a/(a+b),越大越好。
被检索到的,越相关的越多越好,不相关的越少越好,这是追求“查准率”,即a/(a+c),越大越好。
在大规模数据集合中,这两个指标是相互制约的。当希望索引出更多的数据的时候,查准率就会下降,当希望索引更准确的时候,会索引更少的数据
基于用户的协同过滤,通过不同用户对物品的评分来评测用户之间的相似性,基于用户之间的相似性做出推荐。简单来讲就是:给用户推荐和他兴趣相似的其他用户喜欢的物品。
基于用户的 cf 的基本思想相当简单,基于用户对物品的偏好找到相邻邻居用户,然后将邻居用户喜欢的推荐给当前用户。计算上,就是将一个用户对所有物品的偏好作为一个向量来计算用户之间的相似度,找到 k 邻居后,根据邻居的相似度权重以及他们对物品的偏好,预测当前用户没有偏好的未涉及物品,计算得到一个排序的物品列表作为推荐。下图 给出了一个例子,对于用户 a,根据用户的历史偏好,这里只计算得到一个邻居 - 用户 c,然后将用户 c 喜欢的物品 d 推荐给用户 a。
基于item的协同过滤,通过用户对不同item的评分来评测item之间的相似性,基于item之间的相似性做出推荐。简单来讲就是:给用户推荐和他之前喜欢的物品相似的物品。
基于物品的 cf 的原理和基于用户的 cf 类似,只是在计算邻居时采用物品本身,而不是从用户的角度,即基于用户对物品的偏好找到相似的物品,然后根据用户的历史偏好,推荐相似的物品给他。从计算的角度看,就是将所有用户对某个物品的偏好作为一个向量来计算物品之间的相似度,得到物品的相似物品后,根据用户历史的偏好预测当前用户还没有表示偏好的物品,计算得到一个排序的物品列表作为推荐。下图 给出了一个例子,对于物品 a,根据所有用户的历史偏好,喜欢物品 a 的用户都喜欢物品 c,得出物品 a 和物品 c 比较相似,而用户 c 喜欢物品 a,那么可以推断出用户 c 可能也喜欢物品 c。
基于物品的 cf 的基本原理
对于 user cf,推荐的原则是假设用户会喜欢那些和他有相同喜好的用户喜欢的东西,但如果一个用户没有相同喜好的朋友,那 user cf 的算法的效果就会很差,所以一个用户对的 cf 算法的适应度是和他有多少共同喜好用户成正比的。
item cf 算法也有一个基本假设,就是用户会喜欢和他以前喜欢的东西相似的东西,那么我们可以计算一个用户喜欢的物品的自相似度。一个用户喜欢物品的自相似度大,就说明他喜欢的东西都是比较相似的,也就是说他比较符合 item cf 方法的基本假设,那么他对 item cf 的适应度自然比较好;反之,如果自相似度小,就说明这个用户的喜好习惯并不满足 item cf 方法的基本假设,那么对于这种用户,用 item cf 方法做出好的推荐的可能性非常低。
data.txt内容
<a href="https://www.ibm.com/developerworks/cn/web/1103_zhaoct_recommstudy2/" target="_blank">https://www.ibm.com/developerworks/cn/web/1103_zhaoct_recommstudy2/</a>
<a href="http://blog.csdn.net/zhoubl668/article/details/13297663" target="_blank">http://blog.csdn.net/zhoubl668/article/details/13297663</a>