spark-MLlib之协同过滤ALS

2017-11-22 16:57:00

协同过滤与推荐

协同过滤是一种根据用户对各种产品的交互与评分来推荐新产品的推荐系统技术。

协同过滤引入的地方就在于它只需要输入一系列用户/产品的交互记录；

无论是显式的交互(例如在购物网站上进行评分)还是隐式的(例如用户访问了一个

产品的页面但是没有对产品评分)交互皆可。仅仅根据这些交互，协同过滤算法就能

够知道哪些产品之间比较相似(因为相同的用户与它们发生了交互)以及哪些用户之间

比较相似，然后就可以做出新的推荐。

交替最小二乘法

MLlib中包含交替最小二乘法(ALS)的一个实现，这是一个协同过滤的常用算法，可以很好的

扩展到集群上。它位于mllib.recommendation.ALS类中。

ALS会为每个用户和产品都设一个特征向量，这样用户向量与产品向量的点积就接近于它们的得分。

它接收下面所列几个参数：

rank

使用的特征向量的大小，更大的特征向量会产生更好的模型，但是也需要话费更大的计算代价，默认10

iterations

要执行的迭代次数，默认10

lamda

正则化参数，默认0.01

alpha

用来在ALS中计算置信度的常量，默认1.0

numUserBlocks, numProductBlocks

切分用户和产品数据的块的数目，用来控制并行度，可以选择传递-1来上MLlib自动决定.

要使用ALS算法，需要有一个由mllib.recommendation.Rating对象组成的RDD，

其中每个包含一个用户id，一个产品id和一个评分。

实现过程中的一个挑战是每个id都需要是一个32位的整数值。

如果id是字符串或者更大的数字，那么可以直接在ALS中使用id的哈希值，

即使有两个用户或者产品映射到同一个Id上，总体结果依然会不错。

还有一种办法是broadcast()一张从产品id到正兴致的表，来付给每个产品独特的id。

ALS返回一个MatrixFactorizationModel对象来表示结果，

可以调用predict()来对一个由(UserId,productId)对组成的RDD进行预测评分。

也可以对使用model.recommendProducts(userId,numProducts)来为一个给定用户找到最值得推荐的前numProduct个产品。

注意，和MLlib中的其他模型不同，MatrixFactorizationModel对象很大，为每个用户和产品都存储了一个向量。

这样我们就不能把它存储到磁盘上，然后在另一个程序中读取回来。

不过，可以把模型中生成的特征向量RDD，也就是model.userFeatures和model.productFeatures保存到分布式文件系统上。

最后，ALS有两个变种：显示评分(默认情况)和隐式反馈(通过调用ALS.trainImplicit()而非ALS.train()来打开)。

用于显式评分时，每个用户对于一个产品的评分需要是一个得分(例如1到5星)，而预测出来的评分也是得分。

而用于隐式反馈时，每个评分代表的是用户会和给定产品发送交互的置信度(比如随着用户访问一个网页次数

的增加，评分也会提高)，预测出来的也是置信度。

spark-MLlib之协同过滤ALS

继续阅读

sparkMlib实现协同过滤算法

推荐系统实战-出租公寓项目4-协同过滤算法推荐协同过滤算法如何使用协同过滤算法优缺点对比

java 推荐算法-协同过滤推荐算法

java+jsp+mysql实现在线租房推荐系统housecfrs 个性化租房推荐系统 SSH（Spring+Struts+Hibernate）开发框架各种协同过滤推荐算法实现java+jsp+mysql实现在线租房推荐系统housecfrs

Surprise：一个Python推荐系统算法库一、基本模块二、实现推荐算法

【CIKM 2021】推荐系统相关论文分类

协同过滤推荐算法代码实现构建数据集相似度计算User-Based CFItem-Based CF

协同过滤相似度

拓端tecdat|python机器学习：推荐系统实现（以矩阵分解来协同过滤）1. 用户和产品的潜在特征2. 编写推荐系统3. 矩阵分解工作原理

推荐系统实践---第二章：利用用户行为数据

推荐引擎中的协同过滤算法原理简介

Factorization Machines 学习笔记（二）模型方程

深度学习推荐系统-笔记08：传统推荐算法发展汇总