spark 1.6 MLlib 协同过滤

2023-06-19 15:07:16

简单介绍

spark的协同过滤的矩阵分解采用ALS来计算，具体实现了算法以下参数

- numBlocks：数据划分为多少block进行并行计算，设置成-1时为自动配置

- rank：模型的潜在因子（主特征数目）

- iterations：模型运行迭代次数

- lambda：ALS的规则化参数

- implicitPrefs：是采用显式评分方式还是隐式反馈数据，即是用户打分，还是用户访问等隐式分数

- alpha：采用隐式打分方式的置信度权重值

样例

import org.apache.spark.mllib.recommendation.Rating
定义了评分的数据类型，里面有三个属性，分别是：
product int
user int
rating double

进行电影协同过滤的代码样例

import org.apache.spark.sql.SQLContext
import org.apache.spark.{SparkConf, SparkContext}
import org.apache.spark.ml.recommendation.ALS
import org.apache.spark.mllib.recommendation.Rating

val rawdata = sc.textFile("D:\\ml-100k\\u.data")
    val raw_table = rawdata.map(_.split("\t")).map(x=>Rating(x().toInt,x().toInt,x().toDouble)).toDF
    val model = new ALS()
      .setRank() //主要因子个数
      .setRegParam()  //规则化参数lambda
       .setMaxIter()  // 最大迭代次数
       .setItemCol("product")
       .setUserCol("user")
       .setRatingCol("rating")
    val alsmodel = model.fit(raw_table)
    val predict = alsmodel.transform(raw_table)
    //给用户234进行前五的产品推荐
    val recomm = predict.where("user=234").orderBy($"prediction".desc).show()

进行模型评估

均方差：显示评分评估
K值平均准确率：隐式评分评估，给用户做推荐的前K个商品的与实际用户购买的前K个的准确度

import org.apache.spark.ml.evaluation.RegressionEvaluator
// 回归输出结果评估
    val predictval = new RegressionEvaluator()
      .setLabelCol("rating")
      .setPredictionCol("prediction")
      .setMetricName("mse")//mse评估，还有rmse、r2、mae
    predictval.evaluate(predict)

spark 1.6 MLlib 协同过滤

简单介绍

样例

进行模型评估

继续阅读

CQ V1.0分词bates(基于双数组tire树)—应该是目前最快的中文分词算法

Command Network(POJ 3164)---定根最小树形图模板题题目描述输入格式输出格式输入样例输出样例分析源程序

开源低带宽语音编解码器

241 Different Ways to Add Parentheses（C代码版）

【趋高机器视觉】机器视觉技术原理解析及解决方案

CSMA/CD1． CSMA/CD的概述2． CSMA 的工作原理3． CSMA/CD控制规程及特点4． CSMA/CD协议5． CSMA/CD的优点6．结束语

极大似然法(ML)与最大期望法(EM)

大数据排错SparkSpark集群启动时候，JAVA_HOME is not sethadoop集群，某台服务器jps无任何输出IDEAkafkahadoopspark sqlfile permissionsIDEA本地测试 - OutOfMemoryError: GC overhead limit exceededhdfs负载均衡

C++ 第十五周报告1--《冒泡法排序》

笔试面试题目：滑动窗口(二)

数据结构与算法（27）——排序（二）

Dijkstra--简易版（最短路径）

GitHub连夜封杀！这份阿里 10W 字内部 Java 字面试手册到底有多强？

spark/scala关于【资源文件】加载方法概述外部文件加载方案测试资源文件打包入jar包中小结

详解STM32单片机的堆栈

hdu7108哈希