147 Mahout运行在Hadoop集群

2021-07-07 10:54:58

Hadoop 执行脚本

hadoop jar mahout-examples-0.9-job.jar org.apache.mahout.cf.taste.hadoop.item.RecommenderJob --input /sanbox/movie/10M.txt --output /sanbox/movie/r -s SIMILARITY_LOGLIKELIHOOD

–input(path) : 存储用户偏好数据的目录，该目录下可以包含一个或多个存储用户偏好数据的文本文件；
–output(path) : 结算结果的输出目录
–numRecommendations (integer) : 为每个用户推荐的item数量，默认为10
–usersFile (path) : 指定一个包含了一个或多个存储userID的文件路径，仅为该路径下所有文件包含的userID做推荐计算 (该选项可选)
–itemsFile (path) : 指定一个包含了一个或多个存储itemID的文件路径，仅为该路径下所有文件包含的itemID做推荐计算 (该选项可选)
–filterFile (path) : 指定一个路径，该路径下的文件包含了[userID,itemID] 值对，userID和itemID用逗号分隔。计算结果将不会为user推荐 [userID,itemID] 值对中包含的item (该选项可选)
–booleanData (boolean) : 如果输入数据不包含偏好数值，则将该参数设置为true，默认为false
–maxPrefsPerUser (integer) : 在最后计算推荐结果的阶段，针对每一个user使用的偏好数据的最大数量，默认为10
–minPrefsPerUser (integer) : 在相似度计算中，忽略所有偏好数据量少于该值的用户，默认为1
–maxSimilaritiesPerItem (integer) : 针对每个item的相似度最大值，默认为100
–maxPrefsPerUserInItemSimilarity (integer) : 在item相似度计算阶段，针对每个用户考虑的偏好数据最大数量，默认为1000
–similarityClassname (classname) : 向量相似度计算类
outputPathForSimilarityMatrix ：SimilarityMatrix输出目录
–randomSeed ：随机种子 – sequencefileOutput ：序列文件输出路径
–tempDir (path) : 存储临时文件的目录，默认为当前用户的home目录下的temp目录
–threshold (double) : 忽略相似度低于该阀值的item对

147 Mahout运行在Hadoop集群

Hadoop 执行脚本

执行结果

继续阅读

46 Hive与传统数据库对比

47 Hive的数据存储

49 Hive修改表

51 Hive的Load操作

52 Hive的Insert操作

53 Hive的SELECT操作

54 Hive的Join操作

55 Hive Shell参数

56 Hive自定义函数和Transform

57 Hive案例（数据ETL）

59 Hive案例（级联求和）

58 Hive案例（访问时长统计）

71 Azkaban HIVE脚本任务

04 Hadoop生态圈以及各组成部分的简介

66 Azkaban安装部署