147 Mahout運作在Hadoop叢集

2021-07-07 10:54:58

Hadoop 執行腳本

hadoop jar mahout-examples-0.9-job.jar org.apache.mahout.cf.taste.hadoop.item.RecommenderJob --input /sanbox/movie/10M.txt --output /sanbox/movie/r -s SIMILARITY_LOGLIKELIHOOD

–input(path) : 存儲使用者偏好資料的目錄，該目錄下可以包含一個或多個存儲使用者偏好資料的文本檔案；
–output(path) : 結算結果的輸出目錄
–numRecommendations (integer) : 為每個使用者推薦的item數量，預設為10
–usersFile (path) : 指定一個包含了一個或多個存儲userID的檔案路徑，僅為該路徑下所有檔案包含的userID做推薦計算 (該選項可選)
–itemsFile (path) : 指定一個包含了一個或多個存儲itemID的檔案路徑，僅為該路徑下所有檔案包含的itemID做推薦計算 (該選項可選)
–filterFile (path) : 指定一個路徑，該路徑下的檔案包含了[userID,itemID] 值對，userID和itemID用逗号分隔。計算結果将不會為user推薦 [userID,itemID] 值對中包含的item (該選項可選)
–booleanData (boolean) : 如果輸入資料不包含偏好數值，則将該參數設定為true，預設為false
–maxPrefsPerUser (integer) : 在最後計算推薦結果的階段，針對每一個user使用的偏好資料的最大數量，預設為10
–minPrefsPerUser (integer) : 在相似度計算中，忽略所有偏好資料量少于該值的使用者，預設為1
–maxSimilaritiesPerItem (integer) : 針對每個item的相似度最大值，預設為100
–maxPrefsPerUserInItemSimilarity (integer) : 在item相似度計算階段，針對每個使用者考慮的偏好資料最大數量，預設為1000
–similarityClassname (classname) : 向量相似度計算類
outputPathForSimilarityMatrix ：SimilarityMatrix輸出目錄
–randomSeed ：随機種子 – sequencefileOutput ：序列檔案輸出路徑
–tempDir (path) : 存儲臨時檔案的目錄，預設為目前使用者的home目錄下的temp目錄
–threshold (double) : 忽略相似度低于該閥值的item對

147 Mahout運作在Hadoop叢集

Hadoop 執行腳本

執行結果

繼續閱讀

46 Hive與傳統資料庫對比

47 Hive的資料存儲

49 Hive修改表

51 Hive的Load操作

52 Hive的Insert操作

53 Hive的SELECT操作

54 Hive的Join操作

55 Hive Shell參數

56 Hive自定義函數和Transform

57 Hive案例（資料ETL）

59 Hive案例（級聯求和）

58 Hive案例（通路時長統計）

71 Azkaban HIVE腳本任務

04 Hadoop生态圈以及各組成部分的簡介

66 Azkaban安裝部署