天天看點

147 Mahout運作在Hadoop叢集

Hadoop 執行腳本

hadoop jar mahout-examples-0.9-job.jar org.apache.mahout.cf.taste.hadoop.item.RecommenderJob --input /sanbox/movie/10M.txt --output /sanbox/movie/r -s SIMILARITY_LOGLIKELIHOOD
      
  • –input(path) : 存儲使用者偏好資料的目錄,該目錄下可以包含一個或多個存儲使用者偏好資料的文本檔案;
  • –output(path) : 結算結果的輸出目錄
  • –numRecommendations (integer) : 為每個使用者推薦的item數量,預設為10
  • –usersFile (path) : 指定一個包含了一個或多個存儲userID的檔案路徑,僅為該路徑下所有檔案包含的userID做推薦計算 (該選項可選)
  • –itemsFile (path) : 指定一個包含了一個或多個存儲itemID的檔案路徑,僅為該路徑下所有檔案包含的itemID做推薦計算 (該選項可選)
  • –filterFile (path) : 指定一個路徑,該路徑下的檔案包含了[userID,itemID] 值對,userID和itemID用逗号分隔。計算結果将不會為user推薦 [userID,itemID] 值對中包含的item (該選項可選)
  • –booleanData (boolean) : 如果輸入資料不包含偏好數值,則将該參數設定為true,預設為false
  • –maxPrefsPerUser (integer) : 在最後計算推薦結果的階段,針對每一個user使用的偏好資料的最大數量,預設為10
  • –minPrefsPerUser (integer) : 在相似度計算中,忽略所有偏好資料量少于該值的使用者,預設為1
  • –maxSimilaritiesPerItem (integer) : 針對每個item的相似度最大值,預設為100
  • –maxPrefsPerUserInItemSimilarity (integer) : 在item相似度計算階段,針對每個使用者考慮的偏好資料最大數量,預設為1000
  • –similarityClassname (classname) : 向量相似度計算類
  • outputPathForSimilarityMatrix :SimilarityMatrix輸出目錄
  • –randomSeed : 随 機種子 – sequencefileOutput :序列檔案輸出路徑
  • –tempDir (path) : 存儲臨時檔案的目錄,預設為目前使用者的home目錄下的temp目錄
  • –threshold (double) : 忽略相似度低于該閥值的item對

執行結果