MovieLens資料集包含多個使用者對多部電影的評級資料,也包括電影中繼資料資訊和使用者屬性資訊。下載下傳位址為:http://files.grouplens.org/datasets/movielens/
下面以ml-100k資料集為例進行介紹:
最主要用的是u.data(評分) | u.item(電影資訊) | u.user(使用者資訊)
打開資料集如下圖:
![](https://img.laitimes.com/img/_0nNw4CM6IyYiwiM6ICdiwiIyVGduV2QvwVe0lmdhJ3ZvwFM38CXlZHbvN3cpR2Lc1TPB10QGtWUCpEMJ9CXsxWam9CXwADNvwVZ6l2c052bm9CXUJDT1wkNhVzLcRnbvZ2Lc1TPRp1bWdUY4RmblZXUYpVd1kmYr50MZV3YyI2cKJDT29GRjBjUIF2LcRHelR3LcJzLctmch1mclRXY39zMxMTO0ATM2EzMycDM3EDMy8CX0Vmbu4GZzNmLn9Gbi1yZtl2Lc9CX6MHc0RHaiojIsJye.jpg)
各檔案含義如下:
allbut.pl --生成訓練和測試集的腳本,其中除了n個使用者評分之外,所有訓練和測試集都在訓練資料中。
mku.sh --從u.data資料集生成的所有使用者的shell腳本。
u.data -- 由943個使用者對1682個電影的10000條評分組成。每個使用者至少評分20部電影。使用者和電影從1号開始連續編号。資料是随機排序的。
标簽分隔清單:user id | item id | rating | timestamp
u.genre --類型清單。
u.info --u.data資料集中的使用者數,電影數和評分數。
u.item --電影資訊。标簽分隔清單:movie id | movie title | release date | video release date | IMDb URL |
unknown | Action | Adventure | Animation | Children's | Comedy | Crime | Documentary | Drama |
Fantasy | Film-Noir | Horror | Musical | Mystery | Romance | Sci-Fi | Thriller | War | Western
最後19個字段是流派,1表示電影是該類型,0表示不是;電影可以同時使用幾種流派。
電影id和u.data資料集中的id是一緻的。
u.occupation --職業清單。
u.user --使用者的人口統計資訊。标簽分隔清單:user id | age | gender | occupation | zip code
使用者id和u.data資料集中的id是一緻的。
u1.base --資料集u1.base / u1.test到u5.base / u5.test都是将u.data資料集按照80% / 20%的比例分割的訓練集和測試集。
u1.test u1,...,u5有互不相交的測試集;如果是5次交叉驗證,那麼你可以在每個訓練和測試集中重複實驗,平均結果。
u2.base 這些資料集可以通過mku.sh從u.data生成
u2.test
u3.base
u3.test
u4.base
u4.test
u5.base
u5.test
ua.base --資料集ua.base, ua.test, ub.base, ub.test将u.data資料集分為訓練集和測試集,每個使用者在測試集中具有10個評分。
ua.test ua.test和ub.test是不相交的。這些資料集可以通過mku.sh從u.data生成
ub.base
ub.test
對于MovieLens資料集的簡單探索,可以看這篇博文:http://blog.csdn.net/u013527419/article/details/53264741
想下載下傳各個領域的資料集,可以從這裡:
1、https://zhuanlan.zhihu.com/p/25138563
2、http://archive.ics.uci.edu/ml/index.php