天天看點

Movielens資料集詳細介紹

 MovieLens資料集包含多個使用者對多部電影的評級資料,也包括電影中繼資料資訊和使用者屬性資訊。下載下傳位址為:http://files.grouplens.org/datasets/movielens/

下面以ml-100k資料集為例進行介紹:

最主要用的是u.data(評分)  |  u.item(電影資訊)  |  u.user(使用者資訊)

打開資料集如下圖:

Movielens資料集詳細介紹

各檔案含義如下:

allbut.pl   --生成訓練和測試集的腳本,其中除了n個使用者評分之外,所有訓練和測試集都在訓練資料中。

mku.sh    --從u.data資料集生成的所有使用者的shell腳本。

u.data      -- 由943個使用者對1682個電影的10000條評分組成。每個使用者至少評分20部電影。使用者和電影從1号開始連續編号。資料是随機排序的。

                    标簽分隔清單:user id | item id | rating | timestamp

u.genre    --類型清單。

u.info       --u.data資料集中的使用者數,電影數和評分數。

u.item      --電影資訊。标簽分隔清單:movie id | movie title | release date | video release date | IMDb URL | 

                   unknown | Action | Adventure | Animation | Children's | Comedy | Crime | Documentary | Drama | 

                   Fantasy | Film-Noir | Horror | Musical | Mystery | Romance | Sci-Fi | Thriller | War | Western

                   最後19個字段是流派,1表示電影是該類型,0表示不是;電影可以同時使用幾種流派。

                   電影id和u.data資料集中的id是一緻的。

u.occupation    --職業清單。

u.user      --使用者的人口統計資訊。标簽分隔清單:user id | age | gender | occupation | zip code

                  使用者id和u.data資料集中的id是一緻的。

u1.base   --資料集u1.base / u1.test到u5.base / u5.test都是将u.data資料集按照80% / 20%的比例分割的訓練集和測試集。

u1.test      u1,...,u5有互不相交的測試集;如果是5次交叉驗證,那麼你可以在每個訓練和測試集中重複實驗,平均結果。

u2.base     這些資料集可以通過mku.sh從u.data生成

u2.test

u3.base

u3.test

u4.base

u4.test

u5.base

u5.test

ua.base    --資料集ua.base, ua.test, ub.base, ub.test将u.data資料集分為訓練集和測試集,每個使用者在測試集中具有10個評分。

ua.test        ua.test和ub.test是不相交的。這些資料集可以通過mku.sh從u.data生成

ub.base

ub.test

對于MovieLens資料集的簡單探索,可以看這篇博文:http://blog.csdn.net/u013527419/article/details/53264741

想下載下傳各個領域的資料集,可以從這裡:

1、https://zhuanlan.zhihu.com/p/25138563

2、http://archive.ics.uci.edu/ml/index.php

繼續閱讀