天天看點

美國最大點評網站Yelp公開内部資料集,面向學生發起多樣挑戰賽

日前,美國最大的點評網站Yelp公開其内部資料集。據官網介紹,這是一個通用資料集,開放這個資料集的主要目的是幫助學習。

這個資料集是Yelp涵蓋的商戶、點評和使用者資料的一個子集,可以用于個人、教育和學術。現在可以得到這個資料集的JSON和SQL檔案,利用它來教學生關于資料庫的知識,學習NLP,或在學習制作手機APP時作為樣本産品資料。

資料集詳細資訊

資料集包括470萬條使用者評價,15多萬條商戶資訊,20萬張圖檔,12個大都市。此外,還涵蓋110萬使用者的100萬條tips,超過120萬條商家屬性(如營業時間、是否有停車場、是否可預訂和環境等資訊),随着時間推移在每家商戶簽到的總使用者數。

如何使用?

使用者可以使用JSON和SQL資料集。

JSON

能立刻建立和運作 以單獨的檔案形式呈現,你可以任意選擇 在任何應用上都可以使用

JSON資料集中的每一個檔案都由一個單獨的對象類型組成,一行表示一個JSON對象。

下面是一個商家簽到使用者數的執行個體。

在GitHub上還有更多的例子:https://github.com/Yelp/dataset-examples

SQL

與大多數關系資料庫相容 填充表具有引用完整性 隻有一個檔案,容易導入

表格之間的聯系和結構如下圖所示:

關于資料集的挑戰賽

yelp希望更多的學生利用這些資料,在研究中想出創新性方法,他們也提供了目前感興趣的一些主題。

一是圖檔分類。目前他們雖然能識别出圖檔中類似于漢堡之類的食物,但是如何評價一張圖檔是否好看還有待研究。

二是自然語言處理和情感分析。使用者評價資料裡有很多能挖掘的中繼資料,可以用于推斷語義、商戶屬性和情感。他們想知道評價裡表達了什麼,是好評還是差評。

三是圖像挖掘。比如說挖掘出使用者之間的關系是如何限定他們的使用規律,流行趨勢的引導者在一家店火起來之前都是去哪兒吃飯的。

本文作者:Non