天天看點

人臉識别資料集

聲明:本文為自己看的資料。如有轉載請尊重各位作者的權利,其版權由各位作者本人擁有。

關于資料集下載下傳連結

國内資料:連結:http://pan.baidu.com/s/1i5nyjBn 密碼:26bm

好玩的資料集:連結:http://pan.baidu.com/s/1bSDIEi 密碼:25zr

微軟資料:連結:http://pan.baidu.com/s/1bpmo6uV 密碼:286q

微網誌資料集:連結:http://pan.baidu.com/s/1jHCOwCI 密碼:x58f

遙感影像庫:連結:http://pan.baidu.com/s/1dF63kDr 密碼:7tnh

1990-2016年股票資料:連結:http://pan.baidu.com/s/1i44IQ3N 密碼:o9hj

各大企業電話郵箱創立時間:連結:http://pan.baidu.com/s/1i5PXPCp 密碼:m4mo

98-09年經濟普查:連結:http://pan.baidu.com/s/1o8wbzsu 密碼:a093

各國各産業資産資料:連結:http://pan.baidu.com/s/1jI19qmi 密碼:on7y

1953-2013統計年鑒:連結:http://pan.baidu.com/s/1mh5sHuC 密碼:7ije

2015全國人口普查:連結:http://pan.baidu.com/s/1i5mIj6t 密碼:yad1

facebook大資料:連結:http://pan.baidu.com/s/1jHRb3Wq 密碼:aezb

taiwind資料:連結:http://pan.baidu.com/s/1kV8YKXh 密碼:984g

全球社交媒體:連結:http://pan.baidu.com/s/1qXXAQvU 密碼:c8qc

京東2015自營:連結:http://pan.baidu.com/s/1i56uYFz 密碼:oj4v

維基百科資料:連結:http://pan.baidu.com/s/1c2gMLUw 密碼:4f3b

kaggle競賽資料:連結:http://pan.baidu.com/s/1pLDAx6N 密碼:i10y

生物資料:連結:http://pan.baidu.com/s/1pLLHQwr 密碼:zfjs

nasa資料:連結:http://pan.baidu.com/s/1i50pw49 密碼:aawf

基因組資料:連結:http://pan.baidu.com/s/1pLTPwtP 密碼:vgs8

新聞資料:連結:http://pan.baidu.com/s/1hsHSyzE 密碼:pey9

ImageNet資料:連結:http://pan.baidu.com/s/1bpIcTAn 密碼:tejk

百肚資料:連結:http://pan.baidu.com/s/1hsr4ayg 密碼:k76p

圖像資料:連結:http://pan.baidu.com/s/1jHW1kAa 密碼:qztt

google資料:連結:http://pan.baidu.com/s/1bpsugGn 密碼:8bt4

分類練習資料:連結:http://pan.baidu.com/s/1pLuD3wJ 密碼:4pxf

各大聯賽世界杯資料:連結:http://pan.baidu.com/s/1jIO9TR4 密碼:1v1q

自動駕駛資料:連結:http://pan.baidu.com/s/1miFcv5e 密碼:y7uj

Caltech資料集:

http://www.vision.caltech.edu/Image_Datasets/Caltech101/Caltech101.html

http://www.vision.caltech.edu/Image_Datasets/Caltech256/

ILSVRC曆年資料集:

http://image-net.org/challenges/LSVRC/2016/download-images-8r28.php

http://image-net.org/challenges/LSVRC/2015/download-images-3j16.php

http://image-net.org/challenges/LSVRC/2014/download-images-5jj5.php

http://www.image-net.org/challenges/LSVRC/2013/download-images-rpa

http://www.image-net.org/challenges/LSVRC/2012/nonpub-downloads

http://www.image-net.org/challenges/LSVRC/2011/registered-downloads

http://www.image-net.org/challenges/LSVRC/2010/download-all-nonpub

PascalVOC資料集:

http://host.robots.ox.ac.uk/pascal/VOC/voc2012/VOCtrainval_11-May-2012.tar

http://host.robots.ox.ac.uk/pascal/VOC/voc2007/VOCtrainval_06-Nov-2007.tar

http://host.robots.ox.ac.uk/pascal/VOC/voc2007/VOCtest_06-Nov-2007.tar

轉自http://hi.baidu.com/zgzhaobo/blog/item/5c90e30a876b5d0d95ca6bb8.html

■Annotated Database (Hand, Meat, LV Cardiac, IMM face) (http://www2.imm.dtu.dk/~aam/)

■AR Face Database (http://cobweb.ecn.purdue.edu/~aleix/aleix_face_DB.html)

■BioID Face Database (http://www.bioid.com/downloads/facedb/index.php)

■Caltech Computational Vision Group Archive (Cars, Motorcycles, Airplanes, Faces, Leaves, Background) (http://www.vision.caltech.edu/html-files/archive.html)

■Carnegie Mellon Image Database (motion, stereo, face, car, …) (http://vasc.ri.cmu.edu/idb/)

■CAS-PEAL Face Database (http://www.jdl.ac.cn/peal/index.html)

■CMU Cohn-Kanade AU-Coded Facial Expression Database (http://www.ri.cmu.edu/projects/project_421.html

■CMU Face Detection Databases (http://www.ri.cmu.edu/projects/project_419.html)

■CMU Face Expression Database (http://amp.ece.cmu.edu/projects/FaceAuthentication/download.htm)

■CMU Face Pose, Illumination, and Expression (PIE) Database (http://www.ri.cmu.edu/projects/project_418.html)

■CMU VASC Image Database (motion, road sequences, stereo, CIL’s stereo data with ground truth, JISCT, face, face expressions, car) (http://www.ius.cs.cmu.edu/idb/)

■Content-based Image Retrieval Database (http://www.cs.washington.edu/research/imagedatabase/groundtruth/) 世界各地的地标

■Face Video Database of the Max Planck Institute for Biological Cybernetics (http://vdb.kyb.tuebingen.mpg.de/)

■FERET Database (http://www.frvt.org/)

■FERET Color Database (http://www.itl.nist.gov/iad/humanid/colorferet/home.html http://face.nist.gov/colorferet/ )

■Georgia Tech Face Database (http://www.anefian.com/face_reco.htm)

■German Fingerspelling Database (http://www.anefian.com/face_reco.htm )

■Indian Face Database (http:// www.cs.umass.edu/~vidit/IndianFaceDatabase)

■MIT-CBCL Car Database (http://cbcl.mit.edu/software-datasets/CarData.html)

■MIT-CBCL Face Recognition Database (http://cbcl.mit.edu/software-datasets/heisele/facerecognition-database.html)

■MIT-CBCL Face Databases (http://cbcl.mit.edu/software-datasets/FaceData2.html)

■MIT-CBCL Pedestrian Database (http://cbcl.mit.edu/software-datasets/PedestrianData.html)

■MIT-CBCL Street Scenes Database (http://cbcl.mit.edu/software-datasets/streetscenes/) 世界各地的街景

■NIST/Equinox Visible and Infrared Face Image Database (http://www.equinoxsensors.com/products/HID.html)

■NIST Fingerprint Data at Columbia (Link)

■ORL Database of Faces (http://www.cl.cam.ac.uk/research/dtg/attarchive/facedatabase.html)

■Rutgers Skin Texture Database (http://www.caip.rutgers.edu/rutgers_texture/)

■The Japanese Female Facial Expression (JAFFE) Database (http://www.kasrl.org/jaffe.html

■The Ohio State University SAMPL Image Database (3D, still, motion) (http://sampl.ece.ohio-state.edu/database.htm)

■The University of Oulu Physics-Based Face Database (http://www.ee.oulu.fi/research/imag/color/pbfd.html)

■UMIST Face Database (http://images.ee.umist.ac.uk/danny/database.html)

■USF Range Image Data (with ground truth) (http://marathon.csee.usf.edu/range/DataBase.html)

■Usenix Face Database (hundreds of images, several formats) (Link)

■UCI Machine Learning Repository (http://www1.ics.uci.edu/~mlearn/MLSummary.html)

■USC-SIPI Image Database (collection of digitized images) (http://sipi.usc.edu/services/database/Database.html)

■UCD VALID Database (multimodal for still face, audio, and video) (http://ee.ucd.ie/validdb/)

■UCD Color Face Image (UCFI) Database for Face Detection (http://ee.ucd.ie/~prag/)

■UCL M2VTS Multimodal Face Database (http://www.tele.ucl.ac.be/PROJECTS/M2VTS/m2fdb.html)

■Vision Image Archive at UMass (sequences, stereo, medical, indoor, outlook, road, underwater, aerial, satellite, space and more) (http://sipi.usc.edu/database/)

■Where can I find Lenna and other images? (http://www.faqs.org/faqs/compression-faq/part1/section-30.html)

■Yale Face Database (http://cvc.yale.edu/projects/yalefaces/yalefaces.html)

■Yale Face Database B (http://cvc.yale.edu/projects/yalefaces/yalefaces.html)

目前人臉識别領域常用的人臉資料庫主要有:

  1. FERET人臉資料庫[2]

    由FERET項目建立,包含14,051張多姿态,光照的灰階人臉圖像,是人臉識别領域應用最廣泛

    的人臉資料庫之一.其中的多數人是西方人,每個人所包含的人臉圖像的變化比較單一.

  2. MIT人臉資料庫[4]

    由麻省理工大學媒體實驗室建立,包含16位志願者的2,592張不同姿态,光照和大小的面部圖像.

  3. Yale人臉資料庫[5]

    由耶魯大學計算視覺與控制中心建立,包含15位志願者的165張圖檔,包含光照,表情和姿态

    的變化.

  4. Yale人臉資料庫B[6]

    包含了10個人的5,850幅多姿态,多光照的圖像.其中的姿态和光照變化的圖像都是在嚴格控制

    的條件下采集的,主要用于光照和姿态問題的模組化與分析.由于采集人數較少,該資料庫的進一步應

    用受到了比較大的限制.

  5. PIE人臉資料庫[7]

    由美國卡耐基梅隆大學建立,包含68位志願者的41,368張多姿态,光照和表情的面部圖像.其

    中的姿态和光照變化圖像也是在嚴格控制的條件下采集的,目前已經逐漸成為人臉識别領域的一個重

    要的測試集合.

  6. ORL人臉資料庫[8]

    由劍橋大學AT&T實驗室建立,包含40人共400張面部圖像,部分志願者的圖像包括了姿态,

    表情和面部飾物的變化.該人臉庫在人臉識别研究的早期經常被人們采用,但由于變化模式較少,多

    數系統的識别率均可以達到90%以上,是以進一步利用的價值已經不大.

  7. PF01人臉資料庫[9]

    由南韓浦項科技大學建立,包含103人的1,751張不同光照,姿态,表情的面部圖像,志願者以

    南韓人為主.

  8. AR人臉資料庫[10]

    由西班牙巴塞羅那計算機視覺中心建立,包含116人的3,288幅圖像.采集環境中的錄影機參數,

    光照環境,錄影機距離等都是嚴格控制的.

  9. BANCA人臉資料庫[11]

    該資料庫是歐洲BANCA計劃的一部分,包含了208人,每人12幅不同時間段的面部圖像.

  10. KFDB人臉資料庫[12]

    包含了1,000人,共52,000幅多姿态,多光照,多表情的面部圖像,其中姿态和光照變化的圖像

    是在嚴格控制的條件下采集的.志願者以南韓人為主.

  11. MPI人臉資料庫[13]

    該人臉資料庫包含了200人的頭部3維結構資料和1,400幅多姿态的人臉圖像.

  12. XM2VTS人臉資料庫[14]

    包含了295人在4個不同時間段的圖像和語音視訊片斷.在每個時間段,每人被記錄了2個頭部

    旋轉的視訊片斷和6個語音視訊片斷.此外,其中的293人的3維模型也可得到.

FERET姿态資料庫:FERET人臉庫是著名的人臉識别庫, 姿态庫是其中的子庫. FERET姿态庫共包含 個人的 張圖像, 即每個人有在Yaw方向上的 種不同姿态的圖像. FERET的網址為http://www.itl.nist.gov/iad/humanid/feret/.

CAS-PEAL姿态資料庫: CAS-PEAL人臉資料庫是中科院計算所采集的人臉資料庫, 姿态資料庫為其其中的子庫. CAS-PEAL姿态庫包含 個人的圖像, 在Yaw方向上有 種姿态角度, 在Pitch方向上有 種姿态角度, 即總共21種不同的頭部姿态. CAS-PEAL資料庫的網址為http://www.jdl.ac.cn/peal/index.html.

Pointing Data 資料庫: Pointing Data資料庫包含 個人的圖像, 每個人有 個序列的 張不同姿态時的圖像. 資料庫中的人的皮膚顔色并不相同. 頭部的姿态在水準方向上從正面到全側面的 種姿态, 垂直方向上有 種姿态. 采集人的年齡在20歲到40歲之間. 頭部的位置手工切割得到. Pointing Data資料庫的網址為http://www-prima.inrialpes.fr/Pointing04.

UMIST姿态資料庫: UMIST人臉庫包含 個人的從側面到正面的 張圖像. UMIST姿态資料庫的網址為http://images.ee.umist.ac.uk/danny/database.html.

CMU PIE資料庫: CMU PIE 資料庫由70個人的有13種不同姿态的圖像組成. CMU PIE 資料庫中的圖像同時有光照和表情的變化. CMU PIE資料庫的資訊可以從網頁http://www.ri.cmu. edu/projects/project_418.html查到.

Softopia HOIP資料庫: Softopia HOIP資料庫由2個子庫組成, 每個子庫均包含300個人的圖像, 其中男性和女性的人數均為150人. 第一個子庫包含168個離散的姿态, 在水準方向上有24個姿态, 豎直方向上7個姿态, 姿态間隔均為15度. 第二個資料庫包含511個離散的姿态, 在水準方向上有73個姿态, 姿态間隔為5度, 豎直方向上7個姿态, 姿态間隔為15度. 這個資料庫僅供日本的學術機構使用. Softopia HOIP資料庫的網址為 http://www.softopia.or.jp/rd/facedb.html.

CVRR-86資料庫和CVRR-386資料庫: CVRR-86資料庫包含28個人的3894張圖像. 姿态在水準方向上從 到 和在豎直方向從 到 均間隔15度采集, 經組合後共有86種離散的姿态. 每個人的圖像個數并不固定. CVRR-363資料庫包含10個人的圖像. 姿态在水準方向上從 到 和在豎直方向從 到 均間隔5度采集, 經組合後共有363種離散的姿态. 這兩個資料庫目前并沒有公開, 其相關資訊可以網址http://cvrr.ucsd.edu查到.

FacePix資料庫: FacePix資料庫包含30個人的圖像[116]. 其姿态範圍為水準方向上從-90度到90度, 間隔為1度, 共181個姿态. 該資料中的圖像已經根據手工标注的眼睛位置進行了切割. 此資料庫目前尚未公開.

除了上面提到的一些資料庫, 也有姿态視訊資料庫, 如XM2VTS的姿态序列集合 [117]以及IDIAP資料庫 [62]. 在XM2VTS姿态序列資料庫中, 295名被采集者被要求分别從中心向左、右、上、下旋轉, 然後回到中心. 該姿态序列背景簡單, 并且沒有記錄同步的真實姿态參數. IDIAP資料庫中包含16個人的2種自然活動視訊集合, 一個是會議室場景, 一個是辦公室場景. 雖然該序列同步記錄了姿态資訊, 但是該資料庫資料量相對較小.

作者:貓丸

連結:https://www.zhihu.com/question/27798279/answer/120660978

來源:知乎

著作權歸作者所有。商業轉載請聯系作者獲得授權,非商業轉載請注明出處。

最近把答案中的所有網站收錄到我的小站中了,大家有需要的可以收藏這個,友善查詢。。

http://hippter.com/data.html

————————————

分享下我自己平時收集的…共100多個O_O

網站分析類:

百度指數 - 以百度海量網民行為資料為基礎的資料分享平台

Google趨勢 - 了解 Google中熱度上升的搜尋

360指數 - 基于360搜尋的大資料分享平台

Alexa - 網站排名

Google Analytics - Google出品,可以對目标網站進行通路資料統計和分析

百度統計 - 百度推出的一款免費的專業網站流量分析工具

騰訊雲分析 - 是騰訊資料雲,騰訊大資料戰略的核心産品

移動應用分析類:

友盟指數 - 以友盟海量資料為基礎的觀察移動網際網路行業趨勢的資料平台

移動觀象台 - 20億獨立智能裝置為依據,提供應用排行榜

ASOU趨勢 - 每日跟蹤超過 100萬款應用,分析超過6億條資料

蟬大師 - App資料分析與ASO優化專家,應用與遊戲推廣平台

百度移動統計 - 基于移動APP統計的分析工具

QuestMobile - 國内知名的移動大資料服務提供商

應用雷達 - 專業的APP排行曆史跟蹤軟體實時榜單排名分析

Appannie - 移動應用和數字内容時代資料分析和市場資料的行業上司者

CQASO - 國内最專業的APP資料分析平台

媒體傳播類:

微網誌指數

優酷指數

微票兒票房分析

BOM票房資料

愛奇藝指數

數說傳播

百度風雲榜

微網誌風雲榜

愛奇藝風雲榜

豆瓣電影排行榜

新媒體排行榜

品牌微信排行榜

清博指數

易贊 - 公衆号畫像

電商資料類:

阿裡價格指數

淘寶魔方

京東智圈

淘寶排行榜

投資資料類:

Crunchbase - 一個免費的科技公司、技術行業知名人物和投資者相關資訊的資料庫

清科投資界 - 風險投資,私募股權,創業者相關投資,私募,并購,上市的研究

IT桔子 - 關注TMT領域創業與投資的資料庫

創投庫 - 提供最全的投資公司資訊

Angel - 美國創業項目大全

Next - 36kr子站,每天更新新産品介紹

Beta List - 介紹初創公司

金融資料類:

積木盒子 - 全線上網絡借貸資訊中介平台

網貸中心 - 告網貸行業危機,公正透明地披露網貸平台資料

網貸之家 - P2P網貸平台排名

網貸資料 - 網貸天下 - 行業過去30天詳細交易資料,網貸天下統計、釋出,每天6點更新

中國P2P網貸指數

零壹資料-專業網際網路金融資料中心

大公金融資料

全球股票指數

愛股說-基金經理分析找股平台

私募基金管理人綜合查詢

中财網資料引擎

遊戲資料:

百度網遊風雲榜

360手機遊戲排行榜

360手遊指數

CGWR排行榜

App Annie遊戲指數

小米應用商店遊戲排名

TalkingData遊戲指數

遊戲玩家排名&賽事資料

國家社會資料:

中國綜合社會調查

中國人口普查資料

中國國家資料中心

中國家庭收入項目

中國健康和營養調查

中國統計資料

全國企業資訊查詢

北京宏觀經濟資料庫

中國金融資訊網

其它資料:

螞蟻金服研究院 - 網消指數&互金指數

二手市場行情

中國網絡騙子地圖

春運遷徙地圖

房價指數

中國城市擁堵指數

百度研究院PC平台

百度城市熱力圖

資料分析機構:

艾瑞iResearch

艾媒iimedia

易觀國際

企鵝智酷_騰訊網

手遊那點 - 全事球網際網路市場研究

dataeye - 專注于泛娛樂領域的大資料分析和挖掘

Accenture(埃森哲)

Analysys

Asymco

Canalys

CTR

CNNIC

CB Insights

Deloitte(德勤)

Digi-Capita

Forrester(弗雷斯特)

Gartner(高德納)

GfK(捷孚凱)

IDC(國際資料)

KPCB(凱鵬華盈)

MMD研究所

Nielsen(尼爾森)

NPD(恩帛源)

Ofcom

Piper Jaffray & Co

Strategy Analytics

UBS(瑞銀)

pewresearchcenter

不知道題主關注的是哪些領域,其它知友提供了非常棒的回答。考慮到他們的分享以國内資料源為主,我來補充一些國外資料源。

美國管理協會( AMA)旗下雜志《Marketing News》每年會釋出一份Gold Top 50(原為Honomichl Top 50)榜單,列舉過去一年美國營收排名前50的市場研究公司。上榜的公司就是非常好的資料來源。

2016年釋出的Gold Top 50榜單,前10名資料公司及其官網分别為:

Nielsen(What People Watch, Listen To and Buy)

IMS Health(Creating Connected Solutions for Better Healthcare Performance)

Kantar(Research, data and insight consultancy)

IRI(IRI - Delivering Growth for CPG, Retail, and Healthcare)

Ipsos(Global market and opinion research specialists)

Westat(Westat.com |)

Gfk(Market research and user experience research experts)

comScore(Precisely Everywhere)

NPD(NPD Group - Market Research)

JD Power(A Global Market Research Company)

作者:企鵝智酷

連結:https://www.zhihu.com/question/27798279/answer/120633176

來源:知乎

著作權歸作者所有。商業轉載請聯系作者獲得授權,非商業轉載請注明出處。

剩餘機構及其網站,請檢視下列詳細清單:

摘取常見的幾家機構,介紹下它們的資料類型:

Nielsen:全球性的市場研究公司,它的調研集中在快消、汽車、電信等領域,資料涉及消費者偏好、購買行為等多項内容,有時還會提供具有代表性的案例研究。

Kantar:同樣是一家綜合性的市場研究公司,研究覆寫快消、健康、品牌、金融等領域,資料涉及産品的使用者喜好、品牌認知度等内容。Kantar對公衆比較開放,網站上的資料和分析可以免費檢視。

comScore:一家在教育、能源、醫療領域均有研究的市場分析公司,但最擅長的領域還是媒體營銷。comScore的資料通常涉及網站流量、流媒體視訊消費、使用者購買行為等,對美國本土市場的研究很深入。過去幾年,comScore以每年一期的節奏釋出美國應用市場報告,分析當年應用市場的現狀和未來趨勢。今年移動市場表現出非常明顯的衰落迹象,comScore兩年前就發現了。

NPD:綜合性市場研究公司。NPD每年通路超過1200萬顧客,服務範圍覆寫服裝、電氣、汽車、消費電子、體育等多個領域。它能夠提供産品銷量預測、使用者行為等資料。

除了Gold Top 50,再補充一些常用資料源,以科技、網際網路為主:

科技IT資料來源

IDC(IDC: The premier global market intelligence firm.)

Gartner(Technology Research):

兩家公司在IT、電信、消費電子、應用軟體領域有很深積累,每年都會釋出全球市場智能手機、平闆電腦、PC出貨量,經常關注科技資訊的知友對它們應該很熟悉。

其實除了科技産業,IDC和Gartner還會定期公開能源、健康、制造等的調研資料。進行相關領域研究時,可以将它們的資料作為一項參考。

上市公司資料來源:

  1. 美股:

    納斯達克(NASDAQ Stock Market)

    紐交所(https://www.nyse.com/index)

    SEC(SEC.gov | Home)

  2. 港股:

    香港聯交所(HKEX)

  3. A股:

    上交所(上海證券交易所)

    深交所(深圳證券交易所)

    證監會(http://www.csrc.gov.cn/)

研究上市公司的人員結構、業務構成,财報是常用手段。以一定時間跨度分析一家公司的财報,比單純看某個季度更有價值。美股财報可以通路納斯達克、紐交所或SEC的網站擷取,港股财報可以通路香港聯交所網站擷取,A股财報可以通路上交所、深交所或證監會網站擷取。

媒體與營銷資料來源:

  1. 皮尤(Pew Research Center)

獨立民調機構,調查範圍覆寫政治、社會趨勢、宗教,媒體新聞、科技網際網路,調查報告和資料可以免費檢視。皮尤具有非常現代化的網頁設計,體驗好過大多數調研機構網站。

  1. VidStatsX(YouTube Stats, YouTube Statistics)

第三方YouTube統計平台,可以提供不同頻道的訂閱數、排名、視訊觀看量等資料。VidStatsX資料的時間跨度很大,時效性也很強,可以觀察一些爆款視訊的資料變化。

移動應用資料來源

App Annie(https://www.appannie.com/dashboard/home/)

App Annie可以提供一款應用在不同應用商店中的日排名,曆史排名以及在不同國家的評級資料。使用者也可以檢視更詳細的下載下傳、收入預估等資料,但這些都需要付費訂閱。

編輯于 2016-09-05

1.1K47 條評論

分享

收藏感謝收起

mwcc

mwcc

啦啦啦

62 人贊同了該回答

簡單浏覽幾個答案竟然沒有人提到Data | The World Bank。

強烈推薦Data | The World Bank,去年做一些case的時候查資料用了很多很多次。

然後這個好像是Google的一個資料,Freebase

其實你想要不付費得到高品質的有時效性的社會經濟資料蠻難的,個人經驗以前做過的地方會有時候像去尼爾森等等機構買資料還是一筆很大的開銷的。

對了還有這個地方我覺得蠻有趣的定期回去看,NIFTY - Weekly Visualization,這是斯坦福做的一個資料可視化的項目,我了解他是做一寫text clustering或者topic model去檢測每一天或者一段時間的news article的topic變化。

釋出于 2015-02-09

62添加評論

分享

收藏感謝

陳誠

陳誠

降服其心

33 人贊同了該回答

浏覽了一下,看到還沒有人提到Kaggle的datasets:Datasets | Kaggle。

Kaggle是給資料分析和模組化的競賽平台,他們現在也有提供一些開放的資料集來讓大家使用,比如:

歐洲足球的資料庫,NBA資料

2016年美國大選的資料(也有希拉裡郵件)

IMDB電影資料,

一些公司的資料(Uber,Twitter ,Lending Club, Reddit)等。

而且還有很詳細的資料描述:

不僅如此,他們還做了一個社群,就是對這些資料集有使用經驗的人可以在一起交流,提出問題,用資料回答問題。

點選進去可以看到别人完整的分享和資料使用流程,對于學習來說非常有用。

用這些資料源+自身的練習+和别人思路技法上的切磋交流,可以進步很大。