各領域公開資料集下載下傳
(轉。參考:https://blog.csdn.net/c2a2o2/article/category/7194279)
使用的資料集
THCHS30是Dong Wang, Xuewei Zhang, Zhiyong Zhang這幾位大神釋出的開放語音資料集,可用于開發中文語音識别系統。
為了感謝這幾位大神,我是跪在電腦前寫的本帖代碼。
下載下傳中文語音資料集(5G+):
$ wget http://data.cslt.org/thchs30/zip/wav.tgz
$ wget http://data.cslt.org/thchs30/zip/doc.tgz
$ wget http://data.cslt.org/thchs30/zip/lm.tgz
解壓
$ tar xvf wav.tgz$ tar xvf doc.tgz$ tar xvf lm.tgz |
在開始之前,先好好檢視一下資料集。
訓練
金融
美國勞工部統計局官方釋出資料
滬深股票除權除息、配股增發全量資料,截止 2016.12.31
上證主機闆日線資料,截止 2017.05.05,原始價、前複權價、後複權價,1260支股票
深證主機闆日線資料,截止 2017.05.05,原始價、前複權價、後複權價,466支股票
深證中小闆日線資料,截止 2017.05.05,原始價、前複權價、後複權價,852支股票
深證創業闆日線資料,截止 2017.05.05,原始價、前複權價、後複權價,636支股票
上證A股日線資料,1999.12.09 至 2016.06.08,前複權,1095支股票
深證A股日線資料,1999.12.09 至 2016.06.08,前複權,1766支股票
深證創業闆日線資料,1999.12.09 至 2016.06.08,前複權,510支股票
MT4平台外彙交易曆史資料
Forex平台外彙交易曆史資料幾組外彙交易逐筆(Ticks)資料
美國股票新聞資料【Kaggle資料】
美國醫療保險市場資料【Kaggle資料】
美國金融客戶投訴資料【Kaggle資料】
Lending Club 網貸違約資料【Kaggle資料】
信用卡欺詐資料【Kaggle 資料】
美國股票資料XBRL【Kaggle資料】
紐約股票交易所資料【Kaggle資料】
貸款違約預測競賽資料【Kaggle競賽】
Zillow 網站房地産價值預測競賽資料【Kaggle競賽】
Sberbank 俄羅斯房地産價值預測競賽資料【Kaggle競賽】
Homesite 保險定價競賽資料【Kaggle競賽】
Winton 股票回報率預測競賽資料【Kaggle競賽】
交通
2013年紐約計程車行駛資料
2013年芝加哥計程車行駛資料
Udacity自動駕駛資料
紐約 Uber 接客資料 【Kaggle資料】
英國車禍資料(2005-2015)【Kaagle資料】
芝加哥汽車超速資料【Kaggle資料】
KITTI 自動駕駛任務資料【資料太大僅有部分】
Cityscapes 場景标注資料【資料太大僅有部分】
德國交通标志識别資料
交通信号識别資料
芝加哥Divvy共享自行車騎行資料(2013年至今)
美國查塔努加市共享單車騎行資料
Capital 共享單車騎行資料
Bay Area 共享單車騎行資料
Nice Ride 共享單車騎行資料
花旗銀行共享單車騎行資料
運用衛星資料跟蹤亞馬遜熱帶雨林中的人類軌迹競賽【Kaggle競賽】
紐約計程車管理委員會官方的乘車資料(2009年-2016年)
商業
Airbnb 開放的民宿資訊和住客評論資料
Amazon 食品評論資料【Kaggle資料】
Amazon 無鎖手機評論資料【Kaggle資料】
美國視訊遊戲銷售和評價資料【Kaggle資料】
Kaggle 各項競賽情況資料【Kaggle資料】
Bosch 生産流水線降低次品率競賽資料【Kaggle競賽】
預測較高價的電梯大廈租金競賽資料
廣告點選預測競賽資料
餐廳營業收入預測模組化競賽
銀行産品推薦競賽資料
網站使用者推薦點選預測競賽資料
線上廣告實時競價資料【Kaggle資料】
購物車商品關聯競賽資料【Kaggle競賽】
Airbnb 新使用者的民宿預定預測競賽資料【Kaggle競賽】
推薦系統
Netflix 電影評價資料
MovieLens 20m 電影推薦資料集
WikiLens
Jester
HetRec2011
Book Crossing
Large Movie Review
Retailrocket 商品評論和推薦資料
醫療健康
人識别物體時大腦核磁共振影像資料
人了解單詞時大腦核磁共振影像資料
心髒病心房圖像及标注資料
細胞病理識别
FIRE 視網膜眼底病變圖像資料
食物營養成分資料 【Kaggle資料】
EGG 大腦電波形狀資料【Kaggle資料】
某人基因序列資料【Kaggle資料】
癌症CT影像資料【Kaggle資料】
軟組織肉瘤CT圖像資料【Kaggle資料】
美國國家健康與服務部-國家癌症研究所發起的癌症資料倉庫介紹【僅有介紹】
Data Science Bowl 2017 肺癌識别競賽資料【資料太大僅有介紹】
TCGA-LUAD 肺癌CT圖像資料
RIDER Lung CT 肺癌CT影像
TCGA-COAD癌症CT影像資料
TCIA-TCGA-OV 癌症CT影像資料
TCIA RIDER NEURO 癌症MRI影像資料
QIN Beast 乳腺癌MRI影像資料
圖像資料
綜合圖像
Visual Genome 圖像資料
Visual7w 圖像資料
COCO 圖像資料
SUFR 圖像資料
ILSVRC 2014 訓練資料(ImageNet的一部分)
PASCAL Visual Object Classes 2012 圖像資料
PASCAL Visual Object Classes 2011 圖像資料
PASCAL Visual Object Classes 2010 圖像資料
80 Million Tiny Image 圖像資料【資料太大僅有介紹】
ImageNet【資料太大僅有介紹】
Google Open Images【資料太大僅有介紹】
場景圖像
Street Scences 圖像資料
Places2 場景圖像資料
UCF Google Street View 圖像資料
SUN 場景圖像資料
The Celebrity in Places 圖像資料
Web标簽圖像
HARRISON 社交标簽圖像
NUS-WIDE 标簽圖像
Visual Synset 标簽圖像
Animals With Attributes 标簽圖像
人形輪廓圖像
MPII Human Shape人體輪廓資料
Biwi Kinect Head Pose 頭部姿勢資料
上半身人像資料
INRIA Person 資料集
視覺文字識别圖像
Street View House Number 門牌号圖像資料
MNIST 手寫數字識别圖像資料
3D MNIST 數字識别圖像資料【Kaggle資料】
MediaTeam Document 文檔影印和内容資料
Text Recognition 文字圖像資料
NIST Handprinted Forms and Characters 手寫英文字元資料
NIST Structured Forms Reference Set of Binary Images(SFRS) 圖像資料
NIST Structured Forms Reference Set of Binary Images(SFRS) II 圖像資料
特定一類事物圖像
著名的貓圖像标注資料
Caltech-UCSDBirds200 鳥類圖像資料
Stanford Car 汽車圖像資料
Cars 汽車圖像資料
MIT Cars 汽車圖像資料
Stanford Cars 汽車圖像資料
Food-101 美食圖像資料
17_Category_Flower圖像資料
102_Category_Flower圖像資料
UCI Folio Leaf 圖像資料
Labeled Fishesin the Wild 魚類圖像
美國 Yelp 點評網站酒店照片
CMU-OxfordSculpture 塑像雕像圖像
Oxford-IIIT Pet 寵物圖像資料
NatureConservancy Fisheries Monitoring 過度捕撈監控圖像資料【Kaggle資料】
材質紋理圖像
CURET 紋理材質圖像資料
ETHZ Synthesizability 紋理圖像資料
KTH-TIPS 紋理材質圖像資料
Describable Textures 紋理圖像資料
物體分類圖像
COIL-20 圖像資料
COIL-100 圖像資料
Caltech-101 圖像資料
Caltech-256 圖像資料
CIFAR-10 圖像資料
CIFAR-100 圖像資料
STL-10 圖像資料
LabelMe_12_50k圖像資料
NORB v1.0 圖像資料
NEC Toy Animal 圖像資料
iCubWorld 圖像分類資料
Multi-class 圖像分類資料
GRAZ 圖像分類資料
人臉圖像
IMDB-WIKI 500k+ 人臉圖像、年齡性别資料
Labeled Faces in the Wild 人臉資料
Extended Yale Face Database B 人臉資料
Bao Face 人臉資料
DC-IGN 論文人臉資料
300 Face in Wild 圖像資料
BioID Face 人臉資料
CMU Frontal Face Images
FDDB_Face Detection Data Set and BenchmarkNIST Mugshot Identification Database
Faces in the Wild 人臉資料
CelebA 名人人臉圖像資料
VGG Face 人臉圖像資料
Caltech 10k Web Faces 人臉圖像資料
姿勢動作圖像
HMDB_a large human motion database
Human Actions and Scenes Dataset
Buffy Stickmen V3 人體輪廓識别圖像資料
Human Pose Evaluator 人體輪廓識别圖像資料
Buffy pose 人類姿勢圖像資料
VGG Human Pose Estimation 姿勢圖像标注資料
指紋識别
NIST FIGS 指紋識别資料
NIST Supplemental Fingerprint Card Data (SFCD) 指紋識别資料
NIST Plain and Rolled Images from Paired Fingerprint Cardsin 500 pixels per inch 指紋識别資料
NIST Plain and Rolled Images from Paired Fingerprint Cards1000 pixels per inch 指紋識别資料
其它圖像資料
Visual Question Answering V1.0 圖像資料
Visual Question Answering V2.0 圖像資料
視訊資料
綜合視訊
DAVIS_Densely Annotated Video Segmentation 資料
YouTube-8M 視訊資料集【資料太大僅有介紹】
YouTube 網站視訊備份【資料太大僅有介紹】
人類動作視訊
Microsoft Research Action 人類動作視訊資料
UCF50 Action Recognition 動作識别資料
UCF101 Action Recognition 動作識别資料
UT-Interaction 人類動作視訊資料
UCF iPhone 運動中傳感器資料
UCF YouTube 人類動作視訊資料
UCF Sport 人類動作視訊資料
UCF-ARG 人類動作視訊資料
HMDB 人類動作視訊
HOLLYWOOD2 人類行為動作視訊資料
Recognition of human actions 動作視訊資料
Motion Capture 動作捕捉視訊資料
SBU Kinect Interaction 肢體動作視訊資料
目标檢測視訊
UCSD Pedestrian 行人視訊資料
Caltech Pedestrian 行人視訊資料
ETH 行人視訊資料
INRIA 行人視訊資料
TudBrussels 行人視訊資料
Daimler 行人視訊資料
ALOV++ 物體追蹤視訊資料
密集人群視訊
Crowd Counting 高密度人群圖像
Crowd Segmentation 高密度人群視訊資料
Tracking in High Density Crowds 高密度人群視訊
其它視訊
Fire Detection 視訊資料
音頻資料
綜合音頻
Google Audioset 音頻資料【資料太大僅有介紹】
語音識别
Sinhala TTS 英語語音識别
TIMIT 美式英語語音識别資料
LibriSpeech ASR corpus 語音資料
Room Impulse Response and Noise 語音資料
ALFFA 非洲語音資料
THUYG-20 維吾爾語語音資料
AMI Corpus 語音識别