天天看點

機器學習 資源

(stanford)69g大規模無人機(校園)圖像資料集【stanford】

http://cvgl.stanford.edu/projects/uav_data/

人臉素描資料集【cuhk】

http://mmlab.ie.cuhk.edu.hk/archive/facesketch.html

自然語言推理(文本蘊含标記)資料集【nyu】

https://www.nyu.edu/projects/bowman/multinli/

berkeley圖像分割資料集bsds500【berkeley】

https://www2.eecs.berkeley.edu/research/projects/cs/vision/grouping/resources.html

寵物圖檔(分割)資料集【oxford】

http://www.robots.ox.ac.uk/~vgg/data/pets/

釋出ade20k場景感覺/解析/分割/多目辨別别資料集【mit】

https://groups.csail.mit.edu/vision/datasets/ade20k/

多模态二進制行為資料集【gatech】

http://www.cbi.gatech.edu/mmdb/

計算機視覺/圖像/視訊資料集

fashion-mnist風格服飾圖像資料集【肖涵】

https://github.com/zalandoresearch/fashion-mnist

大型(50萬)logo标志資料集

https://data.vision.ee.ethz.ch/cvl/lld/

4d掃描(60fps移動非剛性物體3d掃描)資料集【d-faust】

http://dfaust.is.tue.mpg.de

基于mnist的視覺計數合成資料集counting mnist

http://fomoro.com/tools/counting-mnist/

youtube mv視訊資料集【keunwoo choi】

https://github.com/keunwoochoi/youtube-music-video-5m

計算機視覺合成資料集/工具大清單【unrealcv】

https://github.com/unrealcv/synthetic-computer-vision

動物屬性标記資料集【christophh. lampert/daniel pucher/johannesdostal】

http://cvml.ist.ac.at/awa2/

日本漫畫資料集manga109

http://dl.acm.org/citation.cfm?doid=3011549.3011551

俯拍舞蹈視訊資料集

http://homepages.inf.ed.ac.uk/rbf/ceilidhdata/

pixiv(着色)圖檔資料集【jerry li】

https://github.com/jerryli27/pixiv_dataset

e-vds視訊資料集

https://engineering.purdue.edu/elab/evds/#download

quick, draw!簡筆畫塗鴉資料集

https://github.com/googlecreativelab/quickdraw-dataset

簡筆畫塗鴉資料集【hardmaru】

https://github.com/hardmaru/sketch-rnn-datasets

服飾人像生成模型(&chictopia10k[humanparsing]時尚人像解析資料集)【christoph lassner/gerard pons-moll/peter v. gehler】

http://files.is.tue.mpg.de/classner/gp/

coco像素級标注資料集

https://github.com/nightrome/cocostuff

大規模街道級圖檔(分割)資料集【peter kontschieder】

http://blog.mapillary.com/product/2017/05/03/mapillary-vistas-dataset.html

大規模日語圖檔描述資料集

https://github.com/stair-lab-cit/stair-captions

cityscapes街景語義分割資料集(50城30類5k細标20k粗标圖檔及标記視訊)

https://github.com/mcordts/cityscapesscripts

(街頭)時尚服飾資料集(2000+标注圖檔)

https://github.com/bearpaw/clothing-co-parsing 

pytorch實作的voc2012資料集pixel-wise目标分割【bodokaiser】

https://github.com/bodokaiser/piwise

twenty billion neurons對象複雜運動與互動視訊資料集【nikita johnson】

https://www.re-work.co/blog/the-something-something-video-dataset 

文本/評價/問答/自然語言資料集

(20萬)英文笑話資料集【taivopungas】

https://github.com/taivop/joke-dataset

機器學習保險行業問答開放資料集【hainwang】

https://github.com/shuzi/insuranceqa

保險行業問答(qa)資料集【minwei feng】

stanford nlp釋出新的多輪、跨域、任務導向對話資料集【mihail eric】

實體/名詞語義關系标記資料集【david s. batista】

https://github.com/davidsbatista/annotated-semantic-relationships-datasets

nlvr:自然語言基礎資料集(對象分組、數量、比較及空間關系推理)

http://lic.nlp.cornell.edu/nlvr/

2.8萬文章/10萬問題大規模(英語考試)閱讀了解資料集

https://github.com/qizhex/race_ar_baselines

錯誤拼寫資料集

http://www.dcs.bbk.ac.uk/~roger/corpora.html

文本簡化資料集

http://www.cs.pomona.edu/~dkauchak/simplification/

英語詞/句/語義架構架構标注資料集framenet

https://framenet.icsi.berkeley.edu/fndrupal/

(又一個)自然語言處理(nlp)資料集清單【nicolas iderhoff】

https://github.com/niderhoff/nlp-datasets 

跨語種/多樣式/多粒度文本相似性檢測資料集

https://github.com/ferrerojeremy/cross-language-dataset

quora資料集:400000行潛在重複問題

http://qim.ec.quoracdn.net/quora_duplicate_questions.tsv

文本分類資料集

http://disi.unitn.it/moschitti/corpora.htm

frames:maluuba對話資料集

https://datasets.maluuba.com/frames/dl

跨域(amazon商品評論)情感資料集

http://www.cs.jhu.edu/~mdredze/datasets/sentiment/

語義網機器學習系統評價/基準資料集集合

http://dws.informatik.uni-mannheim.de/en/research/a-collection-of-benchmark-datasets-for-ml

其它資料集

資料科學/機器學習資料集彙總

https://elitedatascience.com/datasets

core50:連續目辨別别資料集【vincenzolomonaco&davidemaltoni】

https://vlomonaco.github.io/core50/

(matlab)資料集統計分布自動發現【isabel valera】

http://proceedings.mlr.press/v70/valera17a.html

(建築物)損害評估資料集【tsunami】

https://github.com/faiton713/abcddataset

indieweb社交圖譜資料集【indieweb】

http://www.indiemap.org

deepmind開源環境/資料集/代碼集合【deepmind】

https://deepmind.com/research/open-source/

鳥叫聲資料集【xeno-canto】

http://www.xeno-canto.org

wolfram資料集倉庫

https://datarepository.wolframcloud.com

大型音樂分析資料集fma

https://github.com/mdeff/fma

(300萬)instacart線上雜貨購物資料集【jeremy stanley】

https://tech.instacart.com/3-million-instacart-orders-open-sourced-d40d29ead6f2

用于欺詐檢測的合成财務資料集【testimon】

https://www.kaggle.com/ntnu-testimon/paysim1

nsynth:大規模高品質音符标記音頻資料集

https://magenta.tensorflow.org/datasets/nsynth

libsvm格式分類/回歸/多标簽/字元串資料集

https://www.csie.ntu.edu.tw/~cjlin/libsvmtools/datasets/binary.html

筆記本電腦用logistic回歸拟合100g資料集【dmitriyselivanov】

http://dsnotes.com/post/2017-02-07-large-data-feature-hashing-and-online-learning-part-2/

stackexchange近似/重複問題資料集

http://nlp.cis.unimelb.edu.au/resources/cqadupstack/

2010-2017最全kdd cup賽題回顧及資料集

http://suo.im/2kroq1

食譜資料集:帶有評級、營養及類别資訊的超過2萬種食譜【hugodarwood】

https://www.kaggle.com/hugodarwood/epirecipes

奧斯卡資料集【academy of motion picture arts and sciences】

https://www.kaggle.com/theacademy/academy-awards

計算醫療庫:(tensorflow)大型醫療資料集分析與機器學習模組化【akshaybhat】

https://github.com/akshayubhat/computationalhealthcare

聚類資料集

https://cs.joensuu.fi/sipu/datasets/

官方開放氣候資料集

https://pan.baidu.com/s/1i52xarb

全球恐怖襲擊事件資料集【start consortium】

https://www.kaggle.com/start-umd/gtd

七個機器學習時序資料集

https://machinelearningmastery.com/time-series-datasets-for-machine-learning/

大型衆包關系資料庫自然語言查詢語義解析資料集(8萬+查詢樣本)

http://t.cn/rnmr09n

賽馬賠率資料集

http://t.cn/rnf0txn

新的yelp資料集:包含470萬評論和15.6萬商家

http://t.cn/rng6jyi

jmir資料集專刊《jmir data》

http://t.cn/rcihmvs

用于評價監督機器學習算法的基準資料集

https:// github.com/epistasislab/penn-ml-benchmarks

人口普查收入資料集分類

https:// github.com/dformoso/sklearn-classification

日文木版印刷文字識别資料集

http://t.cn/rczpfyb

多模态二進制行為資料集

http://t.cn/rczfn1g

(tensorflow)audioset音頻事件資料集分類模型

github: tensorflow/models/tree/master/audioset

facebook星際争霸遊戲資料集

(torchcraft可讀/365gb/6萬多場次/15億幀畫面/近5億使用者操作)

http://t.cn/r9j8aum

機器學習論文/資料集/工具集錦(日文)

http://t.cn/rkv7x2a

機器學習公司的十大資料搜集政策

http://t.cn/r54rtvd

nlp資料集加載工具集

http://t.cn/raywyxl

日語相似詞資料集

http://t.cn/ravfv35

大規模人本完形填空(多選閱讀了解)資料集

http://t.cn/rac2pey

高品質免費資料集清單

http://t.cn/r6b1aqa

《資料之美》自然語言資料集/代碼

http://t.cn/hbotm4

微軟資料集ms marco,閱讀了解領域的「imagenet」

http://t.cn/rimqgbk

ai2科學問答資料集(多選)

http://t.cn/ri5liwj

常用圖像資料集大全

(分類,跟蹤,分割,檢測等)

1. 搜狗實驗室資料集:

http://www.sogou.com/labs/dl/p.html

網際網路圖檔庫來自sogou圖檔搜尋所索引的部分資料。其中收集了包括人物、動物、建築、機械、風景、運動等類别,總數高達2,836,535張圖檔。對于每張圖檔,資料集中給出了圖檔的原圖、縮略圖、所在網頁以及所在網頁中的相關文本。200多g

2. http://www.imageclef.org/

imageclef緻力于位圖檔相關領域提供一個基準(檢索、分類、标注等等) cross language evaluation forum (clef) 。從2003年開始每年舉行一次比賽.

http://staff.science.uva.nl/~xirong/index.php?n=main.dataset

繼續閱讀