機器學習模型開發必讀：開源資料庫最全盤點

開發 ai 和機器學習系統從來沒有像現在這樣友善。類似于 tensorflow、torch 和 spark 這樣的開源工具，在 ai 開發者群體中已是無處不在。再加上亞馬遜 aws、google cloud 等雲服務帶來的海量計算能力，将來使用筆記本電腦來訓練 ml 模型或許不再難以想象。

公衆對 ai 的遐想，總忽視了資料的角色。但海量被标記、注解過的資料，是當下 ai 革命當之無愧的主要推手之一。業内研究團隊和公司機構，均明白“資料民主化”的意義——使任何開發者都能擷取高品質的資料來訓練、測試模型，是加速 ai 技術發展的必要措施。

但就雷鋒網所知，大多數涉及機器學習和 ai 的産品依賴于專有資料庫（ proprietary datasets）。它們大多是不被公開的，以保護知識産權以及防範安全風險。

即便你幸運地找到了相關公共資料庫，判斷後者的價值和可靠程度，又是一項讓很多開發者頭痛的問題。對于概念論證是如此；對于潛在的産品或者特性驗證同樣如此——在收集你的專有資料之前，決定該驗證需要何種資料集。

有經驗的開發者都知道，機器學習系統在樣本資料集上展示出的優異性能，并不能保證其實際效果。許多 ai 從業人員似乎已經忘記了，資料采集和标記才是開發 ai 解決方案最難的一環。标準的資料集，可被用作驗證集，或作為開發更偏向私人訂制方案的起始點。

本周，vai technologies 的創始人、前斯坦福 slac 實驗室 cnn 算法架構師 luke de oliveira，和其他幾名機器學習專家談到了這個問題。雷鋒網(公衆号：雷鋒網)了解到，他們最後決定做一張表單，把 ai 領域含金量最高的開源資料庫羅列出來，與大家分享。

标簽：學術基準經典較舊

合理性測試（sanity check）最常用的資料庫。規格為 25x25、中心的、b&w 手寫數字。用 mnist 測試非常容易，但不要因為你的模型在 mnist 運作良好，就認為它事實上可用。

位址：https://pjreddie.com/projects/mnist-in-csv/

标簽：經典較舊

32x32 彩色圖像。雖然用得人比以前少了很多，但仍然能用它做有趣的合理性測試。

位址：https://www.cs.toronto.edu/~kriz/cifar.html

标簽：實用學術基準經典

這個用不着介紹，新算法的首選圖像資料集。luke de oliveira 表示，許多圖像 api 公司從 rest 互動界面搞來的标記，與 imagenet 1000 目錄中的 wordnet 層級很接近，讓人懷疑。

位址：http://image-net.org/

标簽：無

場景了解，許多其它附加任務（比如房間布局預估，顯着性預測 “saliency prediction”），以及與之關聯的競賽。

位址：http://lsun.cs.princeton.edu/2016/

pascal voc

标簽：學術基準

一般性的圖像分割和分類。對于建立現實世界中的圖像注解并不是十分有用，但作為基準很不錯。

位址：http://host.robots.ox.ac.uk/pascal/voc/

谷歌街景視圖中的住宅号。可以把它當做野生的遞歸（ recurrent） mnist。

位址：http://ufldl.stanford.edu/housenumbers/

一般性的圖像了解/說明，有相關競賽。

位址：http://mscoco.org/

标簽：實用

非常細緻的視覺知識庫，對超過十萬張圖像有深度注解。

位址：http://visualgenome.org/

labeled faces in the wild

标簽：實用學術基準經典較舊

修剪過的面部區域（使用 viola-jones），用一個 name identifier 做過标記。其中每一個展示的人在資料集中有兩個圖像，這是作為他的子集。開發者經常用它來訓練面部比對系統。

位址：http://vis-www.cs.umass.edu/lfw/

标簽：實用學術基準

位址：https://drive.google.com/drive/u/0/folders/0bz8a_dbh9qhbfll6bvpmnutucfdjymf2sepmzuzucvnimuw1twn6rdv3a0jht3kxlvhvr2m

源自高品質維基百科文章的大型語言模組化語料庫。salesforce metamind 維護。

位址：http://metamind.io/research/the-wikitext-long-term-dependency-language-modeling-dataset/

quora 釋出的第一個資料集，包含副本/語義近似值标記。

位址：https://data.quora.com/first-quora-dataset-release-question-pairs

squad

斯坦福的問答社群資料集——适用範圍較廣的問題回答和閱讀了解資料集。每一個回答都被作為一個 span，或者一段文本。

位址：https://rajpurkar.github.io/squad-explorer/

人工建立的仿真陳述問題/回答組合，還有維基百科文章的難度評分。

位址：http://www.cs.cmu.edu/~ark/qa-data/

maluuba datasets

為 nlp 研究人工建立的複雜資料集。

位址：https://datasets.maluuba.com/

大型、通用型模組化資料集。時常用來訓練散布音（distributed）的詞語表達，比如 word2vec 或 glove。

位址：http://www.statmt.org/lm-benchmark/

pb（拍位元組）級别的網絡爬蟲。最經常被用來學習詞語嵌入。可從 amazon s3 免費擷取。對于 www 網際網路的資訊采集，是一個比較有用的網絡資料集。

位址：http://commoncrawl.org/the-data/

标簽：學術基準經典

facebook ai research (fair) 推出的合成閱讀了解和問題回答資料集。

位址：https://research.fb.com/projects/babi/

the children's book test

project gutenberg（一項正版數字圖書免費分享工程）兒童圖書裡提取的成對資料（問題加情境，回答）基準。對問答、閱讀了解、仿真陳述（factoid）查詢比較有用。

stanford sentiment treebank

标準的情緒資料集，對每一句話每一個節點的文法樹，都有細緻的情感注解。

位址：http://nlp.stanford.edu/sentiment/code.html

一個較經典的文本分類資料集。通常作為純粹分類或者對 ir / indexing 算法驗證的基準，在這方面比較有用。

位址：http://qwone.com/~jason/20newsgroups/

較老的、基于純粹分類的資料集。文本來自于路透社新聞專線。常被用于教程之中。

位址：https://archive.ics.uci.edu/ml/datasets/reuters-21578+text+categorization+collection

imdb

較老的、相對比較小的資料集。用于情緒分類。但在文學基準方面逐漸失寵，讓位于更大的資料集。

位址：http://ai.stanford.edu/~amaas/data/sentiment/

uci’s spambase

較老的、經典垃圾郵件資料集，源自于 uci machine learning repository。由于資料集的管理細節，在學習私人訂制垃圾資訊過濾方面，這會是一個有趣的基準。

位址：https://archive.ics.uci.edu/ml/datasets/spambase

大多數語音識别資料庫都是專有的——這些資料對其所有公司而言有巨大價值。絕大部分該領域的公共資料集已經很老了。

2000 hub5 english

标簽：學術基準較舊

隻包含英語的語音資料。最近一次被使用是百度的深度語音論文。

位址：https://catalog.ldc.upenn.edu/ldc2002t43

有聲圖書資料集，包含文字和語音。接近 500 個小時的清楚語音，來自于多名朗讀者和多個有聲讀物，根據圖書章節來組織。

位址：http://www.openslr.org/12/

voxforge

帶口音英語的清晰語音資料集。如果你需要有強大的不同口音、語調識别能力，會比較有用。

位址：http://www.voxforge.org/

timit

标簽：學術基準經典

隻含英語的語音識别資料集。

位址：https://catalog.ldc.upenn.edu/ldc93s1

含大量噪音的語音識别挑戰杯資料集。它包含真實、模拟和清晰的錄音：真實，是因為該資料集包含四個說話對象在四個不同吵鬧環境下接近 9000 段的錄音；模拟，是通過把多個環境與語音結合來生成；清晰，是指沒有噪音的清楚錄音。

位址：http://spandh.dcs.shef.ac.uk/chime_challenge/data.html

ted 演講的音頻轉錄。包含 1495 場 ted 演講，以及它們的完整字幕文本。

位址：http://www-lium.univ-lemans.fr/en/content/ted-lium-corpus

第一個 kaggle 模式的資料挑戰。由于盜版問題隻能獲得非官方版本。

位址：http://www.netflixprize.com/

movielens

不同大小的電影點評資料——一般作為協同過濾的基準。

位址：https://grouplens.org/datasets/movielens/

kaggle 上的大型、富含原資料的開源資料集。對于試驗混合推薦系統有價值。

位址：https://www.kaggle.com/c/msdchallenge

音樂推薦資料集，并關聯相關社交網絡和其他中繼資料。對混合系統有用處。

位址：http://grouplens.org/datasets/hetrec-2011/

amazon co-purchasing 和 amazon reviews

從亞馬遜“買了這個的使用者還買了xxx”功能抓取的資料，還有相關商品的評價資料。對于試驗網絡中的推薦系統有價值。

http://snap.stanford.edu/data/amazon-meta.html

在成為遊戲網站之前，friendster 釋出了 103,750,348 名使用者朋友名單的匿名資料。

位址：https://archive.org/details/friendster-dataset-201107

整個地球的矢量資料，處于免費協定下。它的舊版本包含美國人口統計部門的 tiger 資料。

位址：http://wiki.openstreetmap.org/wiki/planet.osm

整個地球表面的衛星拍照，每隔幾周更新一次。

位址：https://landsat.usgs.gov/landsat-8

多普勒天氣雷達對美國大氣情況的掃描。

位址：https://www.ncdc.noaa.gov/data-access/radar-data/nexrad

人們經常認為，能在一個資料集上解決問題，就等同于有了一個能用的産品。開發者可以使用這些資料集作為驗證集，或用作概念論證；但别忘了測試，或建立模拟産品運作的原型機。擷取更新、更真實的資料來改善模型非常關鍵。雷鋒網了解到，成功的資料驅動型公司，往往擅長收集新的專有資料，以及改善産品性能增強競争優勢。而這往往是競争對手難以直接 copy 的。

本文作者：三川

機器學習模型開發必讀：開源資料庫最全盤點

繼續閱讀

艱難安裝LDAP,SSL認證

《Linux指令行與Shell腳本程式設計大全第2版.布盧姆》pdf

MySQL的4種隔離級别？出現問題

資料結構與算法（27）——排序（二）

XX系統實施過程問題總結

無元件上傳圖檔到資料庫中，最完整解決方案

【MySQL資料庫】資料庫索引事務1.索引2.事務

無人機--飛控科普

neo4j之cypher使用文檔

Dijkstra--簡易版（最短路徑）

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

NOSQL安全攻擊

mybatis_入門程式Mybatis入門

登入plsql 報錯 the account is locked --使用者被鎖

SequoiaDB巨杉資料庫C++驅動概述

hdu7108哈希