天天看點

機器學習模型開發必讀:開源資料庫最全盤點

機器學習模型開發必讀:開源資料庫最全盤點

開發 ai 和機器學習系統從來沒有像現在這樣友善。類似于 tensorflow、torch 和 spark 這樣的開源工具,在 ai 開發者群體中已是無處不在。再加上亞馬遜 aws、google cloud 等雲服務帶來的海量計算能力,将來使用筆記本電腦來訓練 ml 模型或許不再難以想象。

公衆對 ai 的遐想,總忽視了資料的角色。但海量被标記、注解過的資料,是當下 ai 革命當之無愧的主要推手之一。業内研究團隊和公司機構,均明白“資料民主化”的意義——使任何開發者都能擷取高品質的資料來訓練、測試模型,是加速 ai 技術發展的必要措施。

但就雷鋒網所知,大多數涉及機器學習和 ai 的産品依賴于專有資料庫( proprietary datasets)。它們大多是不被公開的,以保護知識産權以及防範安全風險。

即便你幸運地找到了相關公共資料庫,判斷後者的價值和可靠程度,又是一項讓很多開發者頭痛的問題。對于概念論證是如此;對于潛在的産品或者特性驗證同樣如此——在收集你的專有資料之前,決定該驗證需要何種資料集。

有經驗的開發者都知道,機器學習系統在樣本資料集上展示出的優異性能,并不能保證其實際效果。許多 ai 從業人員似乎已經忘記了,資料采集和标記才是開發 ai 解決方案最難的一環。标準的資料集,可被用作驗證集,或作為開發更偏向私人訂制方案的起始點。

本周,vai technologies 的創始人、前斯坦福 slac 實驗室 cnn 算法架構師 luke de oliveira,和其他幾名機器學習專家談到了這個問題。雷鋒網(公衆号:雷鋒網)了解到,他們最後決定做一張表單,把 ai 領域含金量最高的開源資料庫羅列出來,與大家分享。

機器學習模型開發必讀:開源資料庫最全盤點

标簽:學術基準 經典 較舊

合理性測試(sanity check)最常用的資料庫。規格為 25x25、中心的、b&w 手寫數字。用 mnist 測試非常容易,但不要因為你的模型在 mnist 運作良好,就認為它事實上可用。

位址:https://pjreddie.com/projects/mnist-in-csv/

标簽:經典 較舊

32x32 彩色圖像。雖然用得人比以前少了很多,但仍然能用它做有趣的合理性測試。

位址:https://www.cs.toronto.edu/~kriz/cifar.html

标簽:實用 學術基準 經典

這個用不着介紹,新算法的首選圖像資料集。luke de oliveira 表示,許多圖像 api 公司從 rest 互動界面搞來的标記,與 imagenet 1000 目錄中的 wordnet 層級很接近,讓人懷疑。

位址:http://image-net.org/

标簽:無

場景了解,許多其它附加任務(比如房間布局預估,顯着性預測 “saliency prediction”),以及與之關聯的競賽。

位址:http://lsun.cs.princeton.edu/2016/

pascal voc

标簽:學術基準

一般性的圖像分割和分類。對于建立現實世界中的圖像注解并不是十分有用,但作為基準很不錯。

位址:http://host.robots.ox.ac.uk/pascal/voc/

谷歌街景視圖中的住宅号。可以把它當做野生的遞歸( recurrent) mnist。

位址:http://ufldl.stanford.edu/housenumbers/

 一般性的圖像了解/說明,有相關競賽。

位址:http://mscoco.org/

标簽:實用

非常細緻的視覺知識庫,對超過十萬張圖像有深度注解。

位址:http://visualgenome.org/

labeled faces in the wild

标簽:實用 學術基準 經典 較舊

修剪過的面部區域(使用 viola-jones),用一個 name identifier 做過标記。其中每一個展示的人在資料集中有兩個圖像,這是作為他的子集。開發者經常用它來訓練面部比對系統。

位址:http://vis-www.cs.umass.edu/lfw/

機器學習模型開發必讀:開源資料庫最全盤點

标簽:實用 學術基準

位址:https://drive.google.com/drive/u/0/folders/0bz8a_dbh9qhbfll6bvpmnutucfdjymf2sepmzuzucvnimuw1twn6rdv3a0jht3kxlvhvr2m

源自高品質維基百科文章的大型語言模組化語料庫。salesforce metamind 維護。

位址:http://metamind.io/research/the-wikitext-long-term-dependency-language-modeling-dataset/

quora 釋出的第一個資料集,包含副本/語義近似值标記。

位址:https://data.quora.com/first-quora-dataset-release-question-pairs

squad

斯坦福的問答社群資料集——适用範圍較廣的問題回答和閱讀了解資料集。每一個回答都被作為一個 span,或者一段文本。

位址:https://rajpurkar.github.io/squad-explorer/

人工建立的仿真陳述問題/回答組合,還有維基百科文章的難度評分。

位址:http://www.cs.cmu.edu/~ark/qa-data/

maluuba datasets

為 nlp 研究人工建立的複雜資料集。

位址:https://datasets.maluuba.com/

大型、通用型模組化資料集。時常用來訓練散布音(distributed)的詞語表達,比如 word2vec 或  glove。

位址:http://www.statmt.org/lm-benchmark/

pb(拍位元組)級别的網絡爬蟲。最經常被用來學習詞語嵌入。可從 amazon s3 免費擷取。對于 www 網際網路的資訊采集,是一個比較有用的網絡資料集。

位址:http://commoncrawl.org/the-data/

标簽:學術基準 經典

facebook ai research (fair) 推出的合成閱讀了解和問題回答資料集。

位址:https://research.fb.com/projects/babi/

the children's book test

project gutenberg(一項正版數字圖書免費分享工程)兒童圖書裡提取的成對資料(問題加情境,回答)基準。對問答、閱讀了解、仿真陳述(factoid)查詢比較有用。

stanford sentiment treebank

标準的情緒資料集,對每一句話每一個節點的文法樹,都有細緻的情感注解。

位址:http://nlp.stanford.edu/sentiment/code.html

一個較經典的文本分類資料集。通常作為純粹分類或者對 ir / indexing 算法驗證的基準,在這方面比較有用。

位址:http://qwone.com/~jason/20newsgroups/

較老的、基于純粹分類的資料集。文本來自于路透社新聞專線。常被用于教程之中。

位址:https://archive.ics.uci.edu/ml/datasets/reuters-21578+text+categorization+collection

 imdb

較老的、相對比較小的資料集。用于情緒分類。但在文學基準方面逐漸失寵,讓位于更大的資料集。

位址:http://ai.stanford.edu/~amaas/data/sentiment/

uci’s spambase

較老的、經典垃圾郵件資料集,源自于 uci machine learning repository。由于資料集的管理細節,在學習私人訂制垃圾資訊過濾方面,這會是一個有趣的基準。

位址:https://archive.ics.uci.edu/ml/datasets/spambase

機器學習模型開發必讀:開源資料庫最全盤點

大多數語音識别資料庫都是專有的——這些資料對其所有公司而言有巨大價值。絕大部分該領域的公共資料集已經很老了。

2000 hub5 english

标簽:學術基準 較舊

隻包含英語的語音資料。最近一次被使用是百度的深度語音論文。

位址:https://catalog.ldc.upenn.edu/ldc2002t43

有聲圖書資料集,包含文字和語音。接近 500 個小時的清楚語音,來自于多名朗讀者和多個有聲讀物,根據圖書章節來組織。

位址:http://www.openslr.org/12/

voxforge

帶口音英語的清晰語音資料集。如果你需要有強大的不同口音、語調識别能力,會比較有用。

位址:http://www.voxforge.org/

timit

标簽:學術基準 經典

隻含英語的語音識别資料集。

位址:https://catalog.ldc.upenn.edu/ldc93s1

含大量噪音的語音識别挑戰杯資料集。它包含真實、模拟和清晰的錄音:真實,是因為該資料集包含四個說話對象在四個不同吵鬧環境下接近 9000 段的錄音;模拟,是通過把多個環境與語音結合來生成;清晰,是指沒有噪音的清楚錄音。

位址:http://spandh.dcs.shef.ac.uk/chime_challenge/data.html

ted 演講的音頻轉錄。包含 1495 場 ted 演講,以及它們的完整字幕文本。

位址:http://www-lium.univ-lemans.fr/en/content/ted-lium-corpus

機器學習模型開發必讀:開源資料庫最全盤點

第一個 kaggle 模式的資料挑戰。由于盜版問題隻能獲得非官方版本。

位址:http://www.netflixprize.com/

movielens

不同大小的電影點評資料——一般作為協同過濾的基準。

位址:https://grouplens.org/datasets/movielens/

kaggle 上的大型、富含原資料的開源資料集。對于試驗混合推薦系統有價值。

位址:https://www.kaggle.com/c/msdchallenge

音樂推薦資料集,并關聯相關社交網絡和其他中繼資料。對混合系統有用處。

位址:http://grouplens.org/datasets/hetrec-2011/

機器學習模型開發必讀:開源資料庫最全盤點

amazon co-purchasing 和 amazon reviews

從亞馬遜“買了這個的使用者還買了xxx”功能抓取的資料,還有相關商品的評價資料。對于試驗網絡中的推薦系統有價值。

http://snap.stanford.edu/data/amazon-meta.html

在成為遊戲網站之前,friendster 釋出了 103,750,348 名使用者朋友名單的匿名資料。

位址:https://archive.org/details/friendster-dataset-201107

機器學習模型開發必讀:開源資料庫最全盤點

整個地球的矢量資料,處于免費協定下。它的舊版本包含美國人口統計部門的 tiger 資料。

位址:http://wiki.openstreetmap.org/wiki/planet.osm

整個地球表面的衛星拍照,每隔幾周更新一次。

位址:https://landsat.usgs.gov/landsat-8

多普勒天氣雷達對美國大氣情況的掃描。

位址:https://www.ncdc.noaa.gov/data-access/radar-data/nexrad

人們經常認為,能在一個資料集上解決問題,就等同于有了一個能用的産品。開發者可以使用這些資料集作為驗證集,或用作概念論證;但别忘了測試,或建立模拟産品運作的原型機。擷取更新、更真實的資料來改善模型非常關鍵。雷鋒網了解到,成功的資料驅動型公司,往往擅長收集新的專有資料,以及改善産品性能增強競争優勢。而這往往是競争對手難以直接 copy 的。

本文作者:三川