天天看點

機器學習資料集!CV、NLP 一應俱全

本文介紹一個機器學習大型資料集的彙總網站,網站目前提供約 70 個最新資料集,涵蓋了計算機視覺、自然語言了解和音頻三大領域。

還在愁到哪裡找到需要的機器學習資料集嗎?

每年都有很多大型、高品質的資料集釋出,其中大多數資料集都釋出在各自的網站上,通過谷歌搜尋很難找到所有這些資料集。

現在,一位名叫 Nikola Pleša 的開發人員做了一個項目,将所有機器學習的大型資料集收集在一個網站上,友善大家取用。

網站一經釋出,好評如潮。網站目前提供約 70 個資料集,涵蓋了計算機視覺、自然語言了解和音頻三大領域,包括每個資料集的連結、簡介、許可類型、論文等,并且作者表示将繼續增加資料集數量。

機器學習資料集!CV、NLP 一應俱全

資料集網站:

https://www.datasetlist.com/

下面,簡要介紹一部分 CV、NLP 的資料集資訊。

計算機視覺資料

機器學習資料集!CV、NLP 一應俱全

1. IBM 人臉多樣性資料集

IBM 的人臉多樣性 (DiF) 資料集是一個龐大而多樣化的資料集,旨在促進人臉識别技術中公平性和準确性的研究。DiF 是第一個此類資料集,包含 100 萬張帶注釋的人臉圖像。

2. GQA

GQA 資料集包含 2200 萬個關于各種日常圖像的問題。每個圖像都與圖像的對象、屬性和關系的場景圖相關聯,這是一個基于 Visual Genome 的新的清晰版本資料集。

3. NVIDIA Flickr-Faces-HQ 資料集

該資料集由 70000 張分辨率為 1024×1024 的高品質 PNG 圖像組成,并且在人物的年齡、種族和圖像背景方面差異很大。資料集也很好地覆寫了人臉的附件,如眼鏡,太陽鏡,帽子等。

4. Google Open Images V4

Open Images 是一個包含約 900 萬個 URL 圖像的資料集,這些圖像具有包含數千個類别的圖像級标簽和邊界框注釋。

5. Youtube-8M 2018

YouTube- 8M 是一個大型的帶标簽的視訊資料集,由數百萬個 YouTube 視訊 ID 和來自4700 多個視覺實體的不同詞彙表的相關标簽組成,包含大量的視訊畫面資訊、音頻資訊、标簽資訊。

6. Berkeley Deep Drive (BDD100K)

該資料集包含超過 100k 個駕駛體驗視訊,每個視訊長度為 40 秒,幀數為每秒 30 幀。總圖像數比百度 ApolloScape(2018 年 3 月釋出) 大 800 倍,比 Mapillary 大 4800倍,比 KITTI 大 8000 倍。

7. ApolloScape

ApolloScape 是一個此前的類似資料集如 KITTI 和 CityScapes 更大、更複雜的資料集。ApolloScape 提供了高分辨率高 10 倍以上的圖像,并逐像素标注,包括 26 種不同的可識别對象,如汽車、自行車、行人和建築物。随着行人和車輛數量的增加,資料集提供了多個級别的場景複雜性,在給定場景中最多多達 100 輛車輛,以及更廣泛的具有挑戰性的環境,如惡劣天氣或極端光照條件。

8. Tencent ML - Images

騰訊釋出的 Tencent ML - Images 是目前最大的開源多标簽圖像資料集,包括17,609,752 個訓練圖像和 88739 個驗證圖像 URL,注釋多達 11,166 個類别。

9. Fashion MNIST

Fashion-MNIST 是 Zalando 文章圖像的一個資料集,包括 60,000 個示例的訓練集和10,000 個示例的測試集。每個示例都是一個 28x28 的灰階圖像,與 10 個類别的标簽相關聯。

10. MegaFace

MF2 訓練資料集是身份數量上最大的公開可用的面部識别資料集,有 470 萬張面部圖像,672K 個身份,以及各自的邊界框。所有圖檔均來自 Flickr,并在知識共享協定下許可。

自自然語言資料

機器學習資料集!CV、NLP 一應俱全

1. 斯坦福問答資料集 (SQuAD)

斯坦福問答資料集 (Stanford Question answer Dataset, SQuAD) 是一個全新的閱讀了解資料集,由衆包工作者根據維基百科文章提出的問題組成,其中每個問題的答案都對應閱讀文章的一段文本。SQuAD 包含 500 多篇文章的 10 萬對以上的問答對,是以規模明顯大于之前的閱讀了解資料集。 SQuAD2.0 将 SQuAD1.1 中的 10 萬個問題與 5 萬多個新的、無法回答的問題 (由衆包工作者提出) 結合起來,使之看起來與可回答的問題相似。

2. MultiNLI

多體裁自然語言推理語料庫 (Multi-Genre Natural Language Inference, MultiNLI) 是一個由 433k 個句子對組成的源文本集合語料庫,這些句子對都帶有文本蘊涵資訊。MultiNLI 語料庫是在 SNLI 語料庫的基礎上建立的,但不同之處在于它涵蓋了一系列口語和書面文本的體裁,并支援獨特的跨體裁評估。

3. CoQA

CoQA 是一個用于建構會話問答系統的大型資料集。CoQA 包含 127k 個問題和答案,來自 7 個不同領域的 8k 個文本段落的對話。

4. Spider 1.0

Spider 是一個大型複雜的跨域語義分析和 text-to-SQL 的資料集。Spider 由 10181 個問題和 5693 個獨特的複雜 SQL 查詢組成,這些查詢來自 200 個資料庫,覆寫 138 個不同的域。

5. HotpotQA

HotpotQA 是一個以自然的、 multi-hop 的問題為特征的問答資料集,具有強大的支援事實的監督,以實作更易于解釋的問答系統。該資料集由 113,000 對基于 Wikipedia 的QA 對組成。

6. Question Pairs (Quora)

包含超過 400,000 行潛在的問題對。

7. Yelp open dataset

Yelp 資料集是用于個人、教育和學術目的的業務、評論和使用者資料的子集。可在 JSON和 SQL 檔案中使用。

8. Facebook bAbI

一個用于自動文本了解和推理的資料集。

9. MS MARCO

微軟機器閱讀了解資料集 (MS MARCO) 是一個用于閱讀了解和問題回答的新型大型資料集。在 MS MARCO 中,所有問題都是從真實的匿名使用者查詢中提取的。資料集中的答案來自上下文段落,這些段落使用 Bing 搜尋引擎從真實的 web 文檔中提取。如果他們能夠總結出答案,那麼查詢的答案就是人工生成的。

10. NewsQA

NewsQA 資料集的目的是幫助研究社群建構能夠回答需要人類水準了解和推理技能的問題的算法。該資料集包含來自衆包的 120K 閱讀了解 Q&A 對。

音頻資料

機器學習資料集!CV、NLP 一應俱全

1. Mozilla Common Voice

Mozilla 擁有可供使用的最大的人類語音資料集,包括 18 種不同的語言,從 4.2 萬多名貢獻者那裡收集了近 1400 小時的錄音語音資料。

2. NSynth

這是一個大規模、高品質的注釋音符資料集。NSynth 資料集是一個音頻資料集,包含~300k 個音符,每個音符都有一個獨特的音調、音色和包絡。

3. Google Audioset

AudioSet 由 632 個音頻事件類的擴充本體和來自 YouTube 視訊的 2084320 個帶有人類标記的 10 秒聲音片段組成。本體被指定為事件類别的層次圖,涵蓋廣泛的人類和動物聲音、樂器和流派,以及常見的日常環境聲音。

4. LibriSpeech

LibriSpeech 是一個有聲圖書資料集,包含文本和語音。資料集包含多位講者朗讀的各類有聲讀物,時長近 500 小時。

感興趣的小夥伴可以登入網站進行了解學習~