在你剛開始入手自然語言處理任務時,你需要資料集來練習。
最好是使用小型資料集,這樣你可以快速下載下傳,也不用花費很長的時間來調試模型。同時,使用被廣泛使用和了解的标準資料集也是有所幫助的,你可以用你的結果來做比較,看一下是否有所進步。
在這篇博文中,你會找到一系列标準資料集來開始你的深度學習之旅。
總覽
這篇博文被分成七個部分,它們是:
1. 文本分類(Text Classification)
2. 語言模型(Language Modeling)
3. 圖像字幕(Image Captioning)
4. 機器翻譯(Machine Translation)
5. 問答系統(Question Answering)
6. 語音識别(Speech Recognition)
7. 自動文摘(Document Summarization)
我已經嘗試提供一系列被廣泛使用于學術論文且規模适中的資料集。
幾乎所有的資料集都是公開免費下載下傳的。
如果你最喜歡的資料集沒有被列出來,又或者你認為你所了解的更好的資料集應該被列出來的話,請在評論裡告訴我。
我們開始吧。

文本分類指的是标記句子或者文檔,比如說垃圾郵件分類和情感分析。
以下是一些對于新手而言非常棒的文本分類資料集:
Reuters Newswire Topic Classification(Reuters-21578)(http://kdd.ics.uci.edu/databases/reuters21578/reuters21578.html)。
一系列1987年在路透上釋出的按分類索引的文檔。同樣可以看RCV1,RCV2,以及TRC2
(http://trec.nist.gov/data/reuters/reuters.html)。
IMDB Movie Review Sentiment Classification (Stanford)(http://ai.stanford.edu/~amaas/data/sentiment/c)。
一系列從網站imdb.com上摘取的電影評論以及他們的積極或消極的情感。
News Group Movie Review Sentiment Classification (cornell)(http://www.cs.cornell.edu/people/pabo/movie-review-data/)。
更多的資訊,可以從這篇博文中擷取:Datasets for single-label text categorization
(http://ana.cachopo.org/datasets-for-single-label-text-categorization)。
語言模型涉及建設一個統計模型來根據給定的資訊,預測一個句子中的下一個單詞,或者一個單詞中的下一個字母。這是語音識别或者機器翻譯等任務的前置任務。
下面是一些對于新手來說非常棒的語言模型資料集:
Project Gutenberg
(https://www.gutenberg.org/)。
以下是一些更正式的語料集:
Brown University Standard Corpus of Present-Day American English
(https://en.wikipedia.org/wiki/Brown_Corpus)。
大型英語單詞示例。
Google 1 Billion Word Corpus
(https://github.com/ciprian-chelba/1-billion-word-language-modeling-benchmark)。
圖像字幕是為給定圖像生成文字描述的任務。
以下是對新手非常有幫助的圖像字幕資料集:
Common Objects in Context (COCO)(http://mscoco.org/dataset/#overview)。
超過120,000張帶描述的圖檔集合。
Flickr 8K(http://nlp.cs.illinois.edu/HockenmaierGroup/8k-pictures.html)。
從flickr.com收集的超過8000帶描述的圖檔集合。
Flickr 30K(http://shannon.cs.illinois.edu/DenotationGraph/)。
從flickr.com收集的超過30000帶描述的圖檔集合。
要獲得更多的資訊,可以看這篇部落格:Exploring Image Captioning Datasets, 2016
(http://sidgan.me/technical/2016/01/09/Exploring-Datasets)。
機器翻譯即将一種語言翻譯成另一種語言的任務。
以下是對新手而言很棒的機器翻譯資料集:
Aligned Hansards of the 36th Parliament of Canada
(https://www.isi.edu/natural-language/download/hansard/)。
英法對應的句子。
European Parliament Proceedings Parallel Corpus 1996-2011
(http://www.statmt.org/europarl/)。
一系列歐洲語言的成對句子。
被用于機器翻譯的标準資料集還有很多:
Statistical Machine Translation
(http://www.statmt.org/)。
以下是對新手而言很棒的問答系統資料集:
Stanford Question Answering Dataset (SQuAD)(https://rajpurkar.github.io/SQuAD-explorer/)。
關于維基百科文章的問答。
Deepmind Question Answering Corpus
(https://github.com/deepmind/rc-data)。
有關Daily Mail的新聞問答。
Amazon question/answer data
(http://jmcauley.ucsd.edu/data/amazon/qa/)。
關于亞馬遜産品的問答。
更多資訊,參見:
Datasets: How can I get corpus of a question-answering website like Quora or Yahoo Answers or Stack Overflow for analyzing answer quality?
(https://www.quora.com/Datasets-How-can-I-get-corpus-of-a-question-answering-website-like-Quora-or-Yahoo-Answers-or-Stack-Overflow-for-analyzing-answer-quality)
語音識别就是将口語語言的錄音轉換成人類可讀的文本。
以下是對新手而言很棒的語音識别資料集:
TIMIT Acoustic-Phonetic Continuous Speech Corpus
(https://catalog.ldc.upenn.edu/LDC93S1)。
付費,這裡列出是因為它被廣泛使用。美語口語以及相關轉寫。
VoxForge(http://voxforge.org/)。
為語音識别而建設開源資料庫的項目。
LibriSpeech ASR corpus
(http://www.openslr.org/12/)。
從LibriVox(https://librivox.org/)擷取的英語有聲書大型集合。
自動文摘即産生對大型文檔的一個短小而有意義的描述。
以下是對新手而言很棒的自動文摘資料集:
Legal Case Reports Data Set
(https://archive.ics.uci.edu/ml/datasets/Legal+Case+Reports)。
4000法律案例以及摘要的集合。
TIPSTER Text Summarization Evaluation Conference Corpus
(http://www-nlpir.nist.gov/related_projects/tipster_summac/cmp_lg.html)。
将近200個文檔以及摘要的集合。
The AQUAINT Corpus of English News Text
(https://catalog.ldc.upenn.edu/LDC2002T31)。
并非免費,但卻被廣泛使用。新聞文章的語料庫。
Document Understanding Conference (DUC) Tasks
(http://www-nlpir.nist.gov/projects/duc/data.html)
Where can I find good data sets for text summarization?
(https://www.quora.com/Where-can-I-find-good-data-sets-for-text-summarization)
延伸閱讀
如果你想了解更多,這部分提供額外的資料集清單:
Text Datasets Used in Research on Wikipedia
(https://en.wikipedia.org/wiki/List_of_datasets_for_machine_learning_research#Text_data)
Datasets: What are the major text corpora used by computational linguists and natural language processing researchers?
(https://www.quora.com/Datasets-What-are-the-major-text-corpora-used-by-computational-linguists-and-natural-language-processing-researchers-and-what-are-the-characteristics-biases-of-each-corpus)
Stanford Statistical Natural Language Processing Corpora
(https://nlp.stanford.edu/links/statnlp.html#Corpora)
Alphabetical list of NLP Datasets
(https://github.com/niderhoff/nlp-datasets)
NLTK Corpora(http://www.nltk.org/nltk_data/)
Open Data for Deep Learning on DL4J
(https://deeplearning4j.org/opendata)
原文釋出時間為:2017-10-02
本文作者:Jason Brownlee
本文來自雲栖社群合作夥伴“資料派THU”,了解相關資訊可以關注“資料派THU”微信公衆号