天天看點

自然語言處理資料集免費資源開放(附學習資料)

在你剛開始入手自然語言處理任務時,你需要資料集來練習。

最好是使用小型資料集,這樣你可以快速下載下傳,也不用花費很長的時間來調試模型。同時,使用被廣泛使用和了解的标準資料集也是有所幫助的,你可以用你的結果來做比較,看一下是否有所進步。

在這篇博文中,你會找到一系列标準資料集來開始你的深度學習之旅。

總覽

這篇博文被分成七個部分,它們是:

1. 文本分類(Text Classification)

2. 語言模型(Language Modeling)

3. 圖像字幕(Image Captioning)

4. 機器翻譯(Machine Translation)

5. 問答系統(Question Answering)

6. 語音識别(Speech Recognition)

7. 自動文摘(Document Summarization)

我已經嘗試提供一系列被廣泛使用于學術論文且規模适中的資料集。

幾乎所有的資料集都是公開免費下載下傳的。

如果你最喜歡的資料集沒有被列出來,又或者你認為你所了解的更好的資料集應該被列出來的話,請在評論裡告訴我。

我們開始吧。

自然語言處理資料集免費資源開放(附學習資料)

文本分類指的是标記句子或者文檔,比如說垃圾郵件分類和情感分析。

以下是一些對于新手而言非常棒的文本分類資料集:

Reuters Newswire Topic Classification(Reuters-21578)(http://kdd.ics.uci.edu/databases/reuters21578/reuters21578.html)。

一系列1987年在路透上釋出的按分類索引的文檔。同樣可以看RCV1,RCV2,以及TRC2

(http://trec.nist.gov/data/reuters/reuters.html)。

IMDB Movie Review Sentiment Classification (Stanford)(http://ai.stanford.edu/~amaas/data/sentiment/c)。

一系列從網站imdb.com上摘取的電影評論以及他們的積極或消極的情感。

News Group Movie Review Sentiment Classification (cornell)(http://www.cs.cornell.edu/people/pabo/movie-review-data/)。

更多的資訊,可以從這篇博文中擷取:Datasets for single-label text categorization

(http://ana.cachopo.org/datasets-for-single-label-text-categorization)。

語言模型涉及建設一個統計模型來根據給定的資訊,預測一個句子中的下一個單詞,或者一個單詞中的下一個字母。這是語音識别或者機器翻譯等任務的前置任務。

下面是一些對于新手來說非常棒的語言模型資料集:

Project Gutenberg

(https://www.gutenberg.org/)。

以下是一些更正式的語料集:

Brown University Standard Corpus of Present-Day American English

(https://en.wikipedia.org/wiki/Brown_Corpus)。

大型英語單詞示例。

Google 1 Billion Word Corpus

(https://github.com/ciprian-chelba/1-billion-word-language-modeling-benchmark)。

圖像字幕是為給定圖像生成文字描述的任務。

以下是對新手非常有幫助的圖像字幕資料集:

Common Objects in Context (COCO)(http://mscoco.org/dataset/#overview)。

超過120,000張帶描述的圖檔集合。

Flickr 8K(http://nlp.cs.illinois.edu/HockenmaierGroup/8k-pictures.html)。

從flickr.com收集的超過8000帶描述的圖檔集合。

Flickr 30K(http://shannon.cs.illinois.edu/DenotationGraph/)。

從flickr.com收集的超過30000帶描述的圖檔集合。

要獲得更多的資訊,可以看這篇部落格:Exploring Image Captioning Datasets, 2016

(http://sidgan.me/technical/2016/01/09/Exploring-Datasets)。

機器翻譯即将一種語言翻譯成另一種語言的任務。

以下是對新手而言很棒的機器翻譯資料集:

Aligned Hansards of the 36th Parliament of Canada

(https://www.isi.edu/natural-language/download/hansard/)。

英法對應的句子。

European Parliament Proceedings Parallel Corpus 1996-2011

(http://www.statmt.org/europarl/)。

一系列歐洲語言的成對句子。

被用于機器翻譯的标準資料集還有很多:

Statistical Machine Translation

(http://www.statmt.org/)。

以下是對新手而言很棒的問答系統資料集:

Stanford Question Answering Dataset (SQuAD)(https://rajpurkar.github.io/SQuAD-explorer/)。

關于維基百科文章的問答。

Deepmind Question Answering Corpus

(https://github.com/deepmind/rc-data)。

有關Daily Mail的新聞問答。

Amazon question/answer data

(http://jmcauley.ucsd.edu/data/amazon/qa/)。

關于亞馬遜産品的問答。

更多資訊,參見:

Datasets: How can I get corpus of a question-answering website like Quora or Yahoo Answers or Stack Overflow for analyzing answer quality?

(https://www.quora.com/Datasets-How-can-I-get-corpus-of-a-question-answering-website-like-Quora-or-Yahoo-Answers-or-Stack-Overflow-for-analyzing-answer-quality)

語音識别就是将口語語言的錄音轉換成人類可讀的文本。

以下是對新手而言很棒的語音識别資料集:

TIMIT Acoustic-Phonetic Continuous Speech Corpus

(https://catalog.ldc.upenn.edu/LDC93S1)。

付費,這裡列出是因為它被廣泛使用。美語口語以及相關轉寫。

VoxForge(http://voxforge.org/)。

為語音識别而建設開源資料庫的項目。

LibriSpeech ASR corpus

(http://www.openslr.org/12/)。

從LibriVox(https://librivox.org/)擷取的英語有聲書大型集合。

自動文摘即産生對大型文檔的一個短小而有意義的描述。

以下是對新手而言很棒的自動文摘資料集:

Legal Case Reports Data Set

(https://archive.ics.uci.edu/ml/datasets/Legal+Case+Reports)。

4000法律案例以及摘要的集合。

TIPSTER Text Summarization Evaluation Conference Corpus

(http://www-nlpir.nist.gov/related_projects/tipster_summac/cmp_lg.html)。

将近200個文檔以及摘要的集合。

The AQUAINT Corpus of English News Text

(https://catalog.ldc.upenn.edu/LDC2002T31)。

并非免費,但卻被廣泛使用。新聞文章的語料庫。

Document Understanding Conference (DUC) Tasks

(http://www-nlpir.nist.gov/projects/duc/data.html)

Where can I find good data sets for text summarization?

(https://www.quora.com/Where-can-I-find-good-data-sets-for-text-summarization)

延伸閱讀

如果你想了解更多,這部分提供額外的資料集清單:

Text Datasets Used in Research on Wikipedia

(https://en.wikipedia.org/wiki/List_of_datasets_for_machine_learning_research#Text_data)

Datasets: What are the major text corpora used by computational linguists and natural language processing researchers?

(https://www.quora.com/Datasets-What-are-the-major-text-corpora-used-by-computational-linguists-and-natural-language-processing-researchers-and-what-are-the-characteristics-biases-of-each-corpus)

Stanford Statistical Natural Language Processing Corpora

(https://nlp.stanford.edu/links/statnlp.html#Corpora)

Alphabetical list of NLP Datasets

(https://github.com/niderhoff/nlp-datasets)

NLTK Corpora(http://www.nltk.org/nltk_data/)

Open Data for Deep Learning on DL4J

(https://deeplearning4j.org/opendata)

原文釋出時間為:2017-10-02

本文作者:Jason Brownlee

本文來自雲栖社群合作夥伴“資料派THU”,了解相關資訊可以關注“資料派THU”微信公衆号

繼續閱讀