天天看点

用于自然语言处理的数据集集锦

在开始研究自然语言处理深度学习的时候,你需要有数据集来练习编程。

最好使用小的数据集,因为下载速度比较快,并且不用花太长的时间来适应模型。此外,使用容易理解并且广泛使用的标准数据集也是有帮助的,这能让你对结果进行比较,看看自己是否取得了进展。

本文介绍了一套用于自然语言处理任务的标准数据集,在你研究深度学习的时候可以使用。

本文分为7个部分,包括:

文本分类

语言建模

图像字幕

机器翻译

问题回答

语音识别

文档摘要

我提供了不少的数据集,它们在学术论文中的使用非常广泛。几乎所有的数据集都可以免费下载。

让我们开始吧。

用于自然语言处理的数据集集锦

用于自然语言处理的数据集

文本分类是指对语句或者文档打标签,例如电子邮件分类和情感分析。

下面是一些不错的的初级文本分类数据集。

要获取有关更多信息,请参阅文章:

语言建模涉及到开发一个统计模型,该模型用于预测语句中的下一个单词,或者单词中的下一个字母。它是语音识别和机器翻译的前置任务。

下面是一些不错的的初级语言建模数据集。

还有更多正式的语料库可以用来研究,例如:

图像字幕是为给定图像生成一段文本描述。

下面是一些不错的初级图像字幕数据集。

要获取更多信息请阅读这篇文章:

机器翻译是将文本从一种语言翻译成另一种语言。

下面是一些不错的初级机器翻译数据集。

还有大量用于年度机器翻译挑战赛的标准数据集:

<a href="http://www.statmt.org/">统计机器翻译</a>

问题回答是从问题中提供一个句子或文本样例,并回答这个问题。

下面是一些不错的初级问题回答数据集。

<a href="https://www.quora.com/Datasets-How-can-I-get-corpus-of-a-question-answering-website-like-Quora-or-Yahoo-Answers-or-Stack-Overflow-for-analyzing-answer-quality">数据集:如何获取问答网站(如Quora、Yahoo Answers、Stack Overflow等等)的语料库来分析答案的质量?</a>

语音识别是将口语音频转换为人类可读的文本。

下面是一些不错的初级语音识别数据集。

文档摘要是为文档创建一个简短而有意义的描述。

下面是一些不错的初级文档摘要数据集。

欲了解更多信息,请参看:

<a href="https://www.quora.com/Where-can-I-find-good-data-sets-for-text-summarization">在哪里可以找到好的文摘数据集?</a>

如果你打算进一步学习,这里还提供了其他一些数据集。

<a href="https://en.wikipedia.org/wiki/List_of_datasets_for_machine_learning_research#Text_data">维基百科研究使用的文本数据集</a>

<a href="https://www.quora.com/Datasets-What-are-the-major-text-corpora-used-by-computational-linguists-and-natural-language-processing-researchers-and-what-are-the-characteristics-biases-of-each-corpus">数据集:计算语言学家和自然语言处理研究人员使用的主要文本语料库是什么?</a>

<a href="https://nlp.stanford.edu/links/statnlp.html#Corpora">斯坦福统计自然语言处理语料库</a>

<a href="https://github.com/niderhoff/nlp-datasets">按字母顺序排列的NLP数据集</a>

<a href="http://www.nltk.org/nltk_data/">NLTK语料库</a>

<a href="https://deeplearning4j.org/opendata">DL4J深度学习开放数据</a>

本文介绍了一组标准的数据集,在开始研究深度学习的时候,你可以使用这些标准数据集进行自然语言处理。

文章原标题《Datasets for Natural Language Processing》,作者:Jason Brownlee,译者:夏天,审校:主题曲。

继续阅读