天天看点

对话摘要数据集整理SAMSUM:CSDSMediaSum

SAMSUM:

闲聊对话领域最重要的数据集,主要来自于社交软件,主要是书写的,而不是口语化的

数据规模:

对话摘要数据集整理SAMSUM:CSDSMediaSum

大部分对话(75%)包含两个说话人,其余包含多个说话人

示例:

对话摘要数据集整理SAMSUM:CSDSMediaSum

baseline+实验结果

对话摘要数据集整理SAMSUM:CSDSMediaSum

CSDS

论文链接:

https://arxiv.org/abs/2108.13139

数据集链接:

https://github.com/xiaolinAndy/CSDS

数据集介绍:

这是一个中文的客服对话摘要数据集,主要有两个特点,第一个特点是可以针对每个角色都会生成一个摘要,客服对话中包含两个角色,用户和客服,从用户和客服角度出发,可以得到不同的摘要,用户角度的摘要可以反映用户常见的问题,客服角度的摘要可以反映客服的质量。第二个特点是可以针对不同话题生成不同的摘要,用户关注的点不同,得到的摘要也不同。

下图给出了数据集的一个说明,包含两个角色,Q代表用户的问题,A代表客服的回答。这里有两个话题,物流全程跟踪和物流周期,针对每个话题,都有三种摘要,用户角度的摘要,客服角度的摘要,总的摘要

同时,注意到,每个utterance里有一部分字体加粗,代表关键语句,该数据集标注了关键语句,关键语句有利于提升摘要效果。

对话摘要数据集整理SAMSUM:CSDSMediaSum

数据集规模

对话摘要数据集整理SAMSUM:CSDSMediaSum

baseline结果

对话摘要数据集整理SAMSUM:CSDSMediaSum

这里给出了baseline的实验结果,在官方的github中也给出了baseline的实现代码

MediaSum

论文链接

https://arxiv.org/abs/2103.06410

数据集介绍

这是一个媒体采访摘要数据集,数据来源于CNN和NPR,主要是电视和广播采访的数据,相比其他的对话摘要数据集,数据规模很大,大约有40多万数据,数据较长,包含很多的说话人和话题。这个数据集非常适合用来做对话摘要任务的迁移学习。

数据集统计

对话摘要数据集整理SAMSUM:CSDSMediaSum

baseline结果

对话摘要数据集整理SAMSUM:CSDSMediaSum

数据集链接:

https://github.com/zcgzcgzcg1/MediaSum

继续阅读