SAMSUM:
闲聊对话领域最重要的数据集,主要来自于社交软件,主要是书写的,而不是口语化的
数据规模:
![](https://img.laitimes.com/img/9ZDMuAjOiMmIsIjOiQnIsIiNx8FesU2cfdGLwczX0xiRGZkRGZ0Xy9GbvNGLwIzXlpXazxSP9EUYzQ2VMFjVtJWQClGVF5UMR9Fd4VGdsATNfd3bkFGazxSUhxGatJGbwhFT1Y0Mk9VZwlHdssmch1mclRXY39CXldWYtlWPzNXZj9mcw1ycz9WL49zZuBnL5MDM4gTYygjZ1UWY0UDO4ATMhRzY5U2NlNjZ0kDMyczLc52YucWbp5GZzNmLn9Gbi1yZtl2Lc9CX6MHc0RHaiojIsJye.png)
大部分对话(75%)包含两个说话人,其余包含多个说话人
示例:
baseline+实验结果
CSDS
论文链接:
https://arxiv.org/abs/2108.13139
数据集链接:
https://github.com/xiaolinAndy/CSDS
数据集介绍:
这是一个中文的客服对话摘要数据集,主要有两个特点,第一个特点是可以针对每个角色都会生成一个摘要,客服对话中包含两个角色,用户和客服,从用户和客服角度出发,可以得到不同的摘要,用户角度的摘要可以反映用户常见的问题,客服角度的摘要可以反映客服的质量。第二个特点是可以针对不同话题生成不同的摘要,用户关注的点不同,得到的摘要也不同。
下图给出了数据集的一个说明,包含两个角色,Q代表用户的问题,A代表客服的回答。这里有两个话题,物流全程跟踪和物流周期,针对每个话题,都有三种摘要,用户角度的摘要,客服角度的摘要,总的摘要
同时,注意到,每个utterance里有一部分字体加粗,代表关键语句,该数据集标注了关键语句,关键语句有利于提升摘要效果。
数据集规模
baseline结果
这里给出了baseline的实验结果,在官方的github中也给出了baseline的实现代码
MediaSum
论文链接
https://arxiv.org/abs/2103.06410
数据集介绍
这是一个媒体采访摘要数据集,数据来源于CNN和NPR,主要是电视和广播采访的数据,相比其他的对话摘要数据集,数据规模很大,大约有40多万数据,数据较长,包含很多的说话人和话题。这个数据集非常适合用来做对话摘要任务的迁移学习。
数据集统计
baseline结果
数据集链接:
https://github.com/zcgzcgzcg1/MediaSum