对话摘要数据集整理SAMSUM：CSDSMediaSum

2023-05-20 14:16:23

SAMSUM：

闲聊对话领域最重要的数据集，主要来自于社交软件，主要是书写的，而不是口语化的

数据规模：

对话摘要数据集整理SAMSUM：CSDSMediaSum

大部分对话(75%)包含两个说话人,其余包含多个说话人

示例：

对话摘要数据集整理SAMSUM：CSDSMediaSum

baseline+实验结果

对话摘要数据集整理SAMSUM：CSDSMediaSum

CSDS

论文链接：

https://arxiv.org/abs/2108.13139

数据集链接：

https://github.com/xiaolinAndy/CSDS

数据集介绍：

这是一个中文的客服对话摘要数据集，主要有两个特点，第一个特点是可以针对每个角色都会生成一个摘要，客服对话中包含两个角色，用户和客服，从用户和客服角度出发，可以得到不同的摘要，用户角度的摘要可以反映用户常见的问题，客服角度的摘要可以反映客服的质量。第二个特点是可以针对不同话题生成不同的摘要，用户关注的点不同，得到的摘要也不同。

下图给出了数据集的一个说明，包含两个角色，Q代表用户的问题，A代表客服的回答。这里有两个话题，物流全程跟踪和物流周期，针对每个话题，都有三种摘要，用户角度的摘要，客服角度的摘要，总的摘要

同时，注意到，每个utterance里有一部分字体加粗，代表关键语句，该数据集标注了关键语句，关键语句有利于提升摘要效果。

对话摘要数据集整理SAMSUM：CSDSMediaSum

数据集规模

对话摘要数据集整理SAMSUM：CSDSMediaSum

baseline结果

对话摘要数据集整理SAMSUM：CSDSMediaSum

这里给出了baseline的实验结果，在官方的github中也给出了baseline的实现代码

MediaSum

论文链接

https://arxiv.org/abs/2103.06410

数据集介绍

这是一个媒体采访摘要数据集，数据来源于CNN和NPR，主要是电视和广播采访的数据，相比其他的对话摘要数据集，数据规模很大，大约有40多万数据，数据较长，包含很多的说话人和话题。这个数据集非常适合用来做对话摘要任务的迁移学习。

数据集统计

对话摘要数据集整理SAMSUM：CSDSMediaSum

baseline结果

对话摘要数据集整理SAMSUM：CSDSMediaSum

数据集链接：

https://github.com/zcgzcgzcg1/MediaSum

对话摘要数据集整理SAMSUM：CSDSMediaSum

SAMSUM：

数据规模：

示例：

baseline+实验结果

CSDS

论文链接：

数据集链接：

数据集介绍：

数据集规模

baseline结果

MediaSum

论文链接

数据集介绍

数据集统计

baseline结果

数据集链接：

继续阅读

windows10 64bit + Anaconda + python3.5 安装xgboost的一种简单方法

数据挖掘-归一化

Anaconda：Matpotlib工具安装

anaconda安装及使用小技巧anaconda使用小技巧

Anaconda环境配置

一、Python数据挖掘（环境篇——Anaconda与Jupyter Notebook）一、Python数据挖掘（环境篇——Anaconda与Jupyter Notebook）

Anaconda3安装face_recognitionAnaconda3(python3.7.4)安装face_recognition

数据挖掘中的隐私保护

数据挖掘研究内容和本质（转）

数据挖掘分类技术

浅谈数据挖掘评估技术

数据挖掘001

从大数据看技术，为什么天猫双11是史上最大数字经济节日

用Matlab搞计算机视觉是怎样的体验？

在weka中集成自己的算法

解码器用于语义分割：数据依赖的解码可以实现灵活的特征聚合