Talk预告 | 微软亚洲研究院宋恺涛&南大余博涛：面向文本/音乐序列任务的Transformer注意力机制设计

本期为TechBeat人工智能社区第456期线上Talk！

北京时间11月22日(周二)20:00，微软亚洲研究院研究员——宋恺涛与南京大学硕士研究生——余博涛的Talk将准时在TechBeat人工智能社区开播！

他们与大家分享的主题是: “面向文本/音乐序列任务的Transformer注意力机制设计”，届时将分别讲解在文本和音乐序列任务中的Transformer注意力机制设计，包括1）Transcormer，通过设计三流注意力机制（Triple-stream Self-attention）和滑动语言模型（Sliding Language Models）来实现高效的语言打分；2）Museformer，通过设计细粒度-粗粒度（Fine- and Coarse-Grained）结合的注意力机制以实现高效的音乐生成。

Talk·信息

▼

主题：面向文本/音乐序列任务的Transformer注意力机制设计

嘉宾：微软亚洲研究院研究员宋恺涛

南京大学硕士研究生余博涛

时间：北京时间 11月22日 (周二) 20:00

地点：TechBeat人工智能社区

http://www.techbeat.net/

长按识别二维码，一键预约TALK！

Talk·介绍

▼

Transformer凭借其强大的注意力机制，逐渐成为文本、语音、音乐、图像等任务的通用模型结构。然而，在典型的序列任务中，Transformer的注意力机制还有比较大的提升空间，以实现高效的序列建模。在本次talk中，我们将介绍在文本和音乐序列任务中的Transformer注意力机制设计，包括1）Transcormer，通过设计三流注意力机制（Triple-stream Self-attention）和滑动语言模型（Sliding Language Models）来实现高效的语言打分；2）Museformer，通过设计细粒度-粗粒度（Fine- and Coarse-Grained）结合的注意力机制以实现高效的音乐生成。

分享一

当下基于Transformer的语言模型是否已经能够满足自然语言处理中的所有任务？如何针对不同的任务来设计更加有效的语言模型呢？我们在NeurIPS 2022上针对语言评分这一任务特性，设计了一个全新的Transformer模型——Transcormer。该模型提出了一个全新的滑动语言模型，并设计了一种三流自注意力机制。基于这样的设计，Transcormer模型能够在利用双向信息的同时，只需要计算一次便可以得到每个单词的概率分布。该方法在解决语言评估的任务上，具有更好的性能和更高的效率。

Talk提纲如下：

语言评分的任务定义
过去预训练模型的优缺点
滑动语言模型的设计
实验结果
工作总结

分享二

随着深度学习的快速发展，自动音乐创作成为新兴研究方向。Transformer模型被应用于音乐生成任务中并取得良好效果，但长序列建模（如何高效建模通常长度超过10000的音乐序列）和音乐结构建模（如何使生成的音乐具有更好的音乐重复结构）仍然是该领域的重大挑战。因此，在NeurIPS 2022上，我们提出Museformer，它使用一种细粒度和粗粒度相结合的注意力机制来解决这些挑战。

Talk提纲如下：

AI+艺术
背景介绍：symbolic music，音乐生成中的挑战
Museformer模型和细-粗注意力机制的核心思想和具体设计
实验和结果分析
总结

Talk·预习资料

▼

[1] BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

[2] Improving Language Understanding by Generative Pre-Training

[3] XLNet: Generalized Autoregressive Pretraining for Language Understanding

[4] arXiv: https://arxiv.org/abs/2210.10349

[5] Demo: https://ai-muzic.github.io/museformer

[6] Code: https://github.com/microsoft/muzic

Talk·提问交流

▼

在Talk界面下的【交流区】参与互动！留下你的打call🤟和问题🙋，和更多小伙伴们共同讨论，被讲者直接翻牌解答！

你的每一次贡献，我们都会给予你相应的i豆积分，还会有惊喜奖励哦！

Talk预告 | 微软亚洲研究院宋恺涛&南大余博涛：面向文本/音乐序列任务的Transformer注意力机制设计

Talk·嘉宾介绍

▼

宋恺涛

微软亚洲研究院研究员

宋恺涛，微软亚洲研究院。博士毕业于南京理工大学计算机科学与应用专业。研究方向为自然语言处理，包括机器翻译，预训练模型，语言生成等领域。在ICML、NeurIPS、KDD、ACL、IJCAI、ICCV、TIP、COLING、ICASSP、InterSpeech等顶级会议及期刊发表了多篇论文，其谷歌学术被引2200+余次。他的多项研究成果应用在微软的产品中。

个人主页：

https://scholar.google.com/citations?user=LLk9dR8AAAAJ&hl=en

余博涛

南京大学硕士研究生

余博涛，南京大学硕士研究生，导师为胡伟副教授，正在寻求海外读博机会。主要研究方向包含自然语言处理、AI音乐和深度学习。

个人主页：

https://btyu.github.io/

长按识别二维码，一键预约TALK！

-The End-

如果你也想成为讲者

▼

自荐 / 推荐

单人Talk | 团队专场 | 录播or直播 | 闭门交流

多种方式任你选择！

推荐讲者成功也有奖励哦~

关于TechBeat人工智能社区

▼

TechBeat(www.techbeat.net)隶属于将门创投，是一个荟聚全球华人AI精英的成长社区。

我们希望为AI人才打造更专业的服务和体验，加速并陪伴其学习成长。

期待这里可以成为你学习AI前沿知识的高地，分享自己最新工作的沃土，在AI进阶之路上的升级打怪的根据地！

更多详细介绍>>TechBeat，一个荟聚全球华人AI精英的学习成长社区

点击“阅读原文”，

⤵一键送你进入Talk页面

Talk预告 | 微软亚洲研究院宋恺涛&南大余博涛：面向文本/音乐序列任务的Transformer注意力机制设计

继续阅读

看了这篇你还不懂BERT，那你就过来打死我吧

李宏毅深度学习 Transformer一、Transformer是什么二、训练Transformer的Tips

射阳高手广告语：“辅助商家超8000家”。那你可以第一个带我来上，你能上；你随你打懂不懂？阿姨阿姨阿姨阿姨阿姨阿姨阿姨阿

BERT代码实现架构数据预处理BERT

2.1 Transformer相关原理-图解Attention图解Attention致谢

Attention is all you need Transformer和Attention实现和注释

最近论文汇总 Attentional Feature Fusion一、摘要二、理论研究

Dual Attention Network for Scene Segmentation（DANET）背景介绍现有研究成果Dual Attention Network 实验分析结论

音视频序列数据分析（RNN-＞seq2seq-＞Encoder+Decoder-＞Attention-＞Transformer）1. RNN2. Seq2Seq (即 Encoder + Decoder 结构)3. Attention4. Transformer（自回归模型）Reference:

Transformer--Attention is All You Need (推荐--非常详细)前言对Transformer的直观认识论文地址模型提出的背景（或者动机）本论文模型—TranformerModel Architecturewhy Self-AttentionOptimizerRegularization代码参考文献

form表单回车提交问题

Transformer系列：Classification --＞ ViT (ICLR2021)1. Motivation2. Method 3.Experiment

如何使用PyTorch构建Transformer模型实现语言生成任务

Element 表单的 rules 验证 Number

如何使用Transformer模型实现语言分类任务

对话小冰公司：有“情商”的数字员工,如何为企业赋能？|2048Talk

Talk预告 | 微软亚洲研究院宋恺涛&amp;南大余博涛：面向文本/音乐序列任务的Transformer注意力机制设计

继续阅读

Talk预告 | 微软亚洲研究院宋恺涛&南大余博涛：面向文本/音乐序列任务的Transformer注意力机制设计