一、Transformer是什么

1、sequence-to-sequence

（1）sequence-to-sequence应用

a、sequence-to-sequence for 语音

输入序列，输出的序列长度由机器决定

李宏毅深度学习 Transformer一、Transformer是什么二、训练Transformer的Tips

李宏毅深度学习 Transformer一、Transformer是什么二、训练Transformer的Tips
语音辨识VS语音合成

eg：输入方言输出中文——语音辨识

输入中文输出语音——语音合成

李宏毅深度学习 Transformer一、Transformer是什么二、训练Transformer的Tips
现在的台语辨识是一个两阶段，第一阶段台语转中文，第二阶段中文转台语。第二阶段可以看成transformer的网络

b、sequence-to-sequence for chat

QA问题

李宏毅深度学习 Transformer一、Transformer是什么二、训练Transformer的Tips
c、sequence-to-sequence for 文法剖析

李宏毅深度学习 Transformer一、Transformer是什么二、训练Transformer的Tips
d、sequence-to-sequence for 多标签分类

李宏毅深度学习 Transformer一、Transformer是什么二、训练Transformer的Tips
一篇文章可以属于多个类别，而Sequence-to-Sequence输出是由机器决定长度，所以可以用Sequence-to-Sequence模型

e、sequence-to-sequence for Object Detection

李宏毅深度学习 Transformer一、Transformer是什么二、训练Transformer的Tips
Seq2Seq总结

李宏毅深度学习 Transformer一、Transformer是什么二、训练Transformer的Tips

（2）Encoder

李宏毅深度学习 Transformer一、Transformer是什么二、训练Transformer的Tips

Encoder的做法：

李宏毅深度学习 Transformer一、Transformer是什么二、训练Transformer的Tips
一个block输入输出过程：

李宏毅深度学习 Transformer一、Transformer是什么二、训练Transformer的Tips

李宏毅深度学习 Transformer一、Transformer是什么二、训练Transformer的Tips
transformer是对位置不敏感的模型，所以需要positional encoding

(3)Decoder

a、Autoregressive（以语音辨识为例介绍）

在Encoder中所做的工作是输入一段向量序列输出一段向量序列然后进入Decoder

李宏毅深度学习 Transformer一、Transformer是什么二、训练Transformer的Tips

b、Decoder的内部结构

李宏毅深度学习 Transformer一、Transformer是什么二、训练Transformer的Tips

mask attention

李宏毅深度学习 Transformer一、Transformer是什么二、训练Transformer的Tips

输出b2只考虑了a1、a2
为什么要用maskd呢？输出的东西是一个一个产生的

李宏毅深度学习 Transformer一、Transformer是什么二、训练Transformer的Tips
最后一个词输入要输出end这个符号

c、Non-Autoregressive

一下子输出一句话

李宏毅深度学习 Transformer一、Transformer是什么二、训练Transformer的Tips
d、Decoder的具体介绍

李宏毅深度学习 Transformer一、Transformer是什么二、训练Transformer的Tips
cross attention

李宏毅深度学习 Transformer一、Transformer是什么二、训练Transformer的Tips

二、训练Transformer的Tips

1、Copy Mechanism

从输入复制东西

chat-bot

李宏毅深度学习 Transformer一、Transformer是什么二、训练Transformer的Tips
摘要

李宏毅深度学习 Transformer一、Transformer是什么二、训练Transformer的Tips

2、Guided Attention

输入和输出要对齐（也就是输入的每一个内容都很重要，不能漏）

对语音合成、语音辨识比较重要

李宏毅深度学习 Transformer一、Transformer是什么二、训练Transformer的Tips

3、Beam Search（波束搜索）

李宏毅深度学习 Transformer一、Transformer是什么二、训练Transformer的Tips

beam search是对贪心策略一个改进。思路也很简单，就是稍微放宽一些考察的范围。在每一个时间步，不再只保留当前分数最高的1个输出，而是保留num_beams个。当num_beams=1时集束搜索就退化成了贪心搜索
下图是一个实际的例子，每个时间步有ABCDE共5种可能的输出，即，图中的num_beams=2，也就是说每个时间步都会保留到当前步为止条件概率最优的2个序列

李宏毅深度学习 Transformer一、Transformer是什么二、训练Transformer的Tips

4、Scheduled Sampling

测试可能会某个输出错误而导致后面的错误

李宏毅深度学习 Transformer一、Transformer是什么二、训练Transformer的Tips

解决方法：训练的时候给错误的东西即scheduled sampling

李宏毅深度学习 Transformer一、Transformer是什么二、训练Transformer的Tips

目录

一、Transformer是什么

1、sequence-to-sequence

（1）sequence-to-sequence应用

（2）Encoder

(3)Decoder

二、训练Transformer的Tips

1、Copy Mechanism

2、Guided Attention

3、Beam Search（波束搜索）

4、Scheduled Sampling

继续阅读

简单文档分类——朴素贝叶斯算法朴素贝叶斯算法简单文档分类实例步骤总结朴素贝叶斯分类调用(sklearn)

考证大全 | 证券从业资格考试

敲黑板！2021年证券从业考试考点预测

2021年银行从业考试考情介绍,果断收藏!

证券从业合格证书什么时候打印？有哪些注意事项？

【干货满满】初级银行从业考试《个人理财》重点梳理

2020年经济师考试，难吗？

初级银行从业资格证有什么用？

MBA提前面试纯干货分享

MBA值得学么

吴恩达logistic回归实现

【人工智能行业大师访谈1】吴恩达采访 Geoffery Hinton

深度学习模型分析人类复杂疾病的准确性

【趋高机器视觉】机器视觉技术原理解析及解决方案

解码器用于语义分割：数据依赖的解码可以实现灵活的特征聚合

cs231n斯坦福基于卷积神经网络的CV学习笔记（一）KNN和线性分类器/分类器损失/反向传播一，KNN图像分类算法二，线性分类器三，线性分类器损失四，反向传播五，神经网络