1. RNN

针对语音、视频等序列数据，我们需要进行全局时序信息考虑，因此RNN模型是最初最基础的模型结构。

主要可以分析的任务：语音识别、语音合成、视频摘要生成、音视频情感预测等。

存在问题：输出的序列长度与输入序列长度保持一致，不能任意变化。

2. Seq2Seq (即 Encoder + Decoder 结构)

seq2seq，由Encoder和Decoder两个部分组成，每部分都是一个RNNCell（RNN、LSTM、GRU等）结构。

Encoder将一个序列编码为一个固定长度的语义向量，Decoder将该语义向量解码为另一个序列。

主要有两种形式存在，区别在于Decoder解码端，Encoder是一致的。

Encoder：

音视频序列数据分析（RNN-＞seq2seq-＞Encoder+Decoder-＞Attention-＞Transformer）1. RNN2. Seq2Seq (即 Encoder + Decoder 结构)3. Attention4. Transformer（自回归模型）Reference:

Decoder:

2.1 Cho RNN Encoder-Decoder

paper: Cho et al.(2014) Learning Phrase Representations using RNN Encoder–Decoder for Statistical Machine Translation

音视频序列数据分析（RNN-＞seq2seq-＞Encoder+Decoder-＞Attention-＞Transformer）1. RNN2. Seq2Seq (即 Encoder + Decoder 结构)3. Attention4. Transformer（自回归模型）Reference:

Decoder端，每个时刻都会接收来自Encoder端的语义向量C，与当前输入信号、隐藏状态一起，进入RNN cell

上述yt为解码端输入，开始信号一般为<START>；ht为隐藏层状态；ot为输出，一般结束预测值为<END>。

2.2 Sutskever Encoder-Decoder

paper: Sutskever et al.(2014) Sequence to Sequence Learning with Neural Networks

音视频序列数据分析（RNN-＞seq2seq-＞Encoder+Decoder-＞Attention-＞Transformer）1. RNN2. Seq2Seq (即 Encoder + Decoder 结构)3. Attention4. Transformer（自回归模型）Reference:

Decoder端，将Encoder端的语义向量C作为初始隐藏状态，与当前信号一起，进入RNN cell

因此，需要注意的是，该方式在Decoder端后续时刻并不接收C

存在问题：seq2seq框架用Encoder将输入序列编码成一个固定大小的语义向量，这个过程是对信息压缩的过程，不可不免地会损失很多信息，Decoder在解码时无法关注到输入序列的更多细节

3. Attention

注意力机制引入使为了解码端可以充分利用编码端完整的数据信息，减少信息损失。在解码层，生成每个时刻的y，都会利用到编码端的x1,x2,x3....，而不再仅仅利用最后时刻的隐藏状态向量

因此，在Encoder-Decoder结构中引入attention，以机器翻译任务为例，大致过程如下：

音视频序列数据分析（RNN-＞seq2seq-＞Encoder+Decoder-＞Attention-＞Transformer）1. RNN2. Seq2Seq (即 Encoder + Decoder 结构)3. Attention4. Transformer（自回归模型）Reference:

但是，Attention 并不一定要在 Encoder-Decoder 框架下使用的，他是可以脱离 Encoder-Decoder 框架的，如下图所示：

音视频序列数据分析（RNN-＞seq2seq-＞Encoder+Decoder-＞Attention-＞Transformer）1. RNN2. Seq2Seq (即 Encoder + Decoder 结构)3. Attention4. Transformer（自回归模型）Reference:

具体可以理解为：图书馆（source）有很多书（value），每本书都有自己的编号（key），当我们想了解关于AI编程（query）方面的内容时，并不是所有书都仔细看，我们就主要关注其中相关的书籍（value2和value5）

3.1 attention原理

attention计算主要分为三个阶段：

第一步： query 和 key 进行相似度计算，得到权值

音视频序列数据分析（RNN-＞seq2seq-＞Encoder+Decoder-＞Attention-＞Transformer）1. RNN2. Seq2Seq (即 Encoder + Decoder 结构)3. Attention4. Transformer（自回归模型）Reference:

第二步：将权值进行归一化，得到直接可用的权重

音视频序列数据分析（RNN-＞seq2seq-＞Encoder+Decoder-＞Attention-＞Transformer）1. RNN2. Seq2Seq (即 Encoder + Decoder 结构)3. Attention4. Transformer（自回归模型）Reference:

第三步：将权重和 value 进行加权求和

音视频序列数据分析（RNN-＞seq2seq-＞Encoder+Decoder-＞Attention-＞Transformer）1. RNN2. Seq2Seq (即 Encoder + Decoder 结构)3. Attention4. Transformer（自回归模型）Reference:

3.2 attention的类型

从计算区域、所用信息、结构层次、使用模型和权值计算方式5个方面对Attention的形式进行归类：

音视频序列数据分析（RNN-＞seq2seq-＞Encoder+Decoder-＞Attention-＞Transformer）1. RNN2. Seq2Seq (即 Encoder + Decoder 结构)3. Attention4. Transformer（自回归模型）Reference:

1. 计算区域

1）Soft Attention，这是比较常见的Attention方式，对所有key求权重概率，每个key都有一个对应的权重，是一种全局的计算方式（也可以叫Global Attention）。

2）Hard Attention，这种方式是直接精准定位到某个key，其余key就都不管了，相当于这个key的概率是1，其余key的概率全部是0。因此这种对齐方式要求很高，要求一步到位，如果没有正确对齐，会带来很大的影响。另一方面，因为不可导，一般需要用强化学习的方法进行训练。

3）Local Attention，这种方式其实是以上两种方式的一个折中，对一个窗口区域进行计算。先用Hard方式定位到某个地方，以这个点为中心可以得到一个窗口区域，在这个小区域内用Soft方式来算Attention。

2. 所用信息

1）General Attention，这种方式利用到了外部信息，常用于需要构建两段文本关系的任务，query一般包含了额外信息，根据外部query对原文进行对齐。

2）Self Attention，这种方式只使用内部信息，key和value以及query只和输入原文有关，key=value=query，相当于寻找原文内部的关系。

3. 结构层次

结构方面根据是否划分层次关系，分为单层attention，多层attention和多头attention：

1）单层Attention，这是比较普遍的做法，用一个query对一段原文进行一次attention。

2）多层Attention，一般用于文本具有层次关系的模型，假设我们把一个document划分成多个句子，在第一层，我们分别对每个句子使用attention计算出一个句向量（也就是单层attention）；在第二层，我们对所有句向量再做attention计算出一个文档向量（也是一个单层attention），最后再用这个文档向量去做任务。

3）多头Attention，用多个query对一段原文进行了多次attention，每个query都关注到原文的不同部分，相当于重复做多次单层attention：

音视频序列数据分析（RNN-＞seq2seq-＞Encoder+Decoder-＞Attention-＞Transformer）1. RNN2. Seq2Seq (即 Encoder + Decoder 结构)3. Attention4. Transformer（自回归模型）Reference:

最后再把这些结果拼接起来：

音视频序列数据分析（RNN-＞seq2seq-＞Encoder+Decoder-＞Attention-＞Transformer）1. RNN2. Seq2Seq (即 Encoder + Decoder 结构)3. Attention4. Transformer（自回归模型）Reference:

4. 模型方面

1）CNN+Attention

CNN的卷积操作可以提取重要特征，也算是Attention的思想，但是CNN的卷积感受视野是局部的，需要通过叠加多层卷积区去扩大视野。

Max Pooling直接提取数值最大的特征，也像是hard attention的思想，直接选中某个特征。

CNN上加Attention可以加在这几方面：

a. 在卷积操作前做attention

b. 在卷积操作后做attention

c. 在pooling层做attention，代替max pooling。

2）LSTM+Attention

LSTM内部有Gate机制，其中input gate选择哪些当前信息进行输入，forget gate选择遗忘哪些过去信息，算是一定程度的Attention

LSTM通常使用Attention机制，对所有step的hidden state进行加权，把注意力集中到整段文本中比较重要的hidden state信息。

3）纯Attention

一堆向量去计算attention。

5. 相似度计算方式

1）点乘：

音视频序列数据分析（RNN-＞seq2seq-＞Encoder+Decoder-＞Attention-＞Transformer）1. RNN2. Seq2Seq (即 Encoder + Decoder 结构)3. Attention4. Transformer（自回归模型）Reference:

2）矩阵相乘：

音视频序列数据分析（RNN-＞seq2seq-＞Encoder+Decoder-＞Attention-＞Transformer）1. RNN2. Seq2Seq (即 Encoder + Decoder 结构)3. Attention4. Transformer（自回归模型）Reference:

3）cos相似度：

音视频序列数据分析（RNN-＞seq2seq-＞Encoder+Decoder-＞Attention-＞Transformer）1. RNN2. Seq2Seq (即 Encoder + Decoder 结构)3. Attention4. Transformer（自回归模型）Reference:

4）串联方式：

音视频序列数据分析（RNN-＞seq2seq-＞Encoder+Decoder-＞Attention-＞Transformer）1. RNN2. Seq2Seq (即 Encoder + Decoder 结构)3. Attention4. Transformer（自回归模型）Reference:

5）多层感知机：

音视频序列数据分析（RNN-＞seq2seq-＞Encoder+Decoder-＞Attention-＞Transformer）1. RNN2. Seq2Seq (即 Encoder + Decoder 结构)3. Attention4. Transformer（自回归模型）Reference:

3.3 Attention的细节

以点积为例介绍attention的具体计算方式。

音视频序列数据分析（RNN-＞seq2seq-＞Encoder+Decoder-＞Attention-＞Transformer）1. RNN2. Seq2Seq (即 Encoder + Decoder 结构)3. Attention4. Transformer（自回归模型）Reference:

可以理解为：

query对应的是需要被表达的序列(称为序列A)，key和value对应的是用来表达A的序列(称为序列B)。

序列A和序列B在高维空间α中的表达 A_α的每个位置分别和B_α计算相似度，产生的权重作用于序列B在高维空间β中的高维表达B_β，获得序列A（query）在高维空间β中的高维表达A_β

3.4 seq2seq中的两种attention机制

这两种机制都是基于2.1 Cho Encoder-Decoder的结构，编码端Encoder是一致的，差异在于解码端Decoder

Encoder：

音视频序列数据分析（RNN-＞seq2seq-＞Encoder+Decoder-＞Attention-＞Transformer）1. RNN2. Seq2Seq (即 Encoder + Decoder 结构)3. Attention4. Transformer（自回归模型）Reference:

x为Encoder端输入，h为Encoder端隐藏层，o为Encoder端输出

1. Bahdanau Attention

paper：Bahdanau et.al(2014)

音视频序列数据分析（RNN-＞seq2seq-＞Encoder+Decoder-＞Attention-＞Transformer）1. RNN2. Seq2Seq (即 Encoder + Decoder 结构)3. Attention4. Transformer（自回归模型）Reference:

Decoder分为两步进行：

1）生成当前时刻的语义向量C

音视频序列数据分析（RNN-＞seq2seq-＞Encoder+Decoder-＞Attention-＞Transformer）1. RNN2. Seq2Seq (即 Encoder + Decoder 结构)3. Attention4. Transformer（自回归模型）Reference:

当前时刻权值e_t由 Decoder端隐藏层状态s_t-1 (query)和 Encoder端隐藏层状态h_t (key)计算得到；最终的attention由权值e 和 Encoder端隐藏层状态h (value)计算得到

2）传递隐层信息并预测

音视频序列数据分析（RNN-＞seq2seq-＞Encoder+Decoder-＞Attention-＞Transformer）1. RNN2. Seq2Seq (即 Encoder + Decoder 结构)3. Attention4. Transformer（自回归模型）Reference:

解码端Decoder的RNN cell，以 s_t-1,y_t-1,c_t的拼接为输入（y_t-1为Decoder端上一时刻输出，即当前时刻输入），进行预测

2. Luong Attention

paper: Luong et.al(2015)

音视频序列数据分析（RNN-＞seq2seq-＞Encoder+Decoder-＞Attention-＞Transformer）1. RNN2. Seq2Seq (即 Encoder + Decoder 结构)3. Attention4. Transformer（自回归模型）Reference:

Decoder分为三步进行：

1) 传递隐层信息

音视频序列数据分析（RNN-＞seq2seq-＞Encoder+Decoder-＞Attention-＞Transformer）1. RNN2. Seq2Seq (即 Encoder + Decoder 结构)3. Attention4. Transformer（自回归模型）Reference:

解码端Decoder的RNN cell，以 s_t-1,y_t-1的拼接为输入（y_t-1为Decoder端上一时刻输出，即当前时刻输入）

2）生成当前时刻的语义向量C

音视频序列数据分析（RNN-＞seq2seq-＞Encoder+Decoder-＞Attention-＞Transformer）1. RNN2. Seq2Seq (即 Encoder + Decoder 结构)3. Attention4. Transformer（自回归模型）Reference:

当前时刻权值e_t由 Decoder端隐藏层状态s_t (query)和 Encoder端隐藏层状态h_t (key)计算得到；最终的attention由权值e 和 Encoder端隐藏层状态h (value)计算得到

3）传递attention隐层信息并预测

音视频序列数据分析（RNN-＞seq2seq-＞Encoder+Decoder-＞Attention-＞Transformer）1. RNN2. Seq2Seq (即 Encoder + Decoder 结构)3. Attention4. Transformer（自回归模型）Reference:

相比于上述Bahdanau Attention，该结构新添加concatenation layer （也可是其他模型结构），以Decoder端隐藏层状态s_t 和当前时刻的语义向量C 为输入，产生一个注意力隐状态，然后进行预测

4. Transformer（自回归模型）

paper:Attention is All you Need (nips.cc)

4.1 整体架构

音视频序列数据分析（RNN-＞seq2seq-＞Encoder+Decoder-＞Attention-＞Transformer）1. RNN2. Seq2Seq (即 Encoder + Decoder 结构)3. Attention4. Transformer（自回归模型）Reference:

Encoder端：

多个multi-head attention层（self-attention）

Decoder端：

多个masked multi-head attention层（self-attention）

多个multi-head attention层（cross-attention）

涉及的其他部分：

Positional Embedding

4.2 multi-head attention

【self-attention】encoder中的self-attention的query, key, value都对应了源端序列(即A和B是同一序列)，decoder中的self-attention的query, key, value都对应了目标端序列。

【cross-attention】decoder中的cross-attention的query对应了目标端序列，key, value对应了源端序列(每一层中的cross-attention用的都是encoder的最终输出)

Attention是将query和key映射到同一高维空间中去计算相似度，而对应的multi-head attention把query和key映射到高维空间α的不同子空间

音视频序列数据分析（RNN-＞seq2seq-＞Encoder+Decoder-＞Attention-＞Transformer）1. RNN2. Seq2Seq (即 Encoder + Decoder 结构)3. Attention4. Transformer（自回归模型）Reference:

中去计算相似度。

具体而言：如果是N头注意力，则将高维空间维度划分N份，形成N个子空间，每个子空间进行attention计算，然后在最后合并不同子空间的attention信息。

在参数总量保持不变的情况下，降低了计算每个head的attention时每个向量的维度，降低整体计算量；

由于Attention在不同子空间中有不同的分布，Multi-head Attention实际上是寻找了序列之间不同角度的关联关系，增强了attention表现力；

音视频序列数据分析（RNN-＞seq2seq-＞Encoder+Decoder-＞Attention-＞Transformer）1. RNN2. Seq2Seq (即 Encoder + Decoder 结构)3. Attention4. Transformer（自回归模型）Reference:

4.3 Decoder端的Mask

Transformer模型属于自回归模型，在Decoder端后面预测的token的推断是基于前面的token的。

在推理阶段，token是按照从左往右的顺序推理的。也就是说，在推理timestep=T的token时，decoder只能“看到”timestep < T的 T-1 个Token, 不能和timestep大于它自身的token做attention。

因此，为了保证训练时和推理时的一致性，在训练时要同样防止token与它之后的token去做attention，加入mask矩阵。

下图为Decoder端，输入矩阵"<Begin> I have a cat" (0, 1, 2, 3, 4) 和 mask矩阵 5×5

音视频序列数据分析（RNN-＞seq2seq-＞Encoder+Decoder-＞Attention-＞Transformer）1. RNN2. Seq2Seq (即 Encoder + Decoder 结构)3. Attention4. Transformer（自回归模型）Reference:

Mask 操作是在 Self-Attention 的 Softmax 之前使用的

具体操作可分析为：

1）通过输入矩阵 X 计算得到 Q, K, V 矩阵。然后计算 Q 和 K

音视频序列数据分析（RNN-＞seq2seq-＞Encoder+Decoder-＞Attention-＞Transformer）1. RNN2. Seq2Seq (即 Encoder + Decoder 结构)3. Attention4. Transformer（自回归模型）Reference:

2）使用 Mask 矩阵遮挡住每一个单词之后的信息

音视频序列数据分析（RNN-＞seq2seq-＞Encoder+Decoder-＞Attention-＞Transformer）1. RNN2. Seq2Seq (即 Encoder + Decoder 结构)3. Attention4. Transformer（自回归模型）Reference:

3）进行softmax操作

4）与V矩阵进行计算

音视频序列数据分析（RNN-＞seq2seq-＞Encoder+Decoder-＞Attention-＞Transformer）1. RNN2. Seq2Seq (即 Encoder + Decoder 结构)3. Attention4. Transformer（自回归模型）Reference:

4.4 Positional Encoding

Why: 为什么需要位置编码?

Transformer模型抛弃了RNN作为序列学习的基本模型（ransformer的特性使得encoder的输入向量之间完全平等）。RNN本身是一种顺序结构，天生就包含了词在序列中的位置信息。

当抛弃RNN，完全采用Attention取而代之，这些词序信息就会丢失，模型就没有办法知道每个词在句子中的相对和绝对的位置信息。

因此，有必要把词序信号加到词向量上帮助模型学习这些信息，位置编码（Positional Encoding）就是用来解决这种问题的方法。

What: 位置编码是什么？

位置编码（Positional Encoding）是一种用词的位置信息对序列中的每个词进行二次表示的方法。

优势？

下图[b]中的输入Embedding部分没有变化，但是Positional Encoding部分被打乱了顺序
下图[c]中的Positional Encoding部分没有变化，但是Embedding部分被打乱了顺序
实际上[b]和[c]完全等价，因为在2种输入中E1-P5, E2-P1, E3-P3, E4-P2, E5-P4这个对应关系恒定。

音视频序列数据分析（RNN-＞seq2seq-＞Encoder+Decoder-＞Attention-＞Transformer）1. RNN2. Seq2Seq (即 Encoder + Decoder 结构)3. Attention4. Transformer（自回归模型）Reference:

How: 怎么实现位置编码？

一种好的位置编码方案需要满足以下几条要求：

它能为每个时间步输出一个独一无二的编码；
不同长度的句子之间，任何两个时间步之间的距离应该保持一致；
模型应该能毫不费力地泛化到更长的句子。它的值应该是有界的；
它必须是确定性的

Transformer的作者们提出：首先，这种编码不是单一的一个数值，而是包含句子中特定位置信息的d维向量（非常像词向量）。第二，这种编码没有整合进模型，而是用这个向量让每个词具有它在句子中的位置的信息。

位置向量（PE）的维度等于词向量（WE）的维度

论文中使用的Positional Encoding(PE)是正余弦函数，位置(pos)越小，波长越长，每一个位置对应的PE都是唯一的。

具体而言：给定一个长度为n的输入序列，t 表示词在序列中的位置，d 是位置向量的维度，生成位置向量的函数定义为：

音视频序列数据分析（RNN-＞seq2seq-＞Encoder+Decoder-＞Attention-＞Transformer）1. RNN2. Seq2Seq (即 Encoder + Decoder 结构)3. Attention4. Transformer（自回归模型）Reference:

可以认为，位置编码向量是一个包含每个频率的正弦和余弦对。

音视频序列数据分析（RNN-＞seq2seq-＞Encoder+Decoder-＞Attention-＞Transformer）1. RNN2. Seq2Seq (即 Encoder + Decoder 结构)3. Attention4. Transformer（自回归模型）Reference:

后续？

位置编码向量和序列的embedding向量相加，送入之后的模型中。

Reference:

seq2seq中的两种attention机制（图+公式） - 知乎 (zhihu.com)

一文看懂 Attention（本质原理+3大优点+5大类型） - 知乎 (zhihu.com)

【经典精读】Transformer模型深度解读 - 知乎 (zhihu.com)

Transformer 模型详解 - 简书 (jianshu.com)

一文读懂Transformer模型的位置编码 - 知乎 (zhihu.com)

音视频序列数据分析（RNN-＞seq2seq-＞Encoder+Decoder-＞Attention-＞Transformer）1. RNN2. Seq2Seq (即 Encoder + Decoder 结构)3. Attention4. Transformer（自回归模型）Reference:

1. RNN

2. Seq2Seq (即 Encoder + Decoder 结构)

2.1 Cho RNN Encoder-Decoder

2.2 Sutskever Encoder-Decoder

3. Attention

3.1 attention原理

3.2 attention的类型

3.3 Attention的细节

3.4 seq2seq中的两种attention机制

4. Transformer（自回归模型）

4.1 整体架构

4.2 multi-head attention

4.3 Decoder端的Mask

4.4 Positional Encoding

Reference:

继续阅读

简单文档分类——朴素贝叶斯算法朴素贝叶斯算法简单文档分类实例步骤总结朴素贝叶斯分类调用(sklearn)

考证大全 | 证券从业资格考试

敲黑板！2021年证券从业考试考点预测

2021年银行从业考试考情介绍,果断收藏!

证券从业合格证书什么时候打印？有哪些注意事项？

【干货满满】初级银行从业考试《个人理财》重点梳理

2020年经济师考试，难吗？

初级银行从业资格证有什么用？

MBA提前面试纯干货分享

MBA值得学么

吴恩达logistic回归实现

【人工智能行业大师访谈1】吴恩达采访 Geoffery Hinton

深度学习模型分析人类复杂疾病的准确性

【趋高机器视觉】机器视觉技术原理解析及解决方案

解码器用于语义分割：数据依赖的解码可以实现灵活的特征聚合

cs231n斯坦福基于卷积神经网络的CV学习笔记（一）KNN和线性分类器/分类器损失/反向传播一，KNN图像分类算法二，线性分类器三，线性分类器损失四，反向传播五，神经网络