Attention原理理解

Attention机制、self-attention机制原理及计算Attention原理理解

个人理解假定源文档source，其中的每一个词为value，并且给每一个词进行编号key。query暂时理解为需求，用来预测相关的query。

Attention机制、self-attention机制原理及计算Attention原理理解

![图片来自网络，侵删](https://img-blog.csdnimg.cn/20191207105930782.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzQxOTYxMjM3,size_16,color_FFFFFF,t_70

Attention机制、self-attention机制原理及计算Attention原理理解

对齐机制

Attention机制也就是对齐机制；提出该概念的理由如下：

假设输入的是"小明/喜欢/猫"，则翻译结果应该是"XiaoMing likes cat"。根据上述架构，在解码得到"XiaoMing",“likes”," cat"时，引入的语义编码向量是相同的，也就是"小明"，“喜欢”，“猫"在翻译时对得到"XiaoMing”,“likes”," cat"的作用是相同的。这显然不合理，在解码得到"XiaoMing"时，"小明"的作用应该最大才对。因此引入对齐机制：解码时，语义编码向量随输入动态变化！

对齐机制的理解以RNN为例：

编码时，记下来每一个时刻的RNN编码输出(h1,h2,h3,…hn)；解码时，根据前一时刻的解码状态，即yi-1，计算出来一组权重(a1,a2,…an)，这组权重决定了在当前的解码时刻，(h1,h2,h3,…hn)分别对解码的贡献。

Attention机制、self-attention机制原理及计算Attention原理理解

Attention机制、self-attention机制原理及计算Attention原理理解

Attention原理理解

对齐机制

继续阅读

基于深度学习的推荐(三)：基于attention的AFM模型

seq2seq模型 + Attention机制

传统的seq2seq模型与seq2seq with attention的模型原理细节解析

elasticlunr.js 最新版本v0.6.7发布啦应用示例为什么你需要elasticlunr.js?

RNN/LSTM学习资料总结

使用中文维基百科进行GloVe实验

从词向量衡量标准到全局向量的词嵌入模型GloVe再到一词多义的解决方式衡量标准Evaluation引子全局向量的词嵌入应用对一词多义的思考Reference

NLP︱高级词向量表达（一）——GloVe（理论、相关测评结果、R&python实现、相关应用）一、理论简述二、测评三、Glove实现&R&python四、相关应用

GloVe与word2vec的区别，及GloVe的缺陷

更别致的词向量模型(一)：simpler glove

glove_python安装（避免编译错误）

python 分析qq聊天记录

[一起学BERT]（一）：BERT模型的原理基础Self-Attention机制理论Multi-head Self-Attention注意力机制位置编码Transformer理论BERT理论

ELMO BERT GPT

BERT、Elmo、GPT一、发展历史二、bert三、ERNIE四、GPT—transformer的decoder

人工智能如何有效地运用于自然语言处理