天天看点

Attention机制、self-attention机制原理及计算Attention原理理解

Attention、self-attention机制理解

Attention原理理解

Attention机制、self-attention机制原理及计算Attention原理理解

个人理解假定源文档source,其中的每一个词为value,并且给每一个词进行编号key。query暂时理解为需求,用来预测相关的query。

Attention机制、self-attention机制原理及计算Attention原理理解

![图片来自网络,侵删](https://img-blog.csdnimg.cn/20191207105930782.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzQxOTYxMjM3,size_16,color_FFFFFF,t_70

Attention机制、self-attention机制原理及计算Attention原理理解

对齐机制

Attention机制也就是对齐机制;提出该概念的理由如下:

假设输入的是"小明/喜欢/猫",则翻译结果应该是"XiaoMing likes cat"。根据上述架构,在解码得到"XiaoMing",“likes”," cat"时,引入的语义编码向量是相同的,也就是"小明",“喜欢”,“猫"在翻译时对得到"XiaoMing”,“likes”," cat"的作用是相同的。这显然不合理,在解码得到"XiaoMing"时,"小明"的作用应该最大才对。因此引入对齐机制:解码时,语义编码向量随输入动态变化!

对齐机制的理解以RNN为例:

编码时,记下来每一个时刻的RNN编码输出(h1,h2,h3,…hn);解码时,根据前一时刻的解码状态,即yi-1,计算出来一组权重(a1,a2,…an),这组权重决定了在当前的解码时刻,(h1,h2,h3,…hn)分别对解码的贡献。

Attention机制、self-attention机制原理及计算Attention原理理解

继续阅读