传统的seq2seq模型与seq2seq with attention的模型原理细节解析

2023-08-06 14:22:45

seq2seq（序列对序列），是一种深度学习模型，在机器翻译、文本摘要和图像字幕等方面取得了很大的成功。谷歌翻译从2016年底开始在生产中使用这种模型，是基于此基础上的Seq2seq Models With Attention。

seq2seq:

上下文向量成为这类型模型的瓶颈，这给模型处理长句带来了挑战。Bahdanau和Luong等人，2015年提出了一个解决方案，介绍并改进了一种称为“attention”的技术，极大地提高了机器翻译系统的质量。attention允许模型根据需要输入序列的相关部分。

传统的seq2seq模型与seq2seq with attention的模型原理细节解析

让我们继续研究attention模型。attention模型与经典的seq2seq模型有两个主要区别:

1. 编码器将更多的数据传递给解码器。编码器不传递编码阶段的最后一个隐藏状态，而是将所有的隐藏状态传递给解码器:

2. an attention解码器在产生输出之前会执行一个额外的步骤。为了关注与这个解码时间步长相关的输入部分，解码器做了以下工作:

传统的seq2seq模型与seq2seq with attention的模型原理细节解析

这个评分练习是在解码器端每次执行一个步骤时完成的。

传统的seq2seq模型与seq2seq with attention的模型原理细节解析

这是另一种观察我们在每一个解码步骤中注意到的输入句子的哪一部分的方法:

传统的seq2seq模型与seq2seq with attention的模型原理细节解析

请注意，模型并不只是盲目地将输出的第一个单词与输入的第一个单词对齐。实际上，它从训练阶段学习了如何对齐该语言对中的单词。关于这种机制的精确性的一个例子可以从上面列出的注意力论文中得到:

传统的seq2seq模型与seq2seq with attention的模型原理细节解析

可以看出模型在输出“欧洲经济区”时是如何正确注意的。在法语中，这些单词的顺序与英语相反(“european enne economique zone”)。其他的每个词的顺序都差不多。

如果您觉得已经准备好学习实现，那么确定TensorFlow的实现 Neural Machine Translation (seq2seq) Tutorial.

博客中大部分资料来自于：https://jalammar.github.io/visualizing-neural-machine-translation-mechanics-of-seq2seq-models-with-attention/

继续阅读