論文筆記：NLP之Attention is all you need論文筆記：NLP之Attention is all you need. Transformer 的結構與特點

2023-03-18 21:39:48

論文筆記：NLP之Attention is all you need. Transformer 的結構與特點

ref：

1.Step-by-step to Transformer：深入解析工作原理（以Pytorch機器翻譯為例）

2.How do Transformers Work in NLP? A Guide to the Latest State-of-the-Art Models

1. transformer的自注意力機制實際上是encoder和decoder自身内部分别對于各自語言模型的模組化，建立分布找到hidden。

2.Seq2Seq 中的context attention機制是encoder和decoder之間的hidden。

3. Mask：

encoder：self-attention中使用padding mask

decoder：self-attention中使用padding mask和sequence mask

context-attention中使用padding mask

4.Embedding:

wording embedding
position embedding: 對詞位置的編碼

5. LayerNorm: 在d-model次元上計算平均值和方差，并歸一化。

6. multi-head self-attention layer：

論文筆記：NLP之Attention is all you need論文筆記：NLP之Attention is all you need. Transformer 的結構與特點

scaled dot-product attention 為了減輕梯度消失問題

multi-head 在初始化Q K V映射矩陣時，做多個線性映射

7.前向傳播 position-wise feed forward：為一個全連接配接層，用relu做激活函數

8. residual connection：目的是減輕梯度消失問題

9.結構上：

encoder：multihead self-attention + feed forward + ResNet

decoder：multihead self-attention + multihead context attention + feed forward + ResNet

10. Limitation:

由于在做資料分割時，把sequence分成了固定長度的片段。不同片段之間可能會失去上下文資訊。

一個改進工作為transformer-XL。使用前一片段的hidden作為context資訊補入目前訓練中。但是我的了解是，這樣處理會使Transformer-XL變回RNN類的模型，隻能按照時間序列處理資料，前一個資料未完成時無法進入下一訓練資料。使得模型的并行性下降。

論文筆記：NLP之Attention is all you need論文筆記：NLP之Attention is all you need. Transformer 的結構與特點

論文筆記：NLP之Attention is all you need. Transformer 的結構與特點

1. transformer的自注意力機制實際上是encoder和decoder自身内部分别對于各自語言模型的模組化，建立分布找到hidden。

2.Seq2Seq 中的context attention機制是encoder和decoder之間的hidden。

3. Mask：

4.Embedding:

5. LayerNorm: 在d-model次元上計算平均值和方差，并歸一化。

6. multi-head self-attention layer：

7.前向傳播 position-wise feed forward：為一個全連接配接層，用relu做激活函數

8. residual connection：目的是減輕梯度消失問題

9.結構上：

10. Limitation:

繼續閱讀

從詞向量衡量标準到全局向量的詞嵌入模型GloVe再到一詞多義的解決方式衡量标準Evaluation引子全局向量的詞嵌入應用對一詞多義的思考Reference

NLP︱進階詞向量表達（一）——GloVe（理論、相關測評結果、R&python實作、相關應用）一、理論簡述二、測評三、Glove實作&R&python四、相關應用

GloVe與word2vec的差別，及GloVe的缺陷

統計學習大作業-BERT模型1 文本處理-BERT模型2 參考資料：

更别緻的詞向量模型(一)：simpler glove

glove_python安裝（避免編譯錯誤）

如何使用PyTorch建構Transformer模型實作語言生成任務

python 分析qq聊天記錄

[一起學BERT]（一）：BERT模型的原理基礎Self-Attention機制理論Multi-head Self-Attention注意力機制位置編碼Transformer理論BERT理論

ELMO BERT GPT

BERT、Elmo、GPT一、發展曆史二、bert三、ERNIE四、GPT—transformer的decoder

如何使用Transformer模型實作語言分類任務

anaconda中科大鏡像

NLP從入門到放棄_IBM Model1IBM Model1

人工智能如何有效地運用于自然語言處理

解碼器用于語義分割：資料依賴的解碼可以實作靈活的特征聚合