論文筆記——Attention Is All You Need(Transformer)動機模型總結

2023-03-18 16:42:59

文章目錄

動機
模型
- Encoder
- Decoder
總結

之前看了Google發表的Transformer的相關論文，雖然距離論文發表已經過去了三年，但是Transformer的效果仍然沒有被超越。為了讓自己之後能夠迅速回憶起Transformer的相關内容，是以記錄了這篇論文筆記記錄一下自己閱讀論文的筆記。

動機

在Transformer提出之前，正常情況下都是使用RNN模型來處理機器翻譯任務。使用RNN來做機器翻譯任務存在兩個缺點：

（1）由于輸入的sequence長度很長，是以對于目前詞來說對其影響最大的是鄰近的詞。但是一個句子中對一個單詞有影響的單詞不一定就在其附近

（2）其次使用RNN模型其計算速度過慢，通常輸出一個端到端的句子就需要耗費極大的記憶體同時難以進行并行化計算

而Google提出的Transformer模型就是為了解決這兩個缺點：

1.使用Attention機制代替LSTM的各種控制單元，讓模型去學習句子中各個單詞的互相影響

2.Transformer由于具有參數共享的相同模型層，是以相較于RNN具有極高的并行化操作

模型

Transformer的總結架構如下

論文筆記——Attention Is All You Need(Transformer)動機模型總結

簡單記錄一下Transformer的架構（之後進行詳細的補充）

總體來看Transformer分為兩個部分：Input Module 與 Output Module

本質上Transformer就是個 Encode-Decode 的過程

Encoder

Input Module包括 N=6 個編碼器（N=6實驗效果最好）

Encode就是一個Attention的過程，三個矩陣 Q K V 就是這個Encoder的核心。

Input的原始輸入是經過Embedding層後的詞向量矩陣（一個句子）

經過三個權重矩陣得到每個詞向量的 q 、k、 v （矩陣就是用來并行化計算的）

然後使用self-attention機制得到每個詞向量的表示 z

使用殘差網絡加上原始向量再進行正則化喂入前向傳播網絡，就這樣經過6層Encoder就得到輸入句子的表示

Decoder

這一部分等之後再進行補充

總結

Transformer的一些細節在此就不再贅述，同時PyTorch也對Transformer進行了很好的封裝（當然也封裝的很死）。總的來說Transformer可以說是在AI相關領域完成任務很好的模型，根據李宏毅老師的說法，在科研界CNN與RNN能做的任務基本被Transformer洗過了一遍，由此可見Transformer的強大，當然Transformer在很多地方還是不能取代之前兩個模型的。

附上一篇講解Transformer非常好的部落格Transformer詳解

論文筆記——Attention Is All You Need(Transformer)動機模型總結

文章目錄

動機

模型

Encoder

Decoder

總結

繼續閱讀

簡單文檔分類——樸素貝葉斯算法樸素貝葉斯算法簡單文檔分類執行個體步驟總結樸素貝葉斯分類調用(sklearn)

考證大全 | 證券從業資格考試

敲黑闆！2021年證券從業考試考點預測

2021年銀行從業考試考情介紹,果斷收藏!

證券從業合格證書什麼時候列印？有哪些注意事項？

【幹貨滿滿】初級銀行從業考試《個人理财》重點梳理

2020年經濟師考試，難嗎？

初級銀行從業資格證有什麼用？

MBA提前面試純幹貨分享

MBA值得學麼

吳恩達logistic回歸實作

【人工智能行業大師訪談1】吳恩達采訪 Geoffery Hinton

深度學習模型分析人類複雜疾病的準确性

【趨高機器視覺】機器視覺技術原了解析及解決方案

解碼器用于語義分割：資料依賴的解碼可以實作靈活的特征聚合

cs231n斯坦福基于卷積神經網絡的CV學習筆記（一）KNN和線性分類器/分類器損失/反向傳播一，KNN圖像分類算法二，線性分類器三，線性分類器損失四，反向傳播五，神經網絡