标準的LSTM網絡以及公式

2023-05-14 08:45:51

LSTM

使用一個特殊的存儲記憶單元可以改善

RNN

的梯度消失問題，是以在許多自然語言處理任務中它比

RNN

有更好的性能。

LSTM

單元的基本結構如下圖所示。

标準的LSTM網絡以及公式

它由輸入門 i t i_{t} it，忘記門 f t f_{t} ft，輸出門 o t o_{t} ot，以及一個記憶單元 c t c_{t} ct組成。

給定一個文本序列 x = { x 1 , x 2 , … , x n } , x t x=\left\{x_{1}, x_{2}, \ldots, x_{n}\right\}, x_{t} x={x1,x2,…,xn},xt 表示目前時間步 t t t的輸入， h t − 1 h_{t-1} ht−1表示上一步

LSTM

的輸出。

LSTM

通過門更新記憶單元狀态，添加或删除資訊以保留與任務相關的内容。 i t i_{t} it乘以候選值 u t u_{t} ut決定了添加到記憶單元的新的輸入資訊。 f t f_{t} ft 乘以 h t − 1 h_{t-1} ht−1 決定從記憶單元狀态中移除的已有資訊。輸出門 o t o_{t} ot決定從記憶單元狀态最終的輸出資訊。

輸入門:

i t = σ ( W ( i ) x t + U ( i ) h t − 1 + b ( i ) ) i_{t}=\sigma\left(W^{(i)} x_{t}+U^{(i)} h_{t-1}+b^{(i)}\right) it=σ(W(i)xt+U(i)ht−1+b(i))

忘記門:

f t = σ ( W ( f ) x t + U ( f ) h t − 1 + b ( f ) ) f_{t}=\sigma\left(W^{(f)} x_{t}+U^{(f)} h_{t-1}+b^{(f)}\right) ft=σ(W(f)xt+U(f)ht−1+b(f))

輸出門:

o t = σ ( W ( o ) x t + U ( o ) h t − 1 + b ( o ) ) o_{t}=\sigma\left(W^{(o)} x_{t}+U^{(o)} h_{t-1}+b^{(o)}\right) ot=σ(W(o)xt+U(o)ht−1+b(o))

記憶單元候選值：

u t = tanh ⁡ ( W ( u ) x t + U ( u ) h t − 1 + b ( u ) ) u_{t}=\tanh \left(W^{(u)} x_{t}+U^{(u)} h_{t-1}+b^{(u)}\right) ut=tanh(W(u)xt+U(u)ht−1+b(u))

記憶單元狀态更新:

c t = i t ⊙ u t + f t ⊙ c t − 1 c_{t}=i_{t} \odot u_{t}+f_{t} \odot c_{t-1} ct=it⊙ut+ft⊙ct−1

輸出:

h t = o t ⊙ tanh ⁡ ( c t ) h_{t}=o_{t} \odot \tanh \left(c_{t}\right) ht=ot⊙tanh(ct)

标準的LSTM網絡以及公式

繼續閱讀

網絡出口技術中的單一出口網絡結構，你會用嗎？

食品酶制劑在面米制品與焙烤食品中如何應用？有何改良優化作用？文|杜德春在焙烤食品與面制品中應用的酶制劑主要有澱粉酶、蛋白

GoogLeNet inception v3 到底有多少參數？

CNTK API文檔翻譯(11)——使用LSTM預測時間序列資料（物聯網資料）

如何訓練LSTM0. 承前啟後1. 定義LSTM的結構2. 正向計算3. 選擇優化器和損失函數4. 多次正向反向計算更新參數5. 将輸出output轉換為想要的形式

論文閱讀筆記20.05-第三周：ResNet的多種變種Residual Attention Network for Image ClassificationRes2Net: A New Multi-scale Backbone ArchitectureResNeSt: Split-Attention Networks

模型的flops、推理速度、參數量

什麼是Encoder-Decoder、Seq2Seq、Attention？2 什麼是Seq2Seq3 什麼是Attention

聲學研究：結合LSTM與ResNet的聲學回聲消除近年來，遠端辦公日益普及，遠端會議系統的使用者使用量也在不斷增加，使用者對

RNN/LSTM學習資料總結

【論文分享】MAD-GAN ：基于生成對抗網絡的時間序列資料多元異常檢測

A Guide For Time Series Prediction Using Recurrent Neural Networks (LSTMs)

詳細了解pytorch的lstm參數lstm(*input, **kwargs)

深度學習理論之數學基礎一、線性代數二機率論及資訊論

【深度學習500問】深度學習的數學基礎部分（10/9）

深度學習之卷積01 卷積02 填充Padding03 步幅Stride04 卷積核的選擇05 多通道卷積參考