深度學習面試題36：RNN與長程依賴關系(Long-Term Dependencies)

2020-07-13 22:51:00

目錄

　　長程依賴關系的解釋

　　為什麼傳統RNN不能解決長程依賴問題

　　如何解決長程依賴問題

　　參考資料

深度學習面試題36：RNN與長程依賴關系(Long-Term Dependencies)

長程依賴關系的解釋

句子1：the clouds are in the (). 對語言模型而言，這裡的()很容易就能被确定為sky，因為它剛“讀過”的單詞是“clouds are in the”，語言模型的是具有記憶的，是以很大機率可以預測對。

而句子2：I grew up in France… I speak fluent ().這裡的省略号表示一大堆單詞，而這裡的()被RNN這樣的語言模型預測為French的機率就很低了，因為他的記憶已經“模糊”了，換句話說，由于不停的“讀”新的單詞，很早之前的資訊已經被沖淡了。

是以長程依賴可以了解為：當你想使用語言模型，并有效利用較早時間步的資訊，最終産生預測的時候，那麼你就要和較長路程前的資訊建立一種依賴關系，這就是長程依賴。

長程依賴問題(The Problem of Long-Term Dependencies)，也就是研究長程依賴的問題。

傳回目錄

為什麼傳統RNN不能解決長程依賴問題

深度學習面試題36：RNN與長程依賴關系(Long-Term Dependencies)

回憶RNN的網絡結構，RNN之是以能夠對序列資料模組化，是因為它具有一個記憶單元（隐藏層的參數），但是記憶單元中記錄的較早資訊會随着時間步的推移而沖淡，是以就無法建立起和較早時間步資訊的依賴關系。

如何解決長程依賴問題

需要改變RNN的結構，進而建立起一種和較早時間步聯系的橋梁，比如後面要細談的LSTM和GRU等。

參考資料

https://colah.github.io/posts/2015-08-Understanding-LSTMs/

上一篇: 詳解Transformer模型（Atention is all you need）深度學習中的注意力機制(2017版)The Illustrated TransformerDissecting BERT Part 1: The Encoder

下一篇: 深度學習面試題37：LSTM Networks原理(Long Short Term Memory networks)