天天看點

深度學習面試題36:RNN與長程依賴關系(Long-Term Dependencies)

目錄

  長程依賴關系的解釋

  為什麼傳統RNN不能解決長程依賴問題

  如何解決長程依賴問題

  參考資料

深度學習面試題36:RNN與長程依賴關系(Long-Term Dependencies)
長程依賴關系的解釋

句子1:the clouds are in the (). 對語言模型而言,這裡的()很容易就能被确定為sky,因為它剛“讀過”的單詞是“clouds are in the”,語言模型的是具有記憶的,是以很大機率可以預測對。

而句子2:I grew up in France… I speak fluent ().這裡的省略号表示一大堆單詞,而這裡的()被RNN這樣的語言模型預測為French的機率就很低了,因為他的記憶已經“模糊”了,換句話說,由于不停的“讀”新的單詞,很早之前的資訊已經被沖淡了。

是以長程依賴可以了解為:當你想使用語言模型,并有效利用較早時間步的資訊,最終産生預測的時候,那麼你就要和較長路程前的資訊建立一種依賴關系,這就是長程依賴。

長程依賴問題(The Problem of Long-Term Dependencies),也就是研究長程依賴的問題。

 傳回目錄

為什麼傳統RNN不能解決長程依賴問題
深度學習面試題36:RNN與長程依賴關系(Long-Term Dependencies)

回憶RNN的網絡結構,RNN之是以能夠對序列資料模組化,是因為它具有一個記憶單元(隐藏層的參數),但是記憶單元中記錄的較早資訊會随着時間步的推移而沖淡,是以就無法建立起和較早時間步資訊的依賴關系。

如何解決長程依賴問題

需要改變RNN的結構,進而建立起一種和較早時間步聯系的橋梁,比如後面要細談的LSTM和GRU等。

參考資料

https://colah.github.io/posts/2015-08-Understanding-LSTMs/