目錄
長程依賴關系的解釋
為什麼傳統RNN不能解決長程依賴問題
如何解決長程依賴問題
參考資料

長程依賴關系的解釋 |
句子1:the clouds are in the (). 對語言模型而言,這裡的()很容易就能被确定為sky,因為它剛“讀過”的單詞是“clouds are in the”,語言模型的是具有記憶的,是以很大機率可以預測對。
而句子2:I grew up in France… I speak fluent ().這裡的省略号表示一大堆單詞,而這裡的()被RNN這樣的語言模型預測為French的機率就很低了,因為他的記憶已經“模糊”了,換句話說,由于不停的“讀”新的單詞,很早之前的資訊已經被沖淡了。
是以長程依賴可以了解為:當你想使用語言模型,并有效利用較早時間步的資訊,最終産生預測的時候,那麼你就要和較長路程前的資訊建立一種依賴關系,這就是長程依賴。
長程依賴問題(The Problem of Long-Term Dependencies),也就是研究長程依賴的問題。
傳回目錄
為什麼傳統RNN不能解決長程依賴問題 |
回憶RNN的網絡結構,RNN之是以能夠對序列資料模組化,是因為它具有一個記憶單元(隐藏層的參數),但是記憶單元中記錄的較早資訊會随着時間步的推移而沖淡,是以就無法建立起和較早時間步資訊的依賴關系。
如何解決長程依賴問題 |
需要改變RNN的結構,進而建立起一種和較早時間步聯系的橋梁,比如後面要細談的LSTM和GRU等。
參考資料 |