天天看點

image caption 方法綜述(三)image caption領域方法綜述(三)

image caption領域方法綜述(三)

image caption領域自從引入了深度學習以後發展十分迅速,通過2015年到2020年發表的論文,我将image caption領域的方法分為4類:基于注意力機制、基于對抗生産網絡、基于強化學習以及基于密集描述,本篇參考了論文 圖像描述技術綜述[J]. 計算機科學, 2020, 47(12): 149-160.,這一篇介紹第三部分:基于強化學習的方法。

三、基于強化學習

強化學習也是機器學習領域中重要的方法之一,也稱為鼓勵學習、增強學習。在強化學習中,智能體(Agent)以嘗試的方式與環境之間不斷互動。在互動過程中,環境的狀态由于智能體的動作而發生改變,并且環境将獎賞和目前時間的狀态作為強化信号回報到智能體,智能體在強化信号的作用下改變其在環境中的動作,可以針對具體的問題實施特定的動作政策,旨在擷取最大的獎賞。在圖像描述任務中,強化學習可以解決在訓練和預測過程中解碼器的不同參數帶來的解碼(曝光)偏差的問題,并且在訓練時通過反向傳播算法對模型進行訓練優化,進而解決訓練和測評名額不比對的問題。

1、《Sequence Level Training with Recurrent Neural Networks》于2015年使用強化學習來解決自然語言處理領域的問題。由于強化學習可以解決基于馬爾可夫的動态規劃問題,而 RNN 的隐藏層的傳遞符合馬爾可夫過程,是以 Ranzato等在模型的解碼端引入強化學習,解決了因在模型的訓練和預測過程中解碼部分存在不同參數依賴而導緻的解碼誤差傳遞問題。(論文連結)

2、 《Improved Image Captioning via Policy Gradient optimization of SPIDEr》提出基于強化學習的圖像描述方法,該方法同樣以編碼器G解碼器為基礎,使用 CIDer和SPICE兩個名額的組合作為模型的獎勵函數,分别用于衡量句子文法和句子與圖像的相似程度,并用政策梯度方法進行優化。(論文連結)

3、《Self-critical sequence training for image captioning》以注意力機制模型為基礎,把 序列問題看作強化學習問題,提出SCST強化學習方法,并且對注意力機制中的LSTM 進行了改進,大大提高了實驗的準确率。《Self-critical n-step training for image captioning》提出了一種新的優勢函數,并且在強化學習過程中使用n個時間步的累計獎賞代替交叉熵損失函數來評價智能體的動作,取得了不錯的效果。(論文連結)

4、《Better Captioning with Sequence-Level Exploration》為了消除解碼偏差問題,提出在交叉熵損失函數中使用序列級監督代替單詞級監督,實驗表明該方法對模型的準确率和召回率均有所提升。基于強化學習的方法能夠促使模型在特定環境下實作自身的調整與更新,使模型考慮長期的高回報,而不是一次性的比對問題,進而使計算機的訓練過程更加接近人類學習的過程。強化學習算法的關鍵在于其獎勵和回報機制,近年來随着研究者們對獎勵函數不斷進行改進,強化學習在圖像描述任務中取得了良好的表現。(論文連結)

繼續閱讀