天天看點

小樣本學習|元學習ICLR2017《Optimization as A Model for Few-shot Learning》1. 思想2. 過程3. 實驗

目錄

  • 1. 思想
  • 2. 過程
  • 3. 實驗
小樣本學習|元學習ICLR2017《Optimization as A Model for Few-shot Learning》1. 思想2. 過程3. 實驗

《Optimization as A Model for Few-shot Learning》

網絡名稱:Meta-Learner LSTM

文章來源:ICLR2017

小樣本學習|元學習ICLR2017《Optimization as A Model for Few-shot Learning》1. 思想2. 過程3. 實驗

1. 思想

  問題:小樣本數量少,梯度下降算法是針對大量樣本疊代才能收斂到較好的結果。

  目标: 針對最終的訓練集X和測試集Y

  1.給出一個好的神經網絡的參數初始化。

  2.利用LSTM對神經網絡的參數進行更新。

  注意有2個網絡:神經網絡(Learner),用來逼近輸入樣本X輸出Y的函數;神經元網絡LSTM(Meta-learner),用來替換梯度下降算法更新神經網絡的參數。

小樣本學習|元學習ICLR2017《Optimization as A Model for Few-shot Learning》1. 思想2. 過程3. 實驗

LSTM長短期記憶網絡:

小樣本學習|元學習ICLR2017《Optimization as A Model for Few-shot Learning》1. 思想2. 過程3. 實驗

  用上一步 ct-1 和這一步的 ct(加~ ) 來更新 ct 。其中 ft 為忘記門, it 為輸入門,是兩個權重參數。

小樣本學習|元學習ICLR2017《Optimization as A Model for Few-shot Learning》1. 思想2. 過程3. 實驗

利用LSTM作神經網絡參數的更新:

  想利用LSTM進行神經網絡參數更新,來近似梯度下降的更新:

小樣本學習|元學習ICLR2017《Optimization as A Model for Few-shot Learning》1. 思想2. 過程3. 實驗

則須令:

小樣本學習|元學習ICLR2017《Optimization as A Model for Few-shot Learning》1. 思想2. 過程3. 實驗
小樣本學習|元學習ICLR2017《Optimization as A Model for Few-shot Learning》1. 思想2. 過程3. 實驗

  然後LSTM中就剩兩個權重參數了。it 就是學習率參數,而 ft 在梯度下降中本身應該等于1的,這裡我們設定它是變動的權重參數,可以讓網絡跳出局部最優解。這兩個變動的參數的表示:

小樣本學習|元學習ICLR2017《Optimization as A Model for Few-shot Learning》1. 思想2. 過程3. 實驗
小樣本學習|元學習ICLR2017《Optimization as A Model for Few-shot Learning》1. 思想2. 過程3. 實驗

  這樣我們将LSTM做成了一個神經元網絡學習器,參數 Wf、bf、WI、bI是需要訓練的神經元網絡參數,記為 Θ 。

小樣本學習|元學習ICLR2017《Optimization as A Model for Few-shot Learning》1. 思想2. 過程3. 實驗

小總結:

   LSTM的過程就是輸入神經網絡的參數(θ),輸出更新的神經網絡參數,過程相當于參數 θ 的梯度下降。(實際的輸入還包括損失函數及其梯度等。)

  注意區分神經網絡參數(Learner,θ)和神經元網絡參數(Meta-learner, Θ),神經網絡是用來逼近輸入樣本X輸出Y的函數,神經元網絡LSTM是用來更新梯度的。

小樣本學習|元學習ICLR2017《Optimization as A Model for Few-shot Learning》1. 思想2. 過程3. 實驗

2. 過程

小樣本學習|元學習ICLR2017《Optimization as A Model for Few-shot Learning》1. 思想2. 過程3. 實驗

  針對目标任務(X , Y)訓練神經網絡。

  1. 利用多個任務序列(Xi , Yi)更新神經網絡參數(θi),但是這裡不更新神經元網絡參數(Θ,即 Wf、bf、WI、bI)。過程如上圖。對應僞代碼中7-12。

  2. 利用(X , Y)的損失函數用梯度下降法更新神經元網絡參數。對應僞代碼14-16。

  3. 重複1,2過程n次。

小樣本學習|元學習ICLR2017《Optimization as A Model for Few-shot Learning》1. 思想2. 過程3. 實驗
小樣本學習|元學習ICLR2017《Optimization as A Model for Few-shot Learning》1. 思想2. 過程3. 實驗

3. 實驗

小樣本學習|元學習ICLR2017《Optimization as A Model for Few-shot Learning》1. 思想2. 過程3. 實驗
小樣本學習|元學習ICLR2017《Optimization as A Model for Few-shot Learning》1. 思想2. 過程3. 實驗

1.原文下載下傳

2.源碼位址

3.經典論文彙總: 小樣本學習論文彙總連結

繼續閱讀