天天看點

論文解讀:Task Agnostic Meta-Learning for Few-shot Learning(TAML)論文解讀:Task Agnostic Meta-Learning for Few-shot Learning(TAML)

論文解讀:Task Agnostic Meta-Learning for Few-shot Learning(TAML)

  通常的,元學習可以被在多個任務(task)上訓練以期望能夠泛化到一個新的task。然而當在現有的task上過度地學習(過拟合),在新的task泛化能力會變差。換句話說,初始的meta-learner在現有的task上會學習到有偏的知識(bias),特别是樣本數量非常少的情況下。為了避免在樣本數量非常少時,meta-learner會學習到有偏的資訊,本文提出一種Task-Agnostic Meta-Learning(TAML,與Task無關的元學習)。方法簡單描述為:

我們提出了一種基于熵的方法(entropy-based),該方法通過防止在分類任務中表現不佳而對輸出标簽具有最大不确定性的無偏初始模型進行元學習。 或者,通過在可以定義合适損失的分類任務之外直接最小化初始損失的不平等,針對更普遍的情況提出了更通用的不平等最小化TAML。

動機:

(1)我們期望學習器(Learner)可以通過少量樣本進行學習并很好地适應到新的多變的任務。

(2)最近元學習(meta-learning)被用來解決小樣本學習的問題(few-shot problem),元學習模型通常包含兩個部分,分别是初始模型(initial model)和可以在少量新的任務上進行訓練的更新政策(updating strategy)。元學習的目标是自動地meta-learn更新兩個部分的參數以在新的一系列task上實作泛化能力;

(3)元學習現階段的一個問題是:訓練的initial model在多個task可能學習有偏的資訊,特别是在樣本采樣階段:

The problem with existing meta-learning approaches is that the initial model can be trained biased towards some tasks, particularly those sampled in meta-training phase. Such a biased initial model may not be well generalizable to an unseen task that has a large deviation from meta-training tasks, especially when very few examples are available on the new task.

  是以這促使我們希望學習到一個無偏的meta-learner,使得避免在某些task上學習的過好,直接降低每個task之間的訓練效果的不平衡性。

貢獻:

  我們提出兩個新的方法:

(1)基于entropy的TAML方法:使用熵可以最大化initial model預測的類标簽的不确定性來避免在某些任務上學習過度;

(2)第二種範式是受到經濟學中使用的不平等測度的啟發。 對初始模型進行元訓練,使其在各種任務中直接最小化初始模型所造成的損失不平等。 這将迫使元學習者學習一個沒有偏見的初始模型,而不會在某些特定任務上表現過度。 同時,涉及的任務可以采用任何形式的損失,而不必依賴離散的輸出。 這使該範式在分類任務之外的許多場景中更加普遍。

相關工作:

  現階段基于深度學習的元學習大概分為兩種:

(1)learning hand-designed optimizer。

  • 基于LSTM的元學習:

LSTM based meta-learner approach in which LSTM meta-learner takes the gradient of

a learner and proposed an update to the learner’s parameters.

  • MAML:
It trains a model on a variety of tasks to have a good initialization point that can be quickly adapted (few or one gradient steps) to a new task using few training examples
  • 時空卷積+注意力機制 SNALI

(2)基于記憶單元的元學習(memory augmented neural network):學習到現有的task的知識并儲存在記憶單元裡(可以是LSTM,或者是前饋網絡)

(3)非meta-learning方法,例如基于相似度的方法比對新的樣本與現有的樣本。

方法:(TAML)

Entropy-Maximization/Reduction TAML

  該部分,作者通過熵的方法來避免模型學習到有偏資訊。主要展現在最大化initial model學習之前的任務之間的熵,最小化initial model訓練之後label之間的熵。

(1)為了防止初始模型 f _ θ f\_{\theta} f_θ 在任務上表現過度,我們更希望它以相等的機率對預測的标簽進行随機猜測,以使它不會偏向任務。 這可以表示為在 θ \theta θ 之前的最大熵,是以initial model在來自任務 T _ i T\_i T_i 的樣本上的預測标簽上應具有較大的熵。

  熵計算公式如下,表示任務 T i T_i Ti​在initial model訓練之前的熵,其表示該任務下各個樣本的對數熵的和。

論文解讀:Task Agnostic Meta-Learning for Few-shot Learning(TAML)論文解讀:Task Agnostic Meta-Learning for Few-shot Learning(TAML)

(2)當initial model學習之後,我們更希望對于在任務 T i T_i Ti​ 學習得到的參數變化 θ → θ i \theta \rightarrow \theta_i θ→θi​ 是更确信的,即此時的熵應該是最小化

是以有最小化下面的目标函數:

論文解讀:Task Agnostic Meta-Learning for Few-shot Learning(TAML)論文解讀:Task Agnostic Meta-Learning for Few-shot Learning(TAML)

對于每個task T i T_i Ti​ ,第一項表示傳統的損失函數,用于最小化真實标簽與預測标簽之間的“度量距離”;第二項則表示最大化initial model訓練之前(參數為 θ \theta θ 時)的熵,第三項表示最小化initia model 訓練之後(參數變為 θ → θ i \theta \rightarrow \theta_i θ→θi​時)的熵。

算法如下所示。這個算法說明,initial model( θ \theta θ)在訓練之前,要盡可能對所有task一視同仁(熵最大時等同于均勻采樣,相當于一視同仁),而當在某個task訓練之後,得到的initial model( θ i \theta_i θi​)時,此時的熵應該最小,因為目前模型是在具體某個任務上訓練的。是以,當學習到下一個 initial model( θ \theta θ)時,模型依然保持對各個task的平等性。

論文解讀:Task Agnostic Meta-Learning for Few-shot Learning(TAML)論文解讀:Task Agnostic Meta-Learning for Few-shot Learning(TAML)

Inequality-Minimization TAML

如果initial model在各個task上訓練得到的loss類比為經濟學中的收入(income),為了避免學習有偏,不同task之間的loss盡可能平衡,是以直接最小化task之間的loss不平衡性即可。

目标函數如下所示:

論文解讀:Task Agnostic Meta-Learning for Few-shot Learning(TAML)論文解讀:Task Agnostic Meta-Learning for Few-shot Learning(TAML)

第一項表示initial model在所有task T i T_i Ti​的樣本上訓練後的損失函數的期望,第二項則表示所有task之間的的不平衡性。如何定義不平衡性?作者挑選了幾個公式。

論文解讀:Task Agnostic Meta-Learning for Few-shot Learning(TAML)論文解讀:Task Agnostic Meta-Learning for Few-shot Learning(TAML)
論文解讀:Task Agnostic Meta-Learning for Few-shot Learning(TAML)論文解讀:Task Agnostic Meta-Learning for Few-shot Learning(TAML)
論文解讀:Task Agnostic Meta-Learning for Few-shot Learning(TAML)論文解讀:Task Agnostic Meta-Learning for Few-shot Learning(TAML)
論文解讀:Task Agnostic Meta-Learning for Few-shot Learning(TAML)論文解讀:Task Agnostic Meta-Learning for Few-shot Learning(TAML)
論文解讀:Task Agnostic Meta-Learning for Few-shot Learning(TAML)論文解讀:Task Agnostic Meta-Learning for Few-shot Learning(TAML)

繼續閱讀