天天看點

Task-Agnostic Meta-Learning for Few-shot Learning 論文筆記前言基于熵的TAML基于不平等最小化度量的TAML不平等度量

前言

最近越來越多的工作使用元學習來處理小樣本學習問題。一般來說,元學習模型包括兩部分:初始模型和更新政策,其中初始模型是在大量任務上進行訓練得到的,更新政策是為了使初始模型能夠适應一個隻有少量樣本的新任務。是以元學習的目标就是,能夠自動學習初始模型和更新政策的最優參數,進而使得模型能夠泛化到各種其它任務上。

然而,現有的元學習方法存在一個普遍問題,就是初始模型在訓練時可能對某些任務有偏差,即更偏向于某些任務,尤其是在元訓練階段的任務。如果一個新任務隻含有少量樣本,并且與元訓練中的任務差别很大,那麼這樣一個有偏差的初始模型就不能在該新任務上得到很好的性能。是以本文提出Task-Agnostic Meta-Learning (TAML)算法,它的中心思想是訓練一個無偏的初始模型,方法是要麼阻止初始模型過于偏向于某些任務,要麼直接對不同任務上性能的不平等度量進行最小化。

那麼具體如何實作這種任務無關呢? 本文提出了TAML算法的兩種形式:

  • 基于熵的TAML,對于一個分類任務,可以直接最大化初始模型預測的不同類别标簽的熵,來實作對任務的無偏性。
  • 基于不平等最小化度量的TAML,方法就是在元訓練初始模型時,直接最小化初始模型在不同任務上的損失的不平等度量,這将使得元學習器(meta-learner)能夠學習到一個無偏的初始模型。

基于熵的TAML

将模型定義為由 θ \theta θ參數化的函數 f θ f_{\theta} fθ​,在元訓練過程中,從任務分布 p ( T ) p(T) p(T)中采樣一個batch,batch中的每個任務都是 K K K-shot N N N-way問題,其中 K K K是訓練樣本的數量, N N N是類别的數量。模型的初始參數為 θ \theta θ,當在任務 T i T_i Ti​上訓練該模型時,根據更新規則将參數從 θ \theta θ更新為 θ i \theta_i θi​。比如,對于 K K K-shot分類問題來說,使用SGD來更新模型參數: θ i → θ − α Δ θ L T i ( f θ ) \theta_i \to \theta- \alpha \Delta_{\theta}L_{T_i}(f_{\theta}) θi​→θ−αΔθ​LTi​​(fθ​),其中 L T i ( f θ ) L_{T_i}(f_{\theta}) LTi​​(fθ​)是交叉熵損失,通過更新參數,來最小化有 K K K個樣本的分類任務 T i T_i Ti​的交叉熵損失。

為了避免初始模型 f θ f_{\theta} fθ​在某些任務上有偏差,作者希望初始模型以相等的機率對預測的标簽進行随機猜測,以實作對任務的無偏性。這可以解釋為,在 θ \theta θ更新之前使熵最大化,進而使得初始模型應該比任務 T i T_i Ti​的樣本上的預測标簽擁有更大的熵。任務 T i T_i Ti​的熵是通過在 N N N個預測标簽上從 P T i ( x ) P_{T_i}(x) PTi​​(x)的輸出機率 y i , n y_{i,n} yi,n​中采樣 x i x_i xi​來計算的:

Task-Agnostic Meta-Learning for Few-shot Learning 論文筆記前言基于熵的TAML基于不平等最小化度量的TAML不平等度量

其中 [ y i , 1 , . . . , y i , N ] = f θ ( x i ) [y_{i,1},...,y_{i,N}]=f_{\theta}(x_i) [yi,1​,...,yi,N​]=fθ​(xi​)是 f θ f_{\theta} fθ​的預測值,在分類任務中就是softmax層的輸出。

除了在更新初始模型的參數之前最大化熵,也可以在更新參數後對熵進行最小化處理,也就是對每個任務 T i T_i Ti​,對熵的減少進行最大化: H T i ( f θ ) − H T i ( f θ i ) H_{T_i}(f_{\theta})-H_{T_i}(f_{\theta_i}) HTi​​(fθ​)−HTi​​(fθi​​),其中 H T i ( f θ i ) H_{T_i}(f_{\theta_i}) HTi​​(fθi​​)的最小化意味着在更新參數 θ \theta θ到 θ i \theta_i θi​之後,模型對于具有更高置信度的标簽更有确定性。這個熵可以和典型元訓練的目标結合起來,作為一種正則化以找到最優的 θ \theta θ:

Task-Agnostic Meta-Learning for Few-shot Learning 論文筆記前言基于熵的TAML基于不平等最小化度量的TAML不平等度量

其中 λ \lambda λ是正平衡系數,第一項是更新後的模型 f θ i f_{\theta_i} fθi​​的預期損失,熵減少的算法如下:

Task-Agnostic Meta-Learning for Few-shot Learning 論文筆記前言基于熵的TAML基于不平等最小化度量的TAML不平等度量

基于熵的TAML有一個限制,就是它隻适合于對分類任務輸出的離散标簽來計算熵。 一些其它的學習問題,比如回歸和強化學習,它們并不會得到一種特定的輸出形式,比如離散的标簽,是以基于熵的TAML就不能适用于這些學習問題。

基于不平等最小化度量的TAML

将初始模型在每個任務 T i T_i Ti​上的損失看作是該任務的"收入",然後就可以基于經濟學中的度量收入不平等的方法來刻畫元學習器(meta-learner)在不同任務上的偏差。對于TAML模型來說,就是最小化不同任務上的損失的不平等,實作對任務的無偏性,即實作任務無關。

通過最小化batch中不同任務的損失的不平等,初始模型特定于某些任務的偏差也在元訓練過程中被最小化了,這樣就得到了一個無偏初始模型,該模型能夠更好的适應一個新任務。

這兩種TAML的不同之處如下:

  • 在基于熵的TAML中,在某一時刻隻考慮一個任務,計算該任務輸出的離散标簽的熵,也就是說,基于熵的TAML依賴的是輸出函數的特定形式,比如softmax層輸出的離散的類别标簽;
  • 在基于不平等最小化度量的TAML中,這種不平等隻取決于損失,隻需最小化損失的不平等,就能實作無偏性,是以适用性更普遍。

考慮一個采樣的任務的batch { T i } \lbrace T_i \rbrace {Ti​},由初始模型得到的損失為 { L T i ( f θ ) } \lbrace L_{T_i}(f_{\theta}) \rbrace {LTi​​(fθ​)},那麼不平等度量就可以計算為 I ε ( { L T i ( f θ ) } ) I_{\varepsilon}(\lbrace L_{T_i}(f_{\theta}) \rbrace) Iε​({LTi​​(fθ​)}),通過對下式進行最小化,就可以對初始模型的參數 θ \theta θ進行元學習:

Task-Agnostic Meta-Learning for Few-shot Learning 論文筆記前言基于熵的TAML基于不平等最小化度量的TAML不平等度量

第一項是在參數更新後的模型 f θ i f_{\theta_i} fθi​​的預期損失,第二項是在參數更新之前的初始模型 f θ f_{\theta} fθ​的損失的不平等度量。這兩項都是初始參數 θ \theta θ的函數。算法如下:

Task-Agnostic Meta-Learning for Few-shot Learning 論文筆記前言基于熵的TAML基于不平等最小化度量的TAML不平等度量

不平等度量

這部分說一下不平等度量的幾種形式。一般來說,不平等度量用于計算一些經濟不平等,包括财富,收入,或健康相關名額。在元學習中,使用 l i = L T i ( f θ ) l_i=L_{T_i}(f_{\theta}) li​=LTi​​(fθ​)表示任務 T i T_i Ti​的損失, l \frac{}{l} l​是采樣的任務的平均損失, M M M是單個batch中任務的數量,在TAML中使用的不平等度量可以有以下幾種形式:

Theil Index

這種不平等度量是從資訊論中的備援中得到的,備援被定義為資料的最大熵與觀測到的熵之間的差。假設共有 M M M個損失 { l i ∣ i = 1 , . . . , M } \lbrace l_i | i=1,...,M \rbrace {li​∣i=1,...,M},那麼Theil Index被定義為:

Task-Agnostic Meta-Learning for Few-shot Learning 論文筆記前言基于熵的TAML基于不平等最小化度量的TAML不平等度量

Generalized Entropy Index

Generalized Entropy Index是用來度量收入的不平等,它并不是一個單獨的不平等度量,而是包括了一系列的不平等度量,其中就有Theil Index,Thiel L等等:

Task-Agnostic Meta-Learning for Few-shot Learning 論文筆記前言基于熵的TAML基于不平等最小化度量的TAML不平等度量

當 α \alpha α為0時,被稱為平均對數偏差Thiel L;當 α \alpha α為1時,實際上就是Thiel Index。 α \alpha α的值越大,這個index對分布上部的差異越敏感;而 α \alpha α值越小,對分布底部的差異更敏感。

Atkinson Index

這是另一種用于收入不平等的度量,可用于确定分布的哪一端對觀察到的不平等影響最大,它被定義為:

Task-Agnostic Meta-Learning for Few-shot Learning 論文筆記前言基于熵的TAML基于不平等最小化度量的TAML不平等度量

其中 ϵ \epsilon ϵ被稱為inequality aversion parameter,當 ϵ = 0 \epsilon=0 ϵ=0時,該index對分布上端的變化更敏感,當 ϵ = 1 \epsilon=1 ϵ=1時,該Index對分布下端的變化更敏感。

Gini-Coefficient

它通常被定義為相對絕對均值差的一半,在元學習中,如果在一個batch中有 M M M個任務,用 l i l_i li​來表示任務 T i T_i Ti​的損失,那麼Gini-Coefficient被定義為:

Task-Agnostic Meta-Learning for Few-shot Learning 論文筆記前言基于熵的TAML基于不平等最小化度量的TAML不平等度量

Gini-Coefficient對分布中間的偏差,比分布的上部或下部更敏感。

Variance of Logarithms

這是另一種常用的不平等度量:

Task-Agnostic Meta-Learning for Few-shot Learning 論文筆記前言基于熵的TAML基于不平等最小化度量的TAML不平等度量

其中 g ( l ) g(l) g(l)是 l l l的幾何均值,它更關注分布的下部的損失。

繼續閱讀