論文閱讀筆記《Learning Embedding Adaptation for Few-Shot Learning》

小樣本學習&元學習經典論文整理||持續更新

核心思想

本文主要是針對度量學習算法中的特征提取階段進行了改進，之前的特征提取網絡或者說嵌入式表征的（Embedding Representation）過程是與任務無關的（Task-agnostic），這就要求在訓練集上得到的特征提取網絡，要有足夠強的泛化能力，使其提取的特征資訊同時滿足測試集中未見過的新樣本。這一要求無疑是很難實作的，作者就想到讓特征提取網絡有針對性地提取與任務有關的（Task-specific）特征資訊，這樣就能更好的适應測試集中未見過的新樣本了。為了實作這一目标，作者設計了一個自适應的Transformer，用于将任務無關的特征資訊轉換成任務相關的，這一結構本質上采用了自注意力機制（Self-attention Mechanism）。整個網絡的處理過程如下圖所示

首先，使用普通的特征提取網絡 E \textbf{E} E提取各個樣本的特征資訊 ϕ x \phi_x ϕx，然後利用變形器 T \textbf{T} T将其轉化為任務相關的特征資訊 ψ x \psi_x ψx，最後通過任意的距離度量方式尋找到與測試樣本最接近的訓練樣例，實作分類。這裡的變形器 T \textbf{T} T所采用的自注意力機制，我們在之前的文章中也有提及論文閱讀筆記《Attentive Weights Generation for Few Shot Learning via Information Maximization》，它儲存了一種三元資訊—— Q Q Q（query）， K K K（key）， V V V（value），其計算過程如下

論文閱讀筆記《Learning Embedding Adaptation for Few-Shot Learning》

其中 W Q T , W K T , W V T W_Q^T,W_K^T,W_V^T WQT,WKT,WVT分别表示三個線性映射的權重，也可以了解為是三個全連接配接層的權重值， ϕ x \phi_x ϕx就是普通特征提取網絡得到的特征資訊了，而 Q , K , V \mathcal{Q},\mathcal{K},\mathcal{V} Q,K,V表示樣例集合，有兩種建構方式，第一種就是 Q = K = V = X t r a i n ∪ x t e s t \mathcal{Q}=\mathcal{K}=\mathcal{V}=\mathcal{X}_{train}\cup x_{test} Q=K=V=Xtrain∪xtest此時 Q , K , V \mathcal{Q},\mathcal{K},\mathcal{V} Q,K,V三者相同，隻包含未見過的新樣本的支援集和對應的查詢集，而第二種方式則保持 Q \mathcal{Q} Q不變， K , V \mathcal{K},\mathcal{V} K,V建構方式如下

K = V = X t r a i n ∪ x t e s t ∪ X t r a i n S \mathcal{K}=\mathcal{V}=\mathcal{X}_{train}\cup x_{test}\cup \mathcal{X}^S_{train} K=V=Xtrain∪xtest∪XtrainS其不僅包含未見過的新樣本，而且還包含了部分訓練過程中見過的樣本 X t r a i n S \mathcal{X}^S_{train} XtrainS，為了友善實作， X t r a i n S \mathcal{X}^S_{train} XtrainS中每種類别隻保留了兩個樣本。

在經過線性映射得到 Q , K , V Q,K,V Q,K,V後，分别計算 Q Q Q中每個樣本與 K K K中每個樣本相似性 α q k \alpha_{qk} αqk，計算過程如下

論文閱讀筆記《Learning Embedding Adaptation for Few-Shot Learning》

并将其作為權重，用于計算任務相關的特征資訊 ψ x q \psi_{x_q} ψxq，計算過程如下

論文閱讀筆記《Learning Embedding Adaptation for Few-Shot Learning》

其中 V : , k V_{:,k} V:,k表示 V V V中的第 k k k列。

實作過程

網絡結構

普通的特征提取網絡可采用Conv或ResNet網絡，分類器可采用Matching Net或Prototypical Net網絡結構。

損失函數

為了訓練變形器中的線性映射層 W Q T , W K T , W V T W_Q^T,W_K^T,W_V^T WQT,WKT,WVT，在普通的分類損失基礎上，增加了對比損失（contrastive loss），計算過程如下

論文閱讀筆記《Learning Embedding Adaptation for Few-Shot Learning》

訓練政策

整個網絡的訓練過程如下

論文閱讀筆記《Learning Embedding Adaptation for Few-Shot Learning》

算法推廣

本文提出的方法還可以應用于直推小樣本學習（Transductive FSL）和廣義小樣本學習（Generalized FSL）。

創新點

提出了一種基于自注意力機制的變形器，将任務無關的特征資訊轉換為任務相關的特征資訊

算法評價

之前對于特征提取網絡的研究，通常是對任務無關的通用型的網絡開展的，通過提高其對于各類樣本，尤其是新樣本的泛化能力，來改善小樣本分類的效果。而本文則是提出了任務相關的特征提取網絡，針對每種類别的樣本，提取特定的資訊用于改善分類效果。而且作者的改進相當于在原有的特征提取網絡+分類器的結構中增加了一個變形器，變成特征提取網絡+變形器+分類器的結構，這使得其能夠很容易的嵌入到其他的算法中，起到一個即插即用的效果。

如果大家對于深度學習與計算機視覺領域感興趣，希望獲得更多的知識分享與最新的論文解讀，歡迎關注我的個人公衆号“深視”。

論文閱讀筆記《Learning Embedding Adaptation for Few-Shot Learning》

論文閱讀筆記《Learning Embedding Adaptation for Few-Shot Learning》

小樣本學習&元學習經典論文整理||持續更新

核心思想

實作過程

網絡結構

損失函數

訓練政策

算法推廣

創新點

算法評價

繼續閱讀

簡單文檔分類——樸素貝葉斯算法樸素貝葉斯算法簡單文檔分類執行個體步驟總結樸素貝葉斯分類調用(sklearn)

考證大全 | 證券從業資格考試

敲黑闆！2021年證券從業考試考點預測

2021年銀行從業考試考情介紹,果斷收藏!

證券從業合格證書什麼時候列印？有哪些注意事項？

【幹貨滿滿】初級銀行從業考試《個人理财》重點梳理

2020年經濟師考試，難嗎？

初級銀行從業資格證有什麼用？

MBA提前面試純幹貨分享

MBA值得學麼

吳恩達logistic回歸實作

【人工智能行業大師訪談1】吳恩達采訪 Geoffery Hinton

深度學習模型分析人類複雜疾病的準确性

【趨高機器視覺】機器視覺技術原了解析及解決方案

解碼器用于語義分割：資料依賴的解碼可以實作靈活的特征聚合

cs231n斯坦福基于卷積神經網絡的CV學習筆記（一）KNN和線性分類器/分類器損失/反向傳播一，KNN圖像分類算法二，線性分類器三，線性分類器損失四，反向傳播五，神經網絡