天天看點

NeurIPS提前看 | 四篇論文,一窺元學習的最新研究進展

2019 年,NeurIPS 接受與元學習相關的研究論文約有 20 餘篇。元學習(Meta-Learning)是近幾年的研究熱點,其目的是基于少量無标簽資料實作快速有效的學習。本文對本次接收的元學習論文進行了梳理和解讀。

2019 年 NeurIPS 将于 12 月 8 日至 14 日在加拿大溫哥華舉行。NeurIPS 今年共收到投稿 6743 篇,其中接受論文 1429 篇,接受率達到了 21.1%。作為人工智能領域的年度盛會,每年人工智能的專家學者以及工業企業界的研發人員都會積極參會,釋出最新的理論研究結果以及應用實踐方面的成果。今年,國外的高校和研究機構一如既往的踴躍參加本屆 NeurIPS,其中 Google 共貢獻了 179 篇文章,斯坦福和卡耐基梅隆分别有 79 篇和 75 篇文章。國内的企業界騰訊上榜 18 篇、阿裡巴巴上榜 10 篇,高校和研究機構中清華參與完成的文章共有 35 篇。

2019 年,NeurIPS 接受與元學習相關的研究論文約有 20 餘篇。元學習(Meta-Learning)是近幾年的研究熱點,其目的是基于少量無标簽資料實作快速有效的學習。元學習通過首先學習與相似任務比對的内部表示,為機器提供了一種使用少量樣本快速适應新任務的方法。學習這種表示的方法主要有基于模型的(model-based meta-learning)和模型不可知的(model-agnostic meta-learning,MAML)兩類。基于模型的元學習方法利用少量樣本的任務标記(task identity)來調整模型參數,使用模型完成新任務,這種方法最大的問題是設計适用于未知任務的元學習政策非常困難。模型不可知的方法首先由 Chelsea Finn 研究組提出,通過初始化模型參數,執行少量的梯度更新步驟就能夠成功完成新的任務。

本文從 NeurIPS 2019 的文章中選擇了四篇來看看元學習的最新的研究方向和取得的成果。Chelsea Finn 以及他的老師 Pieter Abbeel 在元學習領域一直非常活躍,他們的研究團隊在這個方向已經貢獻了大量的優秀成果,推動了元學習在不同任務中的有效應用。在本次 NeurIPS 中,他們的研究團隊針對基于梯度(或優化)的元學習提出了一種隻依賴于内部級别優化的解決方案,進而有效地将元梯度計算與内部循環優化器的選擇分離開來。另外,針對強化學習問題,提出了一種元強化學習算法,通過有監督的仿真學習有效的強化學習過程,大大加快了強化學習程式和先驗知識的擷取。我們将在這篇提前看中深入分析和了解這些工作。

Chelsea Finn 是斯坦福大學計算機科學和電子工程的助理教授,同時也擔任 Google Brain 的研究科學家。Chelsea Finn 在她的博士論文《Learning to Learn with Gradients》中提出的 MAML 是目前元學習的三大方法之一,Chelsea Finn 證明了 MAML 的理論基礎,并在元學習領域中将其發揚光大,在少樣本模仿學習、元強化學習、少樣本目标推斷等中都獲得了很好的應用。

本文還選擇另外兩篇關于元學習的文章進行讨論,其中一篇是 Facebook 的工作,提出了一種元序列到序列(Meta seq2seq)的方法,通過學習成分概括,利用域的代數結構來幫助了解新的語句。另外一篇提出了一個多模态 MAML(Multimodal MAML)架構,該架構能夠根據所識别的模式調整其元學習先驗參數,進而實作更高效的快速自适應。

論文清單:

  1. Meta-Learning with Implicit Gradients 
  2. Guided Meta-Policy Search
  3. Compositional generalization through meta sequence-to-sequence learning
  4. Multimodal Model-Agnostic Meta-Learning via Task-Aware Modulation

1、Aravind Rajeswaran,Chelsea Finn,Sham Kakade,Sergey Levine,Meta-Learning with Implicit Gradients ,

https://papers.nips.cc/paper/8306-meta-learning-with-implicit-gradients.pdf
NeurIPS提前看 | 四篇論文,一窺元學習的最新研究進展

基于優化的元學習方法主要有兩種途徑,一是直接訓練元學習目标模型,即将元學習過程表示為神經網絡參數學習任務。另一種是将元學習看做一個雙層優化的過程,其中「内部」優化實作對給定任務的适應,「外部」優化的目标函數是元學習目标模型。本文是對後一種方法的研究和改進。元學習過程需要計算高階導數,是以給計算和記憶帶來不小的負擔,另外,元學習還面臨優化過程中的梯度消失問題。這些問題使得基于(雙層)優化的元學習方法很難擴充到涉及大中型資料集的任務,或者是需要執行許多内環優化步驟的任務中。

本文提出了一種隐式梯度元學習方法(implicit model-agnostic meta-learning,iMAML),利用隐式微分,推導出元梯度解析表達式,該表達式僅依賴于内部優化的解,而不是内部優化算法的優化路徑,這就将元梯度計算和内部優化兩個任務解耦。具體見圖 1 中所示,其中經典的任務不可知的元學習(model-agnostic meta-learning,MAML)方法沿綠色的路徑計算元梯度,一階 MAML 則利用一階倒數計算元梯度,本文提出的 iMAML 方法通過估計局部曲率,在不區分優化路徑的情況下,推導出精确的元梯度的解析表達式。

NeurIPS提前看 | 四篇論文,一窺元學習的最新研究進展

圖 1. 不同方法元梯度計算圖示

針對元學習任務 {Ti},i=1,...,M,分别對應資料集 Di,其中每個資料集包含兩個集(set):訓練集 D^tr 和測試集 D^test,每個集中的資料結構均為資料對,以訓練集為例:

NeurIPS提前看 | 四篇論文,一窺元學習的最新研究進展

元學習任務 Ti 的目标是,通過優化損失函數 L,基于訓練集學習任務相關的參數φ _i,進而實作測試集中的損失值最小。雙層優化的元學習任務為:

NeurIPS提前看 | 四篇論文,一窺元學習的最新研究進展

其中,本文重點關注 Alg 部分的顯示或隐式計算。經典 MAML 中,Alg 對應一步或幾步梯度下降處理:

NeurIPS提前看 | 四篇論文,一窺元學習的最新研究進展

在數值計算過程中,為避免過拟合問題、梯度消失問題以及優化路徑參數帶來的計算和記憶體壓力問題,采用顯示正則化優化方法:

NeurIPS提前看 | 四篇論文,一窺元學習的最新研究進展

由此雙層元學習優化任務為:

NeurIPS提前看 | 四篇論文,一窺元學習的最新研究進展

其中

NeurIPS提前看 | 四篇論文,一窺元學習的最新研究進展

采用顯示疊代優化算法計算 Alg*存在下列問題:1、依賴于顯示優化路徑,參數計算和存儲存在很大負擔;2、三階優化計算比較困難;3、該方法無法處理非可微分的操作。是以,本文考慮隐式計算 Alg*。具體算法如下:

NeurIPS提前看 | 四篇論文,一窺元學習的最新研究進展

考慮内部優化問題的近似解,它可以用疊代優化算法(如梯度下降)來獲得,即:

NeurIPS提前看 | 四篇論文,一窺元學習的最新研究進展

對 Alg*的優化可以通過雅克比向量積近似逼近:

NeurIPS提前看 | 四篇論文,一窺元學習的最新研究進展

其中,φ_ i = Alg_i( θ)。觀察到 g_i 可以作為優化問題的近似解獲得:

NeurIPS提前看 | 四篇論文,一窺元學習的最新研究進展

共轭梯度算法(Conjugate Gradient, CG)由于其疊代複雜度和僅滿足 Hessian 矢量積的要求而特别适合于求解此問題。不同方法的計算複雜度和記憶體消耗見表 1。用 k 來表示由 g_i 引起的内部問題的條件數,即内部優化計算問題的計算難度。Mem() 表示計算一個導數的記憶體負載。

NeurIPS提前看 | 四篇論文,一窺元學習的最新研究進展

表 1:不同方法的記憶體及計算負載

為了證明本文方法的有效性,作者給出了三個實驗:

一是,通過實驗驗證 iMAML 是否能夠準确計算元梯度。圖 2(a)考慮了一個人工模拟的回歸示例,其中的預測參數是線性的。iMAML 和 MAML 都能夠漸近比對精确的元梯度,但 iMAML 在有限疊代中能夠計算出更好的近似。

NeurIPS提前看 | 四篇論文,一窺元學習的最新研究進展

圖 2. 準确度、計算複雜度和記憶體負載對比。其中 MAML 為經典方法,iMAML 為本文提出的方法,FOMAML 為一階 MAML 方法

二是,通過實驗驗證在有限疊代下 iMAML 是否能夠比 MAML 更精确地逼近元梯度。圖 2(b) 中實驗可知,iMAML 的記憶體是基于 Hessian 向量積的,與内部循環中梯度下降步數無關。記憶體使用也與 CG 疊代次數無關,因為中間計算不需要存儲在記憶體中。MAML 和 FOMAML 不通過優化過程反向傳播,是以計算成本僅為執行梯度下降的損耗。值得注意的是,FOMAML 盡管具有較小的計算複雜度和記憶體負載,但是由于它忽略了 Jacobian,是以 FOMAML 不能夠計算精确的元梯度。

三是,對比與 MAML 相比的計算複雜度和記憶體負載,以及通過實驗驗證 iMAML 是否能在現實的元學習問題中産生更好的結果,本文使用了 Omniglot 和 Mini ImageNet 的常見少數鏡頭圖像識别任務(few-shot)進行驗證。在現實元學習實驗中,選擇了 MAML、FOMAML (First order MAML) 和 Reptile 作為對比方法。在 Omniglot 域上,作者發現 iMAML 的梯度下降(GD)版本與全 MAML 算法相比具有競争力,并且在亞空間上優于其近似值(即 FOMAML 和 Reptile),特别是對于較難的 20 路(20-way)任務。此外,實驗還表明無 Hessian 優化的 iMAML 比其他方法有更好的性能,這表明内部循環中強大的優化器可以改進元學習的效果。在 Mini-ImageNet 域中,iMAML 的效果也優于 MAML 和 FOMAML。

NeurIPS提前看 | 四篇論文,一窺元學習的最新研究進展

表 2. Omniglot 實驗結果

NeurIPS提前看 | 四篇論文,一窺元學習的最新研究進展

表 3. Mini ImageNet 實驗結果

NeurIPS提前看 | 四篇論文,一窺元學習的最新研究進展

2、Russell Mendonca,Abhishek Gupta,Rosen Kralev,Pieter Abbeel,Sergey Levine,Chelsea Finn,Guided Meta-Policy Search,

https://papers.nips.cc/paper/9160-guided-meta-policy-search.pdf
NeurIPS提前看 | 四篇論文,一窺元學習的最新研究進展

元學習的目的是利用完成不同任務的曆史經驗幫助學習完成新任務的技能,元強化學習通過與環境的少量互動通過嘗試和改正錯誤來解決這一問題。元強化學習的關鍵是使得 agent 具有适應性,能夠以新的方式操作新對象,而不必為每個新對象和目标從頭學習。目前元強化學習在優化穩定性、解決樣本複雜度等方面還存在困難,是以主要在簡單的任務領域中應用,例如低維連續控制任務、離散動作指令導航等。

本文的研究思路是:元強化學習是為了獲得快速有效的強化學習過程,這些過程本身不需要通過強化學習直接獲得,相反,可以使用一個更加穩定和高效的算法來提供元級(meta-level)監控,例如引入監督模仿學習。本文首次提出了在元學習環境中将模仿(imitation)和強化學習(RL)相結合。在執行元學習的過程中,首先由本地學習者單獨解決任務,然後将它們合并為一個中心元學習者。但是,與目标是學習能夠解決所有任務的單一政策的引導式政策搜尋(guided policy search)不同,本文提出的方法旨在元學習到能夠适應訓練任務分布的單一學習者,通過概括和歸納以适應訓練期間未知的新任務。

NeurIPS提前看 | 四篇論文,一窺元學習的最新研究進展

圖 3. 引導式元政策搜尋算法綜述

圖 3 給出本文提出的引導式元政策搜尋算法的總體結構。通過在内部循環優化過程中使用增強學習以及在元優化過程引入監督學習,學習能夠快速适應新任務的政策π_θ。該方法将元學習問題明确分解為兩個階段:任務學習階段和元學習階段。此分解使得可以有效利用以前學習的政策或人工提供的示範輔助元學習。

現有的元強化學習算法一般使用同步政策方法(on-policy)從頭開始進行元學習。在元訓練期間,這通常需要大量樣本。本文的目标是使用以前學到的技能來指導元學習過程。雖然仍然需要用于内部循環采樣的同步政策資料,但所需要的資料比不使用先前經驗的情況下要少得多。經典 MAML 的目标函數如下:

NeurIPS提前看 | 四篇論文,一窺元學習的最新研究進展

應用于元強化學習中,每個資料集表示為如下軌迹形式:s_1,a_1,...,a_H-1,,s_H。内部和外部循環的損失函數為:

NeurIPS提前看 | 四篇論文,一窺元學習的最新研究進展

将元訓練任務的最優或接近最優的政策标記為 {(π_i)^*},其中每個政策定義為「專家」。元學習階段的優化目标 L_RL(φ_i,D_i) 與 MAML 相同,其中φ_i 表示政策參數,D_i 為資料集。

内部政策優化過程利用第一階段學習到的政策優化元目标函數,特别的,把外部目标建立在專家行為的監督模仿或行為克隆(Behavior Cloning,BC)上。BC 損失函數為:

NeurIPS提前看 | 四篇論文,一窺元學習的最新研究進展

監督學習的梯度方差較小,是以比強化學習的梯度更加穩定。第二階段的任務是:首先利用每個政策 (π_i)^*,為每個元訓練任務 Ti 收集專家軌迹 (Di)^*的資料集。使用此初始資料集,根據以下元目标更新政策:

NeurIPS提前看 | 四篇論文,一窺元學習的最新研究進展

由此得到一些能夠适用于不同任務的列初始政策參數θ進而生成φ_i。在單任務模拟學習環境中,進一步的,可以繼續通過從學習到的政策中收集額外的資料 (擴充資料集 D*),然後用專家政策中的最優操作标記通路狀态。具體步驟為:(1)利用政策參數θ生成 {φ_i};(2)針對每個任務,利用目前政策 {π_(φ_i)} 生成狀态 {{s_t}_i};(3)利用專家生成監督資料 D={{s_t,π_i(s_t))}_i};(4)使用現有監督資料聚合該資料。

引導式元政策搜尋算法(Guided Meta-policy Search, GMPS)如下:

NeurIPS提前看 | 四篇論文,一窺元學習的最新研究進展

本文使用 Sawyer 機器人控制任務和四足步行機任務驗證 GMPS 的有效性。所選擇的對比算法包括:基于異步政策方法的 PEARL、政策梯度版本的 MAML(内部循環使用 REINFORCE,外部循環使用 TRPO)、RL2、針對所有元訓練任務的單一政策方法 MultiTask、附加結構化噪聲的模型不可知算法 (MAESN)。圖 4 給出完成全狀态推送任務和密集獎勵運動的元訓練效率。所有方法都達到了相似的漸近性能,但 GMPS 需要的樣本數量明顯較少。與 PEARL 相比,GMPS 給出了相近的漸進性能性能。與 MAML 相比,GMPS 完成 Sawyer 物體推送任務的性能提高了 4 倍,完成四足步行機任務的性能提高了約 12 倍。GMPS 的下述處理方式:(1)采用了用于擷取每個任務專家的異步政策增強學習算法和(2)能夠執行多個異步政策監督梯度步驟的組合,例如外部循環中的專家,使得 GMPs 與基于政策的元增強學習算法(如 MAML)相比,獲得了顯著的總體樣本效率增益,同時也顯示出比 PEARL 等資料效率高的上下文方法更好的适應性。

NeurIPS提前看 | 四篇論文,一窺元學習的最新研究進展

圖 4. Sawyer 機器人任務效果對比

NeurIPS提前看 | 四篇論文,一窺元學習的最新研究進展

圖 5. 稀疏獎勵開門動作(左)、稀疏獎勵螞蟻移動(中)和視覺推手動作(右)的元訓練比較

對于涉及稀疏獎勵和圖像觀察的具有挑戰性的任務,有效利用人工提供的示範可以極大地改進強化學習的效果,圖 5 中給出了相關的實驗。與其他傳統方法相比,GMPS 能夠更加有效且容易的利用示範資訊。在圖 5 所有的實驗中,關于目标位置的位置資訊都不作為輸入,而元學習算法必須能夠發現一種從獎勵中推斷目标的政策。對于基于視覺的任務,GMPS 能夠有效地利用示範快速、穩定地學習适應。此外,圖 5 也表明,GMPS 能夠在稀疏的獎勵設定中成功地找到一個好的解決方案,并學會探索。GMPS 和 MAML 都能在所有訓練任務中獲得比單一政策訓練的強化學習更好的性能。

3、Brenden M. Lake,Compositional generalization through meta sequence-to-sequence learning,

https://papers.nips.cc/paper/9172-compositional-generalization-through-meta-sequence-to-sequence-learning.pdf
NeurIPS提前看 | 四篇論文,一窺元學習的最新研究進展

由于人具有創作學習的能力,他們可以學習新單詞并立即能夠以多種方式使用它們。一旦一個人學會了動詞「to Facebook」的意思,他或她就能了解如何「慢慢地 Facebook」、「急切地 Facebook」或「邊走邊 Facebook」。這就是創造性的能力,或是通過結合熟悉的原語來了解和産生新穎話語的代數能力。作為一種機器學習方法,神經網絡長期以來一直因缺乏創造性而受到批評,導緻批評者認為神經網絡不适合模組化語言和思維。最近的研究通過對現代神經結構的研究,重新審視了這些經典的評論,特别是成功的将序列到序列(seq2seq)模型應用于機器翻譯和其他自然語言處理任務中。這些研究也表明,在創造性的概括方面,seq2seq 仍存在很大困難,尤其是需要把一個新的概念(「到 Facebook」)和以前的概念(「慢慢地」或「急切地」)結合起來時。也就是說,當訓練集與測試集相同時,seq2seq 等遞歸神經網絡能夠獲得較好的效果,但是當訓練集與測試集不同,即需要發揮「創造性」時,seq2seq 無法成功完成任務。

這篇文章中展示了如何訓練記憶增強神經網絡,進而通過「元-序列到序列學習」方法(meta seq2seq)實作創造性的概括。與标準的元學習方法類似,在「元訓練」的過程中,訓練是基于分布在一系列稱為「集(episode)」的小資料集上完成的,而不是基于單個靜态資料集。在「元 seq2seq 學習」過程中,每一集(episode)都是一個新的 seq2seq 問題,它為序列對(輸入和輸出)和「查詢」序列(僅輸入)提供「支援」。該方法的網絡支援将序列對加載到外部記憶體中,以提供為每個查詢序列生成正确輸出序列所需的上下文。将網絡的輸出序列與目标任務進行比較,進而獲得由支援項目到查詢項目的創造性概括能力。元 seq2seq 網絡對需要進行創造性組合泛化的多個 seq2seq 問題進行元訓練,目的是獲得解決新問題所需的組合技能。新的 seq2seq 問題完全使用網絡的激活動力學和外部存儲器來解決;元訓練階段結束後,不會進行權重更新。通過其獨特的結構選擇和訓練過程,網絡可以隐式地學習操作變量的規則。

NeurIPS提前看 | 四篇論文,一窺元學習的最新研究進展

圖 6. 元 seq2seq 學習

圖 6 給出了一個元 seq2seq 學習的示例,其任務是根據支撐資料集處理查詢指令「跳兩次」,支撐集包括「跑兩次」、「走兩次」、「看兩次」和「跳」。利用一個遞歸神經網絡(Recurrent Neural Network,RNN)編碼器(圖 6 中右側下部的紅色 RNN)和一個 RNN 解碼器(圖 6 中右側上部綠色 RNN)了解輸入語句生成輸出語句。這個結構與标準 seq2seq 不同,它利用了支撐資料集、外部存儲和訓練過程。當消息從查詢編碼器傳遞到查詢解碼器時,它們受到了由外部存儲提供的逐漸上下文資訊 C 影響。

下面将較長的描述體系結構的内部工作流程:

1、輸入編碼器

輸入編碼器 f_ie(圖 6 中紅色部分)對輸入查詢指令以及支撐資料集中的輸入指令進行編碼,生成輸入嵌入特征 w_t,利用 RNN 轉化為隐層嵌入特征 h_t:

NeurIPS提前看 | 四篇論文,一窺元學習的最新研究進展

對于查詢序列,在每個步驟 t 時的嵌入特征 h_t 通過外部存儲器,傳遞到解碼器。對于每個支撐序列,隻需要最後一步隐藏嵌入特征,表示為 K_i。這些向量 K_i 作為外部鍵值存儲器中的鍵使用。本文使用的是雙向長短時記憶編碼(bidirectional long short-term memory encorders)方法。

2、輸出編碼器

輸出編碼器 f_oe(圖 6 中藍色部分)用于每個支撐資料集中的項目和其對應的輸出序列。首先,編碼器使用嵌入層嵌入輸出符号序列(例如動作)。第二,使用與 f_ie 相同的處理過程計算數列的嵌入特征。最後一層 RNN 的狀态作為支撐項目的特征向量存儲 V_i。仍然使用 biLSTM。

3、外部存儲器

該架構使用類似于存儲器網絡的軟鍵值存儲器,鍵值存儲器使用的注意函數為:

NeurIPS提前看 | 四篇論文,一窺元學習的最新研究進展

每個查詢指令從 RNN 編碼器生成 T 個嵌入,每個查詢符号對應一個,填充查詢矩陣 Q 的行。編碼的支撐項目分别為輸入和輸出序列的 K 行和 V 行。注意權重 A 表示對于每個查詢步驟,哪些記憶體單元處于活動狀态。存儲器的輸出是矩陣 M=AV,其中每一行是值向量的權重組合,表明查詢輸入步驟中每一步的存儲器輸出。最後,通過将查詢輸入嵌入項 h_t 和分步記憶體輸出項 M_t 與連接配接層 C_t=tanh(Wc1 [h_t;M_t])結合來計算分步上下文,進而生成分步上下文矩陣 C。

4、輸出解碼器

輸出解碼器将逐漸上下文 C 轉換為輸出序列(圖 6 中綠色部分)。解碼器将先前的輸出符号嵌入為向量 o_j-1,該向量 o_j-1 與先前的隐藏狀态 g_j-1 一起啊輸入到 RNN(LSTM)以獲得下一個隐藏狀态,

NeurIPS提前看 | 四篇論文,一窺元學習的最新研究進展

初始隐藏狀态 g_0 被設定為最後一步的上下文 C_T。使用 Luong 式注意計算解碼器上下文 u_j,使得 u_j=Attension(g_j,C,C)。這個上下文通過另一個連接配接層 g_j=tanh(Wc2 [g_j;u_j]),然後映射到 softmax 輸出層以産生輸出符号。此過程重複,直到産生所有輸出符号,RNN 通過産生序列結束符号來終止響應。

5、元訓練

元訓練通過一系列訓練集優化網絡,每個訓練集都是一個帶有 n_s 支撐項目和 n_q 查詢項目的新 seq2seq 問題。模型的詞彙表是事件(episode)詞彙表的組合,損失函數是查詢的預測輸出序列的負對數似然。

本文方法的 PyTorch 代碼已公開釋出:

https://github.com/brendenlake/meta_seq2seq

本文給出了不同的實驗驗證元 seq2seq 方法的有效性。通過置換元訓練增加一個新的原語的實驗,評估了元 seq2seq 學習方法在添加新原語的 SCAN 任務中的效果。通過将原始 SCAN 任務分解為一系列相關的 seq2seq 子任務,訓練模型進行創造性的概括。目标是學習一個新的基本指令,并将其組合使用。例如模型學習一個新的原始「跳躍」,并将其與其他指令結合使用,類似于本文前面介紹的「to Facebook」示例。實驗結果見表 4 結果中間列。其中,标準 seq2seq 方法完全失敗,正确率僅為 0.03%。元 seq2seq 方法能夠成功完成學習複合技能的任務,表中所示達到了平均 99.95% 的正确率。

NeurIPS提前看 | 四篇論文,一窺元學習的最新研究進展

表 4. 在不同訓練模式下測試 SCAN「添加跳躍」任務的準确性

通過增強元訓練增加一個新的原語的實驗目的是表明元 seq2seq 方法可以「學習如何學習」原語的含義并将其組合使用。文章隻考慮了四個輸入原語和四個意義的非常簡單的實驗,目前的研究情況下,作者認為尚不能确定元 seq2seq 學習是否适用于更複雜的任務領域。實驗結果見表 4 的最右側列。元 seq2seq 方法能夠完成獲得指令「跳」并正确使用的任務,正确率達到了 98.71%。标準 seq2seq 得益于增強訓練的處理得到了 12.26% 的正确率。

關于利用元訓練合成類似概念的任務,實驗結果見表 5 左側結果列。元 seq2seq 學習方法能夠近乎完美的完成這個任務(正确率 99.96%),能夠根據其組成部分推斷「around right」的含義。而标準 seq2seq 則完全無法完成這個任務(0.0% 正确率),syntactic attention 方法完成這個任務的正确率為 28.9%。最後一個實驗驗證了元 seq2seq 方法是否能夠學習推廣到更長的序列,即測試序列比元訓練期間的任何經驗語句序列都長。實驗結果見表 5 最右側列。可以看到,所有方法在這種情況下表現都不佳,元 seq2seq 方法僅有 16.64% 的正确率。盡管元 seq2seq 方法在合成任務上較為成功,但它缺乏對較長序列進行外推所需的真正系統化的概括能力。

NeurIPS提前看 | 四篇論文,一窺元學習的最新研究進展

表 5. 測試 SCAN「左右」和「長度」任務的準确性

元 seq2seq 學習對于了解人們如何從基本成分元素創造性的概括推廣到其它概念有着重要的意義。

人們是在動态環境中學習的,目的是解決一系列不斷變化的學習問題。在經曆過一次像「to Facebook」這樣的新動詞之後,人們能夠系統地概括這種學習或激勵方式是如何完成的。這篇文章的作者認為,元學習是研究學習和其他難以捉摸的認知能力的一個強大的新工具,盡管,在目前的研究條件下還需要更多的工作來了解它對認知科學的影響。

本文所研究的模型隻是利用了網絡動态參數和外部存儲器就實作了在測試階段學到如何賦予單詞新的意義。雖然功能強大,但這個工作仍然是一個有限的「變量」概念,因為它需要熟悉元訓練期間所有可能的輸入和輸出配置設定。這是目前所有神經網絡體系架構所共有的問題。作者在文末提到,在未來的工作中,打算探索在現有網絡結構中添加更多的象征性組織(symbolic machinery),以處理真正的新符号,同時解決推廣到更長輸出序列的挑戰。

4、Risto Vuorio,Shao-Hua Sun,Hexiang Hu,Joseph J. Lim,Multimodal Model-Agnostic Meta-Learning via Task-Aware Modulation,

https://papers.nips.cc/paper/8296-multimodal-model-agnostic-meta-learning-via-task-aware-modulation.pdf
NeurIPS提前看 | 四篇論文,一窺元學習的最新研究進展

經典的模型不可知的元學習方法(MAML)需要找到在整個任務分布中共享的公共初始化參數。但是,當任務比較複雜時,針對任務采樣需要能夠找到實質性不同的參數。本文的研究目标是,基于 MAML,找到能夠獲得特定模式的先驗參數的元學習者,快速适應從多模式任務分布中抽取的給定任務。本文提出了一個多模态模型不可知元學習架構(Multimodal Model-Agnostic Meta-Learning,MMAML),該架構同時利用基于模型的元學習方法和模型不可知的元學習方法,能夠根據識别的模式調整其元學習先驗參數,進而實作更高效的快速自适應。圖 7 給出了 MMAML 整體架構。MMAML 的重點是利用兩種神經網絡實作快速适應新任務。首先,稱為調制網絡(Modulation Network)的網絡預測任務模式的辨別。然後将預測出的模式辨別作為任務網絡 (Task Network)的輸入,該網絡通過基于梯度的優化進一步适應任務。具體算法如下:

NeurIPS提前看 | 四篇論文,一窺元學習的最新研究進展

圖 7. MMAML 架構

調制網絡負責識别采樣任務的模式,并生成一組特定于該任務的參數。首先将給定的 K 個資料及其标簽 {x_k,y_k}_k=1,…,K 輸入到任務編碼器 f 中,并生成一個嵌入向量 v,該向量對任務的特征進行編碼:

NeurIPS提前看 | 四篇論文,一窺元學習的最新研究進展

然後基于編碼後的任務嵌入向量 v 計算任務特定參數 τ,進而對任務網絡的元學習先驗參數進行調制。任務網絡可以是任意參數化的函數,例如深卷積網絡、多層遞歸網絡等。為了調整任務網絡中每個塊的參數作為解決目标任務的初始化參數,使用塊級轉換來縮放和移動網絡中每個隐藏單元的輸出激活。具體地,調制網絡為每個塊 i 産生調制向量,表示為:

NeurIPS提前看 | 四篇論文,一窺元學習的最新研究進展

其中 N 是任務網絡中的塊數。上述過程表示

NeurIPS提前看 | 四篇論文,一窺元學習的最新研究進展

其中θ_i 為初始化參數,Φ_i 是任務網絡的調制先驗參數。本文選用了特征線性調制方法(feature-wise linear modula-tion,FiLM)作為調制運算方法。

使用調制網絡生成的任務特定參數τ={τ_i | i=1,···,N} 來調制任務網絡的每個塊的參數,該參數可以在參數空間 f(x;θ,τ)中生成模式感覺初始化。在調制步驟之後,對任務網絡的元學習先驗參數進行幾步梯度下降以進一步優化任務τ_i 的目标函數。在元訓練和元測試時,采用了相同的調制和梯度優化方法。

作者表示,詳細的網絡結構和訓練超參數會因應用領域的不同而有所不同。本文在多模态任務分布下,評估了 MMAML 和基線極限方法在不同任務中的效果,包括回歸、圖像分類和強化學習等。基線對比方法包括使用多任務網絡的 MAML 和 Multi-MAML。

NeurIPS提前看 | 四篇論文,一窺元學習的最新研究進展

表 6. 回歸實驗結果 

表 6 給出了 2、3 和 5 模式下多模态五次回歸的均方誤差(MSE)。應用μ=0 和σ=0.3 的高斯噪聲。Multi-MAML 方法使用基本事實的任務模式來選擇對應的 MAML 模型。本文提出的方法(使用 FiLM 調制)比其他方法效果稍好。

NeurIPS提前看 | 四篇論文,一窺元學習的最新研究進展

表 7. 圖像分類實驗結果

表 7 給出了 2、3、5 模式多模式少鏡頭圖像分類準确度測試結果,結果證明了本文提出的方法與 MAML 比有較好的效果,并且與 Multi-MAML 的性能相當。

NeurIPS提前看 | 四篇論文,一窺元學習的最新研究進展

表 8. 元強化學習實驗結果

表 8 給出在 3 個随機種子上報告的 2、4 和 6 個模式的多模态強化學習問題中,每集(episode)累積獎勵的平均值和标準差。元強化學習的目标是在有限的任務經驗基礎上适應新的任務。本文使用 ProMP 算法優化政策和調制網絡,同時使用 ProMP 算法作為實驗對比基線,Multi-ProMP 是一個人工基線,用于顯示使用 ProMP 為每個模式訓練一個政策的性能。表 8 所示的實驗結果表明,MMAML 始終優于未經調制的 ProMP。隻考慮單一模式的 Multi-ProMP 所展示出的良好性能表明,在該實驗環境下,不同方法面臨的适應性困難主要來自于多種模式。

NeurIPS提前看 | 四篇論文,一窺元學習的最新研究進展

圖 8. 從随機抽樣的任務生成的任務嵌入的 tSNE 圖;标記顔色表示任務分布的不同模式

最後,圖 8 給出了上述各個實驗從随機抽樣的任務生成的任務嵌入的 tSNE 圖,其中标記顔色表示任務分布的不同模式。圖(b)和圖(d)顯示了根據不同任務模式的清晰聚類,這表明 MMAML 能夠從少量樣本中識别任務并産生有意義的嵌入量。(a)回歸:模式之間的距離與函數相似性的情況一緻(例如,二次函數有時可以類似于正弦函數或線性函數,而正弦函數通常不同于線性函數)(b)少鏡頭圖像分類:每個資料集(即模式)形成自己的簇。(c)-(d)強化學習:聚類數字代表不同的任務配置設定模式。不同模式的任務在嵌入空間中能夠清晰地聚集在一起。

作者介紹:仵冀穎,工學博士,畢業于北京交通大學,曾分别于香港中文大學和香港科技大學擔任助理研究員和研究助理,現從事電子政務領域資訊化新技術研究工作。主要研究方向為模式識别、計算機視覺,愛好科研,希望能保持學習、不斷進步。

繼續閱讀