天天看點

基于歸納網絡的少樣本文本分類 | EMNLP 2019 會議論文解讀

作者:耿瑞瑩,黎斌華,李永彬,孫健

1.摘要

深度學習方法在資料稀缺的場景下往往表現很差,在這種挑戰性的場景下,近期的工作往往使用meta-learning的方法來模拟少樣本學習任務,通過在樣本級别把query和支撐集進行比較來完成分類。但是這種樣本級别的比較往往會被同一個類中各種不同的表述方式所幹擾,是以我們需要為支撐集中的每個類别學習一種泛化的表示,然後去和query進行度量。在本工作中,我們提出了一個新的歸納網絡(Induction Networks)來學習這樣的一般化的類别表示,通過在meta learning的過程中引入動态路由算法(dynamic routing),我們的模型對于未見過的類别有良好的适應能力。我們在一個通用的英文基準資料集和一個真實場景的中文意圖分類資料集上驗證我們的模型,均取得了state-of-the-art的結果,證明了在少樣本學習場景下學習類級别表示的有效性。

2.問題定義

少樣本學習的的目标是模型在大量類别中學會通過少量資料正确地分類後,對于新的類别,隻需要少量的樣本就能快速學習。形式化來說,few-shot的訓練集中包含了大量的類别,每個類别中有少量樣本。在訓練階段,會在訓練集中随機抽取C個類别,每個類别K個樣本(總共C×K個資料)建構一個meta-task,作為模型的支撐集(Support set)輸入;再從這C個類中抽取一批樣本作為模型的詢問集(Query set)。即要求模型從C×K個資料中學會如何區分這C個類别,這樣的任務被稱為C-way K-shot問題。 模型訓練的過程中在每次疊代時把支撐集送入模型,并優化模型在詢問集上産生的損失函數,這種訓練方式一般稱為Episode-based meta-training,詳情見Algorithm 1。值得注意的是這種訓練機制使得模型很難過拟合,假設我們訓練集中包含159個類,可以産生( █(159@5))=794,747,031個不同的5-way 任務。

基于歸納網絡的少樣本文本分類 | EMNLP 2019 會議論文解讀
基于歸納網絡的少樣本文本分類 | EMNLP 2019 會議論文解讀

3.引言

少樣本學習相關的研究緻力于通過極少量的樣本學習心得類别來解決資料缺失的問題,當資料量極少時,基于finetune的方法将難以生效,早期的工作使用資料增強和正則化來緩解資料不足時的過拟合問題,但是也隻能在一定程度上有效。近期的工作往往基于meta learning的方法,把訓練過程分解為一系列的meta-task,通過将訓練過程的task和測試階段的task定義一緻,可以通過在不同的meta task之間切換來抽取一些可遷移的知識。是以few-shot learning的模型往往可以隻根據一個支撐集就能對未見過的類别進行識别。

一種典型的方法是把非參數化方法和度量學習結合,非參數方法能夠使新的樣本得到快速的适應,是以隻需要學習樣本之間的度量方式即可完成少樣本分類。但是由于自然語言的特殊性,同一個類中的樣本往往有很多種不同的表述,在先前的工作中,類級别的表示往往隻是簡單的通過對支撐集中的樣本表示平均或加和來得到,這樣會由于同一個類的不同表述方式産生的噪音而丢失很多關鍵的資訊。因為少樣本學習的方法不會在支撐集上finetune模型,是以當增大支撐集的規模時,因為樣本數量帶來的增長往往又會被樣本級别的噪音所抵消。

是以,更好的學習方法應該是模組化歸納類别特征的能力:忽略掉和分類無關的細節,從樣本級别多種多樣的語言表述之中總結出類别的語義表示。我們站在一個更高的視角,去重構支撐集中不同樣本的階層化語義表示,動态的從樣本資訊中歸納出類别特征。在本工作中,我們提出了Induction Network,通過将動态路由算法與meta learning機制結合,顯式模組化了從少量樣本中歸納出類别表示的能力。我們的貢獻可以總結為三點:

1.我們提出了一個歸納網絡來解決少樣本學習的任務,為了處理少樣本學習中樣本級别的多樣性問題,我們的工作首次模組化了從樣本特征到類别特征的歸納能力;

2.我們提出歸納子產品結合了動态路由算法和meta learning結構,矩陣轉換和路由機制是我們的模型識别新的類别時泛化性能良好;

3.我們的模型在兩個少樣本文本分類資料集上超過了目前的state-of-the-art模型,包含一個英語的基準資料集和一個中文的真實場景的意圖識别資料集。

4.模型

如圖3所示,我們的模型基于Encoder-Induction-Relation的三級架構,其中Encoder子產品使用基于自注意力的Bi-LSTM,Induction 子產品使用動态路由算法,Relation子產品使用神經張量網絡。

基于歸納網絡的少樣本文本分類 | EMNLP 2019 會議論文解讀

圖Induction Network 圖示

4.1 Encoder子產品

本工作共使用Bi-lstm self-attention模組化句子級别的語義,輸入句子的詞向量矩陣,經編碼得到句子級的語義表示e。

基于歸納網絡的少樣本文本分類 | EMNLP 2019 會議論文解讀
基于歸納網絡的少樣本文本分類 | EMNLP 2019 會議論文解讀
基于歸納網絡的少樣本文本分類 | EMNLP 2019 會議論文解讀

4.2 Induction 子產品

将支撐集中每個樣本編碼為樣本向量以後,Induction子產品将其歸納為類向量

基于歸納網絡的少樣本文本分類 | EMNLP 2019 會議論文解讀

這一過程中我們将支撐集中的樣本向量視為輸入膠囊,經過一層dynamic routing變換後,輸出膠囊視為每個類的語義特征表示。

首先,是對所有樣本做一次矩陣轉換,意味着将樣本級的語義空間轉換到類别級的語義空間,在此過程中我們對支撐集中所有的樣本向量使用同一個轉換矩陣,如此對于任意規模的支撐集都能進行處理,也就意味着我們的模型可以應對any-way any-shot的場景。

基于歸納網絡的少樣本文本分類 | EMNLP 2019 會議論文解讀
基于歸納網絡的少樣本文本分類 | EMNLP 2019 會議論文解讀

然後,通過dynamic routing的方式過濾無關資訊,提取類别特征。在每次dynamic routing的疊代中,我們動态的調整上下兩層之間的連接配接系數并確定其加和為1:

基于歸納網絡的少樣本文本分類 | EMNLP 2019 會議論文解讀
基于歸納網絡的少樣本文本分類 | EMNLP 2019 會議論文解讀

其中b_i連接配接系數的邏輯值,在第一次疊代時初始化為0。對于給定的樣本預測向量,每個候選類向量是e ̂_ij^s的權重求和:

基于歸納網絡的少樣本文本分類 | EMNLP 2019 會議論文解讀

然後使用一個非線性的squash函數來保證每個類向量的模長不超過1:

基于歸納網絡的少樣本文本分類 | EMNLP 2019 會議論文解讀

每次疊代的最後一步是通過“routing by agreement”的方式來調節連接配接強度,如果産生的類候選向量和某樣本預測向量之間有較大的點乘結果,則增大他們之間的連接配接強度,否則減小之。

基于歸納網絡的少樣本文本分類 | EMNLP 2019 會議論文解讀

通過這種動态路由的方式模組化樣本向量到類别向量的映射過程,能夠有效過濾與分類無關的幹擾資訊,得到類别特征,詳情見算法2。

基于歸納網絡的少樣本文本分類 | EMNLP 2019 會議論文解讀
基于歸納網絡的少樣本文本分類 | EMNLP 2019 會議論文解讀

4.3 Relation 子產品

我們通過Induction子產品得到支撐集中每個類别的類向量表示,通過Encoder子產品得到Batch set中每個query的query向量,接下來要做到就是衡量二者之間的相關性。 Relation 子產品是典型的neural tensor layer,首先通過三維tensor模組化每個類向量和query向量對之間的互動關系,然後使用全連接配接層得到關系打分。

基于歸納網絡的少樣本文本分類 | EMNLP 2019 會議論文解讀

4.4 目标函數

我們使用最小平方損失來訓練我們的模型,将關系打分回歸至真實标簽:比對的類和query對之間的打分趨向于1而不比對的打分趨向于0。在每個episode中,給定支撐集S和Query集B={(x_q,y_q )}_(q=1)^n,損失函數定義如下:

基于歸納網絡的少樣本文本分類 | EMNLP 2019 會議論文解讀

我們使用梯度下降法更新Encoder、Induction和Relation三個子產品的參數。訓練完成之後,我們的模型在識别全新的類别時不需要任何finetune,因為在meta 訓練階段已經賦予了模型足夠的泛化能力,而且會随着模型的疊代不斷累加。

5. 實驗

我們在兩個few-shot文本分類的資料集上驗證模型的效果,所有的實驗使用tensorflow實作。

5.1 資料集

1.ARSC資料集由Yu 等人[10]在NAACL 2018提出,取自亞馬遜多領域情感分類資料,該資料集包含23種亞馬遜商品的評論資料,對于每一種商品,建構三個二分類任務,将其評論按分數分為5、4、 2三檔,每一檔視為一個二分類任務,則産生233=69個task,然後取其中12個task(43)作為測試集,其餘57個task作為訓練集。

2.ODIC資料集來自阿裡巴巴對話工廠平台的線上日志,使用者會向平台送出多種不同的對話任務,和多種不同的意圖,但是每種意圖隻有極少數的标注資料,這形成了一個典型的few-shot learning任務,該資料集包含216個意圖,其中159個用于訓練,57個用于測試。

5.2 參數設定

預訓練詞向量使用300維glove詞向量,LSTM隐層次元設為128,dynamic routing的疊代器愛次數設為3,Relation子產品的張量數h=100。我們在ARSC資料集上建構2-way 5-shot的模型,在ODIC資料集上C和K在[5,10]中選取得到四組實驗。在每個episode中,除了為支撐集選取K個樣本以外,我們還為采到的每個類再采20個樣本作為query set,也就是說在5-way 5-shot 場景下每次疊代訓練都會有55+520=125個樣本參與訓練。

5.4 實驗結果

在ARSC和ODIC資料集上實驗結果如表1和表2所示

由表1可知,我們提出的Induction Networks比ROBUSTTC-FSL正确率高出3%,他們是這個資料上之前的state-of-the-art。這是因為ROBUSTTC-FSL試圖在樣本層面構造一個足夠魯棒的度量方法,是以将多種度量方式進行組合,這種方法無法擺脫同一個類别中不同表述所産生的幹擾。

基于歸納網絡的少樣本文本分類 | EMNLP 2019 會議論文解讀

表1 ARSC資料集上的結果

在ODIC資料集上,我們提出的Induction Networks模型在四個不同的實驗設定中都取得了最好的效果,通過表1可以看到,在Encoder使用相同結構的情況下,我們的模型通過模組化class級别的歸納能力和更複雜的距離度量方式,取得了最好的結果,進一步的,我們通過比較不同的Induction方式,最終選取了Dynamic Routing的方式來建構樣本級到class級的歸納表示能力。

基于歸納網絡的少樣本文本分類 | EMNLP 2019 會議論文解讀

表2 ODIC資料集實驗結果

5.5 實驗分析

5.5.1 消融實驗
基于歸納網絡的少樣本文本分類 | EMNLP 2019 會議論文解讀

表3 消融實驗

為了分析歸納子產品和關系子產品使用不同成分所産生的影響,我們進一步分析在ARSC資料集上消融實驗的結果。如表3所示,我們可以看到當routing的疊代次數設為3次的時候取得最優的效果,繼續增加疊代次數并沒有使效果進一步提升,這證明了dynamic routing方法的有效性。當把歸納子產品改為Attention方式時,Attention+Relation的方法通過自注意力機制來模組化歸納過程,但是這一能力又被局限于學習到注意力參數之中,相反我們提出的動态路由歸納算法可以通過自動調整對支撐集樣本的權重系數來歸納得到類級别的表示,這對于少樣本學習的任務具有更好的适應能力。

5.5.2轉置矩陣的作用

在5-way 10-shot場景下,我們用t-SNE降維并可視化經過transformation轉置矩陣前後支撐集樣本的變化,如圖所示,可以發現經過轉置矩陣之後的支撐集樣本向量可分性明顯變好。

基于歸納網絡的少樣本文本分類 | EMNLP 2019 會議論文解讀

這也證明了矩陣轉置過程對于轉換樣本特征到類别特征的有效性。

5.5.3 Query 可視化

我們發現Induction Network不僅能夠生成品質更高的類向量,而且可以幫助encoder子產品學習更好的樣本語義表示。通過随機抽取5個測試集的類别,并将其中所有樣本Encoder之後的向量可視化,我們發現Induction Network中學到的樣本向量可分性明顯高于Relation Network,這說明我們的Induction子產品和Relation子產品通過反向傳播給了Encoder子產品更為有效的資訊,使其學到了更易于分類的樣本表示。

基于歸納網絡的少樣本文本分類 | EMNLP 2019 會議論文解讀

6.結論

在本工作中,我們提出了Induction Network 來解決少樣本文本分類的問題。我們的模型通過重構支撐集樣本的階層化語義表示,動态歸納出類别的特征表示來緩解少樣本學習樣本級别的噪音問題。我們将動态路由算法和meta learning的架構結合,動态路由的機制使我們的模型能夠對新的類别保持良好的泛化性。實驗結果表明我們的模型在不同的少樣本分類資料集上都超過了目前的state-of-the-art模型。在未來的工作中我們會探尋将監督學習和meta learning相結合,建構增量的少樣本學習模型。

參考文獻

  1. Shaohui Kuang, Junhui Li, Anto ́nio Branco, Weihua Luo, and Deyi Xiong. 2018. Attention focusing for neural machine translation by bridging source and target embeddings. In Proceedings of the 56th An- nual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), volume 1, pages 1767–1776.
  2. Shen Li, Zhe Zhao, Renfen Hu, Wensi Li, Tao Liu, and Xiaoyong Du. 2018. Analogical reasoning on chi- nese morphological and semantic relations. In Pro- ceedings of the 56th Annual Meeting of the Associa- tion for Computational Linguistics (Volume 2: Short Papers), pages 138–143.
  3. Zhouhan Lin, Minwei Feng, Cicero Nogueira dos San- tos, Mo Yu, Bing Xiang, Bowen Zhou, and Yoshua Bengio. 2017. A structured self-attentive sentence embedding. arXiv preprint arXiv:1703.03130.
  4. Laurens van der Maaten and Geoffrey Hinton. 2008. Visualizing data using t-sne. Journal of machine learning research, 9(Nov):2579–2605.
  5. Nikhil Mishra, Mostafa Rohaninejad, Xi Chen, and Pieter Abbeel. 2018. A simple neural attentive meta- learner. In Proceedings of ICLR.
  6. Tsendsuren Munkhdalai and Hong Yu. 2017. Meta networks. In Proceedings of the 34th International Conference on Machine Learning-Volume 70, pages 2554–2563. JMLR. org.
  7. Jeffrey Pennington, Richard Socher, and Christopher Manning. 2014. Glove: Global vectors for word representation. In Proceedings of the 2014 confer- ence on empirical methods in natural language pro- cessing (EMNLP), pages 1532–1543.
  8. Hang Qi, Matthew Brown, and David G Lowe. 2018. Low-shot learning with imprinted weights. In Pro- ceedings of the IEEE Conference on Computer Vi- sion and Pattern Recognition, pages 5822–5830.

    Anthony Rios and Ramakanth Kavuluru. 2018. Few- shot and zero-shot multi-label learning for structured label spaces. In Proceedings of the 2018 Confer- ence on Empirical Methods in Natural Language Processing, pages 3132–3142.

  9. Sara Sabour, Nicholas Frosst, and Geoffrey E Hinton. 2017. Dynamic routing between capsules. In Ad- vances in Neural Information Processing Systems, pages 3856–3866.
  10. Justin Salamon and Juan Pablo Bello. 2017. Deep con- volutional neural networks and data augmentation for environmental sound classification. IEEE Signal Processing Letters, 24(3):279–283.

    Victor Garcia and Joan Bruna. 2017. learning with graph neural networks. abs/1711.04043.

Few-shot CoRR,

  1. Xavier Glorot, Antoine Bordes, and Yoshua Bengio. 2011. Deep sparse rectifier neural networks. In Pro- ceedings of the fourteenth international conference
  2. Jake Snell, Kevin Swersky, and Richard Zemel. 2017. Prototypical networks for few-shot learning. In Ad- vances in Neural Information Processing Systems, pages 4077–4087.
  3. Richard Socher, Danqi Chen, Christopher D Manning, and Andrew Ng. 2013. Reasoning with neural ten- sor networks for knowledge base completion. In Advances in neural information processing systems, pages 926–934.
  4. Flood Sung, Yongxin Yang, Li Zhang, Tao Xiang, Philip HS Torr, and Timothy M Hospedales. 2018. Learning to compare: Relation network for few-shot learning. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 1199–1208.

繼續閱讀