天天看點

如何使大模型适配下遊任務

©NLP論文解讀 原創•作者 | 康德

如何使得預訓練語言模型學習語言的通用表示以及如何使得預訓練模型适配到不同的下遊任務是目前自然語言處理領域的重要研究方向。

本文通過實驗發現通過優化低維本征任務子空間(intrinsic task subspace)中的少量自由參數進而對預訓練模型(PLMs)重新參數化,使得預訓練模型适配不同的任務。

本征特征子空間也幫助我們了解為何通過少量的資料,預訓練模型可以很容易的适配不同的任務。為了找出這樣的子空間以及發現它的普遍性,借助于提示微調(prompt tuning),将不同的NLP任務的軟提示分解到同樣的低維非線性子空間中,然後僅僅通過微調子空間中的參數使得預訓練模型适配到未看到的任務或者資料。

作者稱此過程為本征提示微調(intrinsic prompt tuning,IPT)。通過對120個NLP任務進行實驗,發現通過微調子空間中一個5維的向量就可以在100個未見過的訓練資料集和20個新任務上達到87%和65%的提示微調,這表明本征任務子空間具有很好的泛化性,此外本征提示微調提高了提示微調的穩定性。

論文位址:

https://arxiv.org/pdf/2110.07867.pdf

Introduction

預訓練語言模型在不同的自然語言任務中具有顯著的性能。基于海量資料的大模型可以通過全參數微調或者有效參數微調的方式,在小規模資料上能夠适配不同的下遊NLP任務。

為了嘗試了解PLM如何花費較小的代價來适配不同的任務,作者假設PLM适配到不同的下遊任務的優化問題可以等價于在一個低維的參數空間中優化少量的自由參數,并稱這個參數空間為本征任務子空間,如下圖所示。

為了驗證這個假設,需要找到PLMs的本征任務子空間。子空間應該包含針對不同任務可調的适配參數,是以可以通過使用多個任務訓練自适應參數的低維分解來近似子空間,然後檢驗在找到的子空間中學習未知的任務。

因為提示微調僅僅需要微調少量的參數,以及可以實作類似fine-tuning方式的語言了解和生成任務,是以可以通過提示微調來探索共同的本征子空間。IPT分兩步:尋找多任務子空間(multi-task subspace finding ,MSF),本征子空間微調(intrinsic subspace tuning,IST)。

在MSF階段首先獲得多個任務的優化軟提示,然後通過将它們映射到低維子空間,然後反映射重建它們來學習自動編碼器。優化的自動編碼器定義了本征子空間。

在低維子空間中,隻訓練少量的自由參數來處理未知資料和任務,這個低維子空間是由MSF通過反映射得到的。作者發現這個本征任務子空間不僅存在而且是低維的。

Methodology

2.1 預備知識

2.2本征提示微調

下圖展示了 IPT 與 fine-tuning 和 prompt tuning 的差別。

 Experiment

 Discussion

在本文中作者發現通過不同的下遊任務來壓縮适配參數,可以找到一個用來适配未看到任務的低維子空間。

作者提出了IPT,它首先通過聯合壓縮多個任務的自适應參數來找到一個子空間,然後僅對子空間中的未見資料和任務進行參數調優。在實驗階段還讨論了影響結果的因素和IPT的潛在實際應用。

△長按添加AI小助手

微信ID:tanxin6934

備注:姓名-學校/公司-研究方向-城市(如:小欣-斯坦福-目标檢測-深圳)

即可領取目标檢測與R-CNN/資料分析的應用/電商資料分析/資料分析在醫療領域的應用/NLP學員項目展示/中文NLP的介紹與實際應用/NLP系列直播課/NLP前沿模型訓練營等幹貨學習資源。

每月大咖直播分享、真實項目需求對接、求職内推、算法競賽、幹貨資訊彙總等等。