天天看點

Fine-tune-CoT:小模型也能做推理,完美逆襲大模型

作者:資料派THU

本文約3000字,建議閱讀5分鐘

大型語言模型可以用來教小得多的學生模型如何進行一步一步地推理

今天分享一篇工作,顯著提高了小型 (~0.3B 參數) 模型在一系列任務上的性能,在許多情況下甚至可以達到或超過大型模型的性能。

語言模型(LMs)在各種下遊任務中表現出色,這主要歸功于它們通過 Transformer 架構(Vaswani et al.,2017)和大量網絡訓練資料獲得的可擴充性。先前的語言模型研究遵循了在大型語料庫上預先訓練,然後在下遊任務上微調的範式(Raffel et al.,2020; Devlin et al.,2018)。最近,大型語言模型(LLMs)向人們展示了其上下文泛化能力:通過僅在幾個上下文樣例或純自然語言任務描述上調整就能完成下遊任務(Brown et al.,2020; Sun et al.,2021)。

如果給語言模型生成一些 prompting,它還向人們展示了其解決複雜任務的能力。标準 prompting 方法,即為使用少樣本的問答對或零樣本的指令的一系列方法,已經被證明不足以解決需要多個推理步驟的下遊任務(Chowdhery 等,2022)。

但是,最近的研究已經證明,通過包含少數思維鍊(CoT)推理的樣本(Wang 等,2022b)或通過 promp 來讓模型逐漸思考的方法(Kojima 等,2022)可以在大型語言模型中促成複雜的推理能力。

基于 promp 的思維鍊方法的主要缺點是它需要依賴于擁有數十億參數的巨大語言模型(Wei et al,2022b;Kojima et al,2022)。由于計算要求和推理成本過于龐大,這些模型難以大規模部署(Wei et al,2022b)。是以,來自南韓科學技術院的研究者努力使小型模型能夠進行複雜的推理,以用于實際應用。

有鑒于此,本文提出了一種名為微調思維鍊的方法,該方法旨在利用非常大的語言模型的思維鍊推理能力來指導小模型解決複雜任務。

Fine-tune-CoT:小模型也能做推理,完美逆襲大模型
  • 論文連結:
  • https://arxiv.org/pdf/2212.10071.pdf
  • 項目位址:
  • https://github.com/itsnamgyu/reasoning-teacher

為了詳細說明,本文應用現有的零樣本思維鍊 prompting(Kojima 等人,2022)從非常大的教師模型中生成推理,并使用它們來微調較小的學生模型。

Fine-tune-CoT:小模型也能做推理,完美逆襲大模型

研究者注意到,與标準的 prompting 類似,對于訓練語言模型來解決複雜推理的任務來說,純微調往往是不夠的。雖然已經有人嘗試用規定好的推理步驟對小模型進行微調來解決這個問題,但這些方法需要巨量的推理注釋,而且往往還需要與特定任務比對的訓練設定(Nye 等人,2021;Cobbe 等人,2021)。

本文提出的方法,由于基于語言模型的教師具有顯著的零樣本推理能力(Kojima 等人,2022),無需手工制作推理注釋及特定任務設定,可以很容易地應用于新的下遊任務。從本質上講,本文的方法保留了基于 prompting 的思維鍊的多功能性,同時模型規模還不是很大。

研究者還對本文中的方法提出了一種擴充,稱為多樣化推理,這種擴充方法通過為每個訓練樣本生成多個推理方案來最大限度地提高對思維鍊進行微調的教學效果。具體來說可以通過簡單的重複随機抽樣來實作。多樣化推理的動機是,多種推理路徑可以用來解決複雜的第二類任務(Evans, 2010)。本文認為,這種推理路徑的多樣性以及語言模闆的加入可以大大有助于複雜推理的微調。

本文使用公開的 GPT-3 模型對思維鍊微調和各類任務及規模的多樣化推理進行了實證評估。本文提出的微調方法在複雜任務的小模型中具備明顯的推理性能,而以前基于 prompting 的方法則隻具有接近随機的性能。

本文表明,在思維鍊微調方法下的小模型在某些任務中的表現甚至超過了它們的大模型老師。通過多樣化的推理,研究者發現維鍊微調方法的性能是高度可擴充的,并且即使在很少的訓練例子中也能具備較高的樣本效率和顯著的推理性能。研究者對思維鍊微調方法在衆多資料集上的表現進行了徹底的樣本研究和消融實驗,在小模型上證明了其價值。在此過程中,本文揭示了微調在思維鍊推理中前作沒有被考慮到的一些重要細微差别。

方法概覽

本文提出了思維鍊微調方法,這是一種與下遊任務無關的方法,可以在小型語言模型中實作思維鍊推理。該方法的核心思想是使用基于 prompting 的思維鍊方法從非常大的教師模型中生成推理樣本,然後使用生成的樣本對小型學生模型進行微調。

這種方法保留了任務無偏的基于 prompt 思維鍊方法的優點,同時克服了其對過大模型的依賴性。為了最大限度地提高通用性,本文在教師模型上使用了最新的零樣本思維鍊 prompting 方法(Kojima 等人,2022),因為此方法不需要任何手工注釋的推了解釋。作者注意到,本文提出的方法其實并不限于這種教師模型的 prompting 方式。文本将思維鍊微調方法拆解為三個步驟,如下圖所示。

Fine-tune-CoT:小模型也能做推理,完美逆襲大模型

步驟 1—— 推理生成

首先,本文利用一個大型的教師模型來為一個給定的任務生成思維鍊推了解釋。本文定義一個由問題 Q^i 和其真實答案 a^i 組成為一個标準樣本 S^i,然後使用零樣本思維鍊來為教師模型生成一個推理

Fine-tune-CoT:小模型也能做推理,完美逆襲大模型

來解決問題 q^i,并生成最終的答案預測

Fine-tune-CoT:小模型也能做推理,完美逆襲大模型

。由此産生的文本序列,包括 prompt 和生成結果,均采取以下形式

Fine-tune-CoT:小模型也能做推理,完美逆襲大模型

第 2 步 —— 整理

為了制備用于微調的樣本,本文對生成的樣本進行了過濾,并将其重新格式化為 prompt-completion 形式的成對資料。對于過濾,本文将教師模型的最終預測值

Fine-tune-CoT:小模型也能做推理,完美逆襲大模型

與真實答案 a^i 進行比較,這與之前的一些工作是相同的(Zelikman 等人,2022;Huang 等人,2022)。對于所有這樣的執行個體 i,本文将(S_i ,

Fine-tune-CoT:小模型也能做推理,完美逆襲大模型

,

Fine-tune-CoT:小模型也能做推理,完美逆襲大模型

)重新打包成一個推理樣本

Fine-tune-CoT:小模型也能做推理,完美逆襲大模型

,也就是一個 prompt-completion 形式的成對資料。由于本文提出的方法旨在為特定任務訓練高效的模型,是以使用基于特殊字元的文本格式來盡量減少标記的使用。具體來說,p_i 采用「<q_i>###」的形式,c_i 采用

Fine-tune-CoT:小模型也能做推理,完美逆襲大模型

的形式。作者注意到,基于答案預測的過濾并不能確定推理的正确性,特别是對于可能出現随機猜測的多選題。遺憾的是,以前的工作中這個問題還沒有得到解決。

步驟 3—— 微調

最後,本文使用開源的 OpenAI API 在內建的推理樣本上對一個小型的預訓練學生模型進行微調。本文使用與預訓練時相同的訓練目标,即自回歸語言模組化目标,或者用 token 預測(Radford 等人,2018)。

多樣化推理

為了最大限度地提高思維鍊微調方法的對樣本的使用效率,本文提出可以為每個訓練樣本生成多種推了解釋,進而增強微調資料。本文将此稱為多樣化推理。詳細來說,對于一個給定的樣本 S_i,本文不是采用貪心解碼政策的零樣本思維鍊方法來獲得單一的「解釋 — 答案」形式的成對資料

Fine-tune-CoT:小模型也能做推理,完美逆襲大模型

,而是采用随機抽樣政策,即用 T 代表溫度抽樣,然後獲得 D 批不同的生成資料

Fine-tune-CoT:小模型也能做推理,完美逆襲大模型

。随後對推理樣本整理和微調工作就像上面一樣進行。本文把 D 稱為推理的多樣性程度。多樣化推理的動機是,多種推理路徑可以用來解決複雜的任務,即第二類任務(Evans, 2010)。

在樣本研究中,研究者确認多樣化推理樣本包含各種推理路徑以及語言模闆,這一點也可以在細化的學生模型中觀察到。這與 Wang 等人(2022b);Zelikman 等人(2022);Huang 等人(2022)的成果類似,多樣化推理路徑被生成并被邊緣化以找到最優答案。多樣化推理也與 Yoo 等人(2021)有相似之處,後者利用大模型語言模型的生成能力,合成的樣本來增加訓練資料。

實驗結果

下表将思維鍊微調方法的學生模型,與現有的對下遊任務不敏感的方法 —— 零樣本學習(Kojima 等人,2022)以及标準的零樣本 prompt 和沒有任何推理的微調方法進行對比,并記錄了準确率。

思維鍊微調在相同的任務中性能明顯更突出,這顯示出使用較小的模型比零樣本思維鍊方法收益更大。

Fine-tune-CoT:小模型也能做推理,完美逆襲大模型

上表還顯示,思維鍊微調對小模型非常有效。同樣地,本文還發現思維鍊微調在很多任務中的表現優于 vanilla 微調,如上表所示。

下表顯示,多樣化的推理可以顯著提高使用思維鍊微調的學生模型的性能。

Fine-tune-CoT:小模型也能做推理,完美逆襲大模型

繼續閱讀