天天看點

AI2:僅憑開源資料,可達ChatGPT 83%表現

夕小瑤科技說 原創

作者 | Python

ChatGPT強大的性能讓人愛不釋手,ChatGPT遲遲不開源讓人恨得牙根癢癢。那僅通過開源資料,能夠取得怎樣的效果呢?近期,AI2的一篇論文顯示,最好的65B規模的模型能夠達到ChatGPT表現的83%,能夠達到GPT-4表現的68%。讓我們一起來看看他們是怎麼做的。

論文題目:

How Far Can Camels Go? Exploring the State of Instruction Tuning on Open Resources

開源資源使用

ChatGPT等大規模語言模型(簡稱大模型)的訓練主要分成兩個階段:語言模型訓練與指令精調。對語言模型訓練,該文主要探索了不同規模3種預訓練模型:LLaMa、OPT和Pythia。下圖展示了不同模型的參數規模及預訓練時的資料規模。

AI2:僅憑開源資料,可達ChatGPT 83%表現

而在第二步的指令精調中,該文探索了如下12個開源的指令精調資料集。這些資料集的建構思路主要包括5個方向:

  1. 通過現有的NLP資料集建構
  2. 人類從頭寫
  3. 通過GPT4等特定模型生成
  4. 人類寫的prompt+模型生成補全
  5. 通過思維鍊(CoT)、代碼補全等特定形式建構
AI2:僅憑開源資料,可達ChatGPT 83%表現
圖中,為對話的平均輪數,後兩列為使用者prompt與生成内容的平均長度。

作者還建構了2個混合資料源的訓練集,包括:

  • Human data mixture:含有人類标注的資料集(FLAN V2, CoT, Dolly, 和 Open Assistant 1)
  • Human+GPT data mix:進一步增加模型生成的資料集(GPT4-Alpaca, Code-Alpaca, and ShareGPT)

評價方式

如何評估大模型的好壞也是個複雜的問題。該文采用了包括自動評價和人工評價的方式,包括:

  • 事實知識:Massive Multitask Language Understanding dataset (MMLU)。以單選題的形式,涵蓋了57個學科,從入門級到專業級難度的都有。
  • 推理:Grade School Math dataset (GSM) 和 Big-Bench-Hard (BBH)。GSM是國小難度的數學題;而BBH包含了23種較難的推理任務,比如日期了解、影評、邏輯歸納、目标計數等。
  • 多語言能力:基于TyDiQA,段落級抽取式閱讀了解資料集,包含11種不同形式的語言。
  • 程式設計:基于HumanEval資料集,基于文檔的函數級變成能力(為避免混淆,這裡改稱為Codex-Eval)。
  • 基于模型的評價方式:參考AlpacaFarm的設定,選取805個開放式指令。讓Davinci-003生成長度不超過2048的回複作為基準,并讓GPT-4來做排序比較。
  • 人工評價:考慮了332個指令(源于Self-Instruct 和Vicuna)。名額包括: 二分類地去判斷每個回複是否可以接受5分類地兩兩比較模型輸出結果

實驗結果

結論1:不同的Instruction Tuning資料集,會給模型帶來不同方面的優勢。

結論2:混合多種Instruction Tuning資料集效果會更好。

這兩條結論很容易從下圖中看出。比如MMLU上,用Flan V2最好,GSM上,用CoT最好,在Codex-Eval上用Code-Alpaca最好。Instruction Turing資料和下遊任務一緻性越高,表現就越好。而看均值的話,混合最多資料集的Human+GPT data mix最好。

AI2:僅憑開源資料,可達ChatGPT 83%表現

接下來,使用Human+GPT data mix,檢驗參數量相當的的Pythia(300B)、OPT(180B)和LLAMA(1.0T)模型的表現,如下圖所示,發現表現與預訓練時使用的資料規模一緻。

結論3:參數規模相同時,backbone模型預訓練資料量越大表現越好。

AI2:僅憑開源資料,可達ChatGPT 83%表現

後文将在Human+GPT data mix上調整過的LLAMA模型稱作TÜLU。下圖印證了幾個比較正常的結論:參數越多表現越好;Instruction Tuning對所有參數規模的模型都有效;參數規模越小提升越大。以及:

結論4:TÜLU 65B同ChatGPT相比還有差距,表現達到ChatGPT的83%,GPT-4的68%。

AI2:僅憑開源資料,可達ChatGPT 83%表現

具體的人類評價結果如下圖所示,可以看到 TÜLU 65B 和 ChatGPT 相比仍有較大差距。(下圖左是是否接受的0-1評分,下圖右為兩兩比較評分)

AI2:僅憑開源資料,可達ChatGPT 83%表現

總結

OpenAI的ChatGPT等模型不開源,給學術界相關研究提出了很大的挑戰。本文系統地探索了開源資料集上Instructiong Tuning的結果,并同ChatGPT于GPT-4的結果系統比較,對相關研究具有較好的參考價值。

此外,對比本文于OpenAI的論文也可以看出,OpenAI真的是什麼訓練細節都不講。且不說GPT-4的技術報告中沒有涉及任何技術細節,就連最近被大家誇贊開源了資料集的文章verify step by step中透露的技術細節也遠少于本文。

繼續閱讀