夕小瑤科技說 原創
作者 | Python
ChatGPT強大的性能讓人愛不釋手,ChatGPT遲遲不開源讓人恨得牙根癢癢。那僅通過開源資料,能夠取得怎樣的效果呢?近期,AI2的一篇論文顯示,最好的65B規模的模型能夠達到ChatGPT表現的83%,能夠達到GPT-4表現的68%。讓我們一起來看看他們是怎麼做的。
論文題目:
How Far Can Camels Go? Exploring the State of Instruction Tuning on Open Resources
開源資源使用
ChatGPT等大規模語言模型(簡稱大模型)的訓練主要分成兩個階段:語言模型訓練與指令精調。對語言模型訓練,該文主要探索了不同規模3種預訓練模型:LLaMa、OPT和Pythia。下圖展示了不同模型的參數規模及預訓練時的資料規模。
而在第二步的指令精調中,該文探索了如下12個開源的指令精調資料集。這些資料集的建構思路主要包括5個方向:
- 通過現有的NLP資料集建構
- 人類從頭寫
- 通過GPT4等特定模型生成
- 人類寫的prompt+模型生成補全
- 通過思維鍊(CoT)、代碼補全等特定形式建構
圖中,為對話的平均輪數,後兩列為使用者prompt與生成内容的平均長度。
作者還建構了2個混合資料源的訓練集,包括:
- Human data mixture:含有人類标注的資料集(FLAN V2, CoT, Dolly, 和 Open Assistant 1)
- Human+GPT data mix:進一步增加模型生成的資料集(GPT4-Alpaca, Code-Alpaca, and ShareGPT)
評價方式
如何評估大模型的好壞也是個複雜的問題。該文采用了包括自動評價和人工評價的方式,包括:
- 事實知識:Massive Multitask Language Understanding dataset (MMLU)。以單選題的形式,涵蓋了57個學科,從入門級到專業級難度的都有。
- 推理:Grade School Math dataset (GSM) 和 Big-Bench-Hard (BBH)。GSM是國小難度的數學題;而BBH包含了23種較難的推理任務,比如日期了解、影評、邏輯歸納、目标計數等。
- 多語言能力:基于TyDiQA,段落級抽取式閱讀了解資料集,包含11種不同形式的語言。
- 程式設計:基于HumanEval資料集,基于文檔的函數級變成能力(為避免混淆,這裡改稱為Codex-Eval)。
- 基于模型的評價方式:參考AlpacaFarm的設定,選取805個開放式指令。讓Davinci-003生成長度不超過2048的回複作為基準,并讓GPT-4來做排序比較。
- 人工評價:考慮了332個指令(源于Self-Instruct 和Vicuna)。名額包括: 二分類地去判斷每個回複是否可以接受5分類地兩兩比較模型輸出結果
實驗結果
結論1:不同的Instruction Tuning資料集,會給模型帶來不同方面的優勢。
結論2:混合多種Instruction Tuning資料集效果會更好。
這兩條結論很容易從下圖中看出。比如MMLU上,用Flan V2最好,GSM上,用CoT最好,在Codex-Eval上用Code-Alpaca最好。Instruction Turing資料和下遊任務一緻性越高,表現就越好。而看均值的話,混合最多資料集的Human+GPT data mix最好。
接下來,使用Human+GPT data mix,檢驗參數量相當的的Pythia(300B)、OPT(180B)和LLAMA(1.0T)模型的表現,如下圖所示,發現表現與預訓練時使用的資料規模一緻。
結論3:參數規模相同時,backbone模型預訓練資料量越大表現越好。
後文将在Human+GPT data mix上調整過的LLAMA模型稱作TÜLU。下圖印證了幾個比較正常的結論:參數越多表現越好;Instruction Tuning對所有參數規模的模型都有效;參數規模越小提升越大。以及:
結論4:TÜLU 65B同ChatGPT相比還有差距,表現達到ChatGPT的83%,GPT-4的68%。
具體的人類評價結果如下圖所示,可以看到 TÜLU 65B 和 ChatGPT 相比仍有較大差距。(下圖左是是否接受的0-1評分,下圖右為兩兩比較評分)
總結
OpenAI的ChatGPT等模型不開源,給學術界相關研究提出了很大的挑戰。本文系統地探索了開源資料集上Instructiong Tuning的結果,并同ChatGPT于GPT-4的結果系統比較,對相關研究具有較好的參考價值。
此外,對比本文于OpenAI的論文也可以看出,OpenAI真的是什麼訓練細節都不講。且不說GPT-4的技術報告中沒有涉及任何技術細節,就連最近被大家誇贊開源了資料集的文章verify step by step中透露的技術細節也遠少于本文。