夕小瑤科技說原創

作者 | Python

ChatGPT強大的性能讓人愛不釋手，ChatGPT遲遲不開源讓人恨得牙根癢癢。那僅通過開源資料，能夠取得怎樣的效果呢？近期，AI2的一篇論文顯示，最好的65B規模的模型能夠達到ChatGPT表現的83%，能夠達到GPT-4表現的68%。讓我們一起來看看他們是怎麼做的。

論文題目：

How Far Can Camels Go? Exploring the State of Instruction Tuning on Open Resources

開源資源使用

ChatGPT等大規模語言模型（簡稱大模型）的訓練主要分成兩個階段：語言模型訓練與指令精調。對語言模型訓練，該文主要探索了不同規模3種預訓練模型：LLaMa、OPT和Pythia。下圖展示了不同模型的參數規模及預訓練時的資料規模。

而在第二步的指令精調中，該文探索了如下12個開源的指令精調資料集。這些資料集的建構思路主要包括5個方向：

圖中，為對話的平均輪數，後兩列為使用者prompt與生成内容的平均長度。

作者還建構了2個混合資料源的訓練集，包括：

評價方式

如何評估大模型的好壞也是個複雜的問題。該文采用了包括自動評價和人工評價的方式，包括：

事實知識：Massive Multitask Language Understanding dataset (MMLU)。以單選題的形式，涵蓋了57個學科，從入門級到專業級難度的都有。
推理：Grade School Math dataset (GSM) 和 Big-Bench-Hard (BBH)。GSM是國小難度的數學題；而BBH包含了23種較難的推理任務，比如日期了解、影評、邏輯歸納、目标計數等。
多語言能力：基于TyDiQA，段落級抽取式閱讀了解資料集，包含11種不同形式的語言。
程式設計：基于HumanEval資料集，基于文檔的函數級變成能力（為避免混淆，這裡改稱為Codex-Eval）。
基于模型的評價方式：參考AlpacaFarm的設定，選取805個開放式指令。讓Davinci-003生成長度不超過2048的回複作為基準，并讓GPT-4來做排序比較。
人工評價：考慮了332個指令（源于Self-Instruct 和Vicuna）。名額包括：二分類地去判斷每個回複是否可以接受5分類地兩兩比較模型輸出結果

結論1：不同的Instruction Tuning資料集，會給模型帶來不同方面的優勢。

結論2：混合多種Instruction Tuning資料集效果會更好。

這兩條結論很容易從下圖中看出。比如MMLU上，用Flan V2最好，GSM上，用CoT最好，在Codex-Eval上用Code-Alpaca最好。Instruction Turing資料和下遊任務一緻性越高，表現就越好。而看均值的話，混合最多資料集的Human+GPT data mix最好。

接下來，使用Human+GPT data mix，檢驗參數量相當的的Pythia（300B）、OPT(180B)和LLAMA（1.0T）模型的表現，如下圖所示，發現表現與預訓練時使用的資料規模一緻。

結論3：參數規模相同時，backbone模型預訓練資料量越大表現越好。

後文将在Human+GPT data mix上調整過的LLAMA模型稱作TÜLU。下圖印證了幾個比較正常的結論：參數越多表現越好；Instruction Tuning對所有參數規模的模型都有效；參數規模越小提升越大。以及：

結論4：TÜLU 65B同ChatGPT相比還有差距，表現達到ChatGPT的83%，GPT-4的68%。

具體的人類評價結果如下圖所示，可以看到 TÜLU 65B 和 ChatGPT 相比仍有較大差距。（下圖左是是否接受的0-1評分，下圖右為兩兩比較評分）

OpenAI的ChatGPT等模型不開源，給學術界相關研究提出了很大的挑戰。本文系統地探索了開源資料集上Instructiong Tuning的結果，并同ChatGPT于GPT-4的結果系統比較，對相關研究具有較好的參考價值。

此外，對比本文于OpenAI的論文也可以看出，OpenAI真的是什麼訓練細節都不講。且不說GPT-4的技術報告中沒有涉及任何技術細節，就連最近被大家誇贊開源了資料集的文章verify step by step中透露的技術細節也遠少于本文。