研究人員揭示大模型指令微調新秘密，助力大模型高效、低成本定制

2020 年，通過增加大模型參數量的方法，OpenAI 在具有 1750 億參數量的 GPT-3 上發現，大模型可以根據提示詞中提供的資訊，來執行新任務或改進現有任務。

這意味着大模型不必進行任何梯度更新或微調，僅通過幾個例子或簡單的指令來執行新的語言任務（即上下文學習）。

自 ChatGPT 釋出以來，大模型的參數量在不斷擴大。目前開源社群已經迎來含有 4000 億參數的大模型。

屆時，不管是從時間成本還是金錢成本上來看，通過梯度更新來直接修改模型權重的微調方法，将變得十分昂貴且耗時。

目前，一個明顯的趨勢是大模型可容納的上下文長度正在不斷擴大，從最開始的 2 千個字元開始擴大到最大 2 百萬個字元。

越來越大的上下文長度，意味着人類可以加入更多的完整目标指令資料，來支援更全面的上下文學習。

是以能否使用成本更低、更易管理的上下文學習來代替現有的成本高昂的模型參數微調方法成為一個亟待解決的重要研究課題。

基于此，瑞士洛桑聯邦理工學院（EPFL，École Polytechnique Fédérale de Lausanne）碩士畢業生、瑞士洛桑聯邦理工學院機器學習理論實驗室研究助理趙皓于 2024 年和所在團隊開展了一項研究。

圖 | 趙皓（來源：趙皓）

當時，趙皓聯系了正在 EPFL 機器學習理論實驗室讀博的馬克西姆·安德烈伊什琴科（Maksym Andriushchenko）。

那時，趙皓已經擁有一些研究經驗，并且研究興趣也和 Maksym 的研究背景相契合，是以他們在開展課題上一拍即合。

不過，他們當時确立的研究課題與目前盛行的大模型截然不同。

當時，他們定下了題為“了解訓練深度神經網絡模型時的資料學習順序”（Understanding the order of learning of training examples）的課題。

2023 年 7 月，為了彙報各自的研究論文，他倆一起參加了在夏威夷舉辦的國際機器學習大會（ICML，International Conference on Machine Learning）。

會上，因 ChatGPT 的釋出而興起的大模型研究熱潮随處可見，來自各個國家的參會者無不在激動地讨論着有關大模型的各類話題。

他們當即也都意識到這是一個重要的研究機會，是以從夏威夷回來以後立即開會讨論，準備将實驗對象從“傳統的訓練圖像分類的深度神經網絡”改為“指令微調基礎大模型”。

在他們的合作之下，讓 EPFL 機器學習理論實驗室迎來了第一篇大模型頂會論文，相關論文發表于 ICML 2024，也幫助趙皓獲得了 EPFL 優秀碩士論文獎的提名。

随後他們趁熱打鐵，一起研究能否使用上下文學習，來替代成本高昂的指令微調方法。

後來，在趙皓的碩士論文投稿到 ICML 2024 之後不久，Maksym 收到了來自 OpenAI 的郵件。

後者詢問他們對于通過應用程式程式設計接口（API，Application Programming Interface）通路 GPT4Base 模型是否感興趣。

趙皓表示：“我們收到郵件時感到非常意外和驚喜，立即着手準備申請。幾周後，成功通過了申請，這讓我們可以自由地通過 API 使用 GPT4Base 模型。”

在此基礎之上，他和 Maksym 以及另一位同學弗朗西斯科·克羅塞（Francesco Croce）開始思考如何通過上下文學習，來開展大模型對齊的研究。

研究之後他們發現：僅通過增加上下文學習中的訓練資料，無法獲得比對相同基礎模型下的 OpenAI 官方所釋出對齊模型的表現。

雖然實驗結果證明使用篩選的高品質資料可以顯著提升對齊表現，但是也無法達到上述目的。

此外，通過公平地對比上下文學習和指令微調，他們在實驗中得出如下結論：在低資料量的情況下，上下文學習可以用更低的成本可靠有效地代替指令微調，但是指令微調可以通過不斷擴大高品質訓練資料規模獲得更顯著的對齊表現提升，并且擁有更強的泛化表現。

（來源：arXiv）

基于上述發現，本次研究将能指導人們以更低成本、更高效地定制專門化的大模型。

（來源：arXiv）

對于現有的定制大模型方法來說，它主要通過在大量訓練資料上做指令微調和人類偏好對齊，比如從人類回報中進行強化學習。

對于每一個定制化應用的研發，開發者都需要儲存每一個微調後的大模型（大小從幾億到幾千億參數），而這将導緻龐大的計算和存儲消耗。

如能通過大量樣本下的上下文學習來對齊模型，那麼隻需儲存一個基礎大模型，以及相應的支援上下文學習的定制化提示詞。

這樣一來，就能完全避免微調模型帶來的計算消耗，以及極大減小部署不同定制化模型帶來的存儲消耗。

同時，本次研究也可以幫助大模型領域的研究者更好地了解上下文學習的内在機理和其局限性。

日前，相關論文以《在大模型中上下文學習是否足以進行指令跟随？》（Is In-Context Learning Sufficient for Instruction Following in LLMs？）為題發在 arXiv[1]。

圖 | 相關論文（來源：arXiv）

目前相關論文已經整理并投稿到機器學習頂級會議之一，接下來研究團隊也将思考如何進一步有效提升上下文學習的對齊表現。

希望能夠指導大模型從業者更好地根據已有資源來權衡不同的方法，最終使用理想的對齊政策。

參考資料：

1.https://arxiv.org/pdf/2405.19874

營運/排版：何晨龍

研究人員揭示大模型指令微調新秘密，助力大模型高效、低成本定制

繼續閱讀

AI晶片定制時代，将來臨

AI日報：複旦、百度新模型可生成1小時長視訊；全新ChatGPT Windows版本上線；NotebookLM又上2個新功能

測繪通報 | 任萍：基于LOD1城市模型的噪聲資料可視化

終端AI分級标準落地，手機大模型“戰火”燒到了智能體

J Clin Invest丨楊偉莉/李世華/李曉江團隊利用猴模型揭示帕金森疾病新病理機制

大模型訓練遭投毒損失千萬美元？Anthropic發現LLM代碼庫暗藏bug

全市近千名青少年齊聚中海博，在航海、航空、建築三大模型競賽中一展身手

DeepMind聯合MIT開發Fluid，讓自回歸模型實作文生圖的大規模擴充

AI周報 | 位元組跳動大模型訓練被“投毒”；微軟将終止中國個人Azure OpenAI服務

2025款讴歌RDX實車亮相外觀微調配置更新

位元組跳動回應大模型訓練被實習生攻擊：已被辭退，不影響線上業務

中醫藥領域卷出多個大模型，“AI老中醫”來了？

出手即王炸？照片級真實度生成式世界模型，還獲得皮克斯投資

AI拜年，定制你的專屬賀卡！

騰訊、華為等接入DeepSeek每月虧損超4億，MaaS模型即服務将要被颠覆了？｜钛媒體AGI

性趣機器人意外獲大模型賦能，成人用品概念股集體上漲，逆天了？