1句指令+5美元+20分鐘訓練出小型專業模型，Prompt2Model了解一下

機器之心專欄

機器之心編輯部

CMU 與清華的研究者聯合釋出了 Prompt2Model 架構，它可以根據使用者提供的 prompt，快速訓練一個小型專業模型。僅需投入 5 美元用于資料收集和 20 分鐘的訓練時間，就能獲得性能優于 ChatGPT 平均水準 20% 的小型模型，同時模型參數規模減小了 700 倍。

大規模語言模型（LLM）使使用者可以借助提示和上下文學習來建構強大的自然語言處理系統。然而，從另一角度來看，LLM 在特定自然語言處理任務上表現存在一定退步：這些模型的部署需要大量計算資源，并且通過 API 與模型進行互動可能引發潛在的隐私問題。

為了應對這些問題，來自卡内基梅隆大學（CMU）和清華大學的研究人員，共同推出了 Prompt2Model 架構。該架構的目标是将基于 LLM 的資料生成和檢索方法相結合，以克服上述挑戰。使用 Prompt2Model 架構，使用者隻需提供與 LLM 相同的提示，即可自動收集資料并高效地訓練适用于特定任務的小型專業模型。

研究人員在三個自然語言處理子任務上進行了實驗。采用少量樣本提示作為輸入，僅需花費 5 美元收集資料并進行 20 分鐘的訓練，Prompt2Model 架構生成的模型在性能上相較強大的 LLM 模型 gpt-3.5-turbo 表現出 20% 的性能提升。與此同時，模型的體積縮小了高達 700 倍。研究人員進一步驗證了這些資料在真實場景中對模型效果的影響，使得模型開發人員能夠在部署前預估模型的可靠性。該架構已以開源形式提供：

架構的 GitHub 倉庫位址：https://github.com/neulab/prompt2model
架構示範視訊連結：youtu.be/LYYQ_EhGd-Q
架構相關論文連結：https://arxiv.org/abs/2308.12261

背景

從零開始建立特定自然語言處理任務系統通常相當複雜。系統的建構者需要明确定義任務範圍，擷取特定的資料集，選擇合适的模型架構，進行模型訓練和評估，然後将其部署以供實際應用。

大規模語言模型（LLM）如 GPT-3 為這一過程提供了更加簡便的解決方案。使用者隻需提供任務提示（instruction）以及一些示例（examples），LLM 便能生成相應的文本輸出。然而，通過提示生成文本可能會消耗大量計算資源，并且使用提示的方式不如經過專門訓練的模型穩定。此外，LLM 的可用性還受到成本、速度和隐私等方面的限制。

為了克服這些問題，研究人員開發了 Prompt2Model 架構。該架構将基于 LLM 的資料生成與檢索技術相結合，以解決上述限制。該系統首先從 prompt 中提取關鍵資訊，然後生成并檢索訓練資料，最終生成可供部署的專業化模型。

Prompt2Model 架構自動執行以下核心步驟：

資料集與模型檢索：收集相關資料集和預訓練模型。
資料集生成：利用 LLM 建立僞标記資料集。
模型微調：通過混合檢索資料和生成資料對模型進行微調。
模型測試：在測試資料集和使用者提供的真實資料集上對模型進行測試。

經過多個不同任務的實證評估，Prompt2Model 所花費成本顯著降低，模型的體積也大幅縮小，但性能超越了 gpt-3.5-turbo。Prompt2Model 架構不僅可作為高效建構自然語言處理系統的工具，還可用作探索模型內建訓練技術的平台。

架構

Prompt2Model 架構的核心特點為高度自動化。其流程涵蓋了資料收集、模型訓練、評估和部署等多個環節，如上圖所示。其中，自動化資料收集系統扮演了關鍵角色，它通過資料集檢索和基于 LLM 的資料生成，擷取與使用者需求密切相關的資料。接着，系統會檢索預訓練模型，并在擷取的資料集上進行微調。最後，系統會在測試集上對經過訓練的模型進行評估，并建立用于與模型互動的 Web 使用者界面（UI）。

Prompt2Model 架構的關鍵特點包括：

Prompt 驅動：Prompt2Model 的核心思想在于使用 prompt 作為驅動，使用者可以直接描述所需的任務，而無需深入了解機器學習的具體實作細節。
自動資料收集：架構通過資料集檢索和生成技術來擷取與使用者任務高度比對的資料，進而建立訓練所需的資料集。
預訓練模型：架構利用預訓練模型并進行微調，進而節省大量的訓練成本和時間。
效果評估：Prompt2Model 支援在實際資料集上進行模型測試和評估，使得在部署模型之前就能進行初步預測和性能評估，進而提高了模型的可靠性。

這些特點使 Prompt2Model 架構成為一個強大的工具，能夠高效地完成自然語言處理系統的建構過程，并且提供了先進的功能，如資料自動收集、模型評估以及使用者互動界面的建立。

實驗與結果

在實驗設計方面，研究者選擇了三項不同的任務，以評估 Prompt2Model 系統的性能：

機器閱讀問答（Machine Reading QA）：使用 SQuAD 作為實際評估資料集。
日語自然語言到代碼轉換（Japanese NL-to-Code）：使用 MCoNaLa 作為實際評估資料集。
時間表達式規範化（Temporal Expression Normalization）：使用 Temporal 資料集作為實際評估資料集。

此外，研究者還選用了 GPT-3.5-turbo 作為基準模型進行對比。實驗結果得出以下結論：

在除了代碼生成任務之外的各項任務中，Prompt2Model 系統所生成的模型明顯優于基準模型 GPT-3.5-turbo，盡管生成的模型參數規模遠小于 GPT-3.5-turbo。
通過将檢索資料集與生成資料集進行混合訓練，可以達到與直接使用實際資料集訓練相媲美的效果。這驗證了 Prompt2Model 架構能夠極大地降低人工标注的成本。
資料生成器所生成的測試資料集能夠有效區分不同模型在實際資料集上的性能。這表明生成的資料具有較高的品質，在模型訓練方面具有充分的效果。
在日語到代碼轉換任務中，Prompt2Model 系統的表現不如 GPT-3.5-turbo。

這可能是因為生成的資料集品質不高，以及缺乏适當的預訓練模型等原因所緻。

綜合而言，Prompt2Model 系統在多個任務上成功生成了高品質的小型模型，極大地減少了對人工标注資料的需求。然而，在某些任務上仍需要進一步改進。

總結

研究團隊所推出的 Prompt2Model 架構實作了僅通過自然語言提示來自動建構任務特定模型的功能。這一創新顯著地降低了建構定制化自然語言處理模型的門檻，進一步擴充了 NLP 技術的應用範圍。

驗證明驗結果顯示，Prompt2Model 架構所生成的模型相較于大型語言模型，其規模顯著減小，且在多個任務上表現優于諸如 GPT-3.5-turbo 等模型。同時，該架構生成的評估資料集也被證明能夠有效評估不同模型在真實資料集上的性能。這為指導模型的最終部署提供了重要價值。

Prompt2Model 架構為行業和廣大使用者提供了一種低成本、易于上手的途徑，以擷取滿足特定需求的 NLP 模型。這對于推動 NLP 技術的廣泛應用具有重要意義。未來的工作将繼續緻力于進一步優化架構的性能。

按照文章順序，本文作者如下：

Vijay Viswanathan: http://www.cs.cmu.edu/~vijayv/

Chenyang Zhao: https://zhaochenyang20.github.io/Eren_Chenyang_Zhao/

Amanda Bertsch: https://www.cs.cmu.edu/~abertsch/

Tongshuang Wu: https://www.cs.cmu.edu/~sherryw/

Graham Neubig: http://www.phontron.com/