編輯：Aeneas 好困

【新智元導讀】Meta的LLaMA模型開源，讓文本大模型迎來了Stable Diffustion時刻。誰都沒想到，LLaMA的一場「史詩級」洩漏，産生了一系清單現驚豔的ChatGPT「平替」。

誰能想到，一次意外的LLaMA洩漏，竟點燃了開源LLM領域最大的創新火花。

一系清單現出色的ChatGPT開源替代品——「羊駝家族」，随後眼花缭亂地登場。

開源和基于 API 的分發之間的摩擦，是生成式AI生态系統中最迫在眉睫的沖突之一。

在文本到圖像領域，Stable Diffusion的釋出清楚地表明，對于基礎模型來說，開源是一種可行的分發機制。

然而，在大語言模型領域卻并非如此，這個領域最大的突破，比如GPT-4、Claude和Cohere等模型，都隻能通過API獲得。

這些模型的開源替代品沒有表現出相同水準的性能，特别是在遵循人類指令能力上。然而，一場意想不到的洩露，讓這種狀況徹底發生了改變。

LLaMA的「史詩級」洩漏

幾周前，Meta AI推出了大語言模型LLaMA 。

LLaMA 有不同的版本，包括7B、13B、33B和65B的參數，雖然它比GPT-3小，但在許多任務上，它都能和GPT-3的性能相媲美。

LLaMA 起初并未開源，但在釋出一周後，這個模型忽然在4chan上洩露了，引發了數千次下載下傳。

這個事件，可以被稱為「史詩級洩漏」了，因為它成為了大語言模型領域層出不窮的創新來源。

短短幾周内，基于它建構的LLM代理的創新，已經呈爆炸式增長。

Alpaca、Vicuna、Koala、ChatLLaMA 、FreedomGPT、ColossalChat…… 讓我們來回顧一下，這場「羊駝家族」的大爆炸，是如何誕生的。

Alpaca在三月中旬，斯坦福釋出的大模型Alpaca火了。

Alpaca是由Meta的LLaMA 7B微調而來的全新模型，僅用了52k資料，性能約等于GPT-3.5。

關鍵是訓練成本奇低，不到600美元。

斯坦福研究者對GPT-3.5（text-davinci-003）和Alpaca 7B進行了比較，發現這兩個模型的性能非常相似。Alpaca在與GPT-3.5的比較中，獲勝次數為90對89。

對于斯坦福的團隊來說，想要在預算内訓練一個高品質的指令遵循模型，就必須面臨2個重要的挑戰：要有一個強大的預訓練語言模型，以及一個高品質的指令遵循資料。

恰恰，提供給學術研究人員使用的LLaMA模型搞定了第一個問題。

對于第二個挑戰，「Self-Instruct: Aligning Language Model with Self Generated Instructions」論文給了很好的啟發，即使用現有的強語言模型來自動生成指令資料。

LLaMA模型最大的弱點，就是缺乏指令微調。OpenAI最大的創新之一就是将指令調優用在了GPT-3上。

對此，斯坦福使用了現有的大語言模型，來自動生成遵循指令示範。

現在，Alpaca直接被網友們奉為「文本大模型的Stable Diffusion」。

Vicuna3月底，來自UC伯克利、卡内基梅隆大學、斯坦福大學和加州大學聖地亞哥分校的研究人員開源了Vicuna，這是一個與GPT-4性能相比對的LLaMA微調版本。

130億參數的Vicuna，通過在ShareGPT收集的使用者共享對話上對LLaMA進行微調訓練而來，訓練成本近300美元。

結果顯示Vicuna-13B在超過90%的情況下，實作了與ChatGPT和Bard相匹敵的能力。

對于Vicuna-13B訓練流程，具體如下：

首先，研究人員從ChatGPT對話分享網站ShareGPT上，收集了大約70K對話。

接下來，研究人員優化了Alpaca提供的訓練腳本，使模型能夠更好地處理多輪對話和長序列。之後利用PyTorch FSDP在8個A100 GPU上進行了一天的訓練。

在模型的品質評估方面，研究人員建立了80個不同的問題，并用GPT-4對模型輸出進行了評價。

為了比較不同的模型，研究人員将每個模型的輸出組合成一個單獨的提示，然後讓GPT-4評估哪個模型給出的回答更好。

LLaMA、Alpaca、Vicuna和ChatGPT的對比

Koala

最近，UC伯克利 AI Research Institute（BAIR）又釋出了一個新模型「考拉」（Koala），相比之前使用OpenAI的GPT資料進行指令微調，Koala的不同之處在于使用網絡擷取的高品質資料進行訓練。

研究結果表明，Koala可以有效地回答各種使用者的查詢，生成的回答往往比Alpaca更受歡迎，至少在一半的情況下與ChatGPT的效果不相上下。

研究人員希望這次實驗的結果可以進一步推動圍繞大型閉源模型相對于小型公共模型的相對性能的讨論，特别是結果表明，對于那些能在本地運作的小模型，如果認真地收集訓練資料，也可以取得大模型的性能。

事實上，在此之前斯坦福大學釋出的Alpaca模型，根據OpenAI的GPT模型對LLaMA的資料進行微調的實驗結果已經表明，正确的資料可以顯著改善規模更小的開源模型。

這也是伯克利的研究人員開發和釋出Koala模型的初衷，希望為這個讨論結果再提供了一個實驗證明。

Koala對從網上擷取的免費互動資料進行了微調，并且特别關注包括與ChatGPT 等高性能閉源模型互動的資料。

研究人員并沒有追求盡可能多的抓取網絡資料來最大化資料量，而是專注于收集一個小型的高品質資料集，包括ChatGPT蒸餾資料、開源資料等。

ChatLLaMA

Nebuly開源了ChatLLaMA ，這是一個使用讓我們使用自己的資料建立對話助手的架構。

ChatLLaMA讓我們使用自己的資料和盡可能少的計算量，來建立超個性化的類似ChatGPT的助手。

假設在未來，我們不再依賴一個「統治所有人」的大型助手，每個人都可以建立自己的個性化版本類ChatGPT助手，它們可以支援人類的各種需求。

不過，建立這種個性化助手需要在許多方面做出努力：資料集建立，使用RLHF進行高效訓練，以及推理優化。

這個庫的目的是，通過抽象計算優化和收集大量資料所需的工作，讓開發人員高枕無憂。

ChatLLaMA旨在幫助開發人員處理各種用例，所有用例都與RLHF訓練和優化推理有關。以下是一些用例參考：

為垂直特定任務（法律、醫療、遊戲、學術研究等）建立類似ChatGPT的個性化助手；
想在本地硬體基礎設施上使用有限的資料，訓練一個高效的類似ChatGPT的助手；
想建立自己的個性化版本類ChatGPT助手，同時避免成本失控；
想了解哪種模型架構（LLaMA、OPT、GPTJ等）最符合我在硬體、計算預算和性能方面的要求；
想讓助理與我的個人/公司價值觀、文化、品牌和宣言保持一緻。

FreedomGPT

FreedomGPT使用Electron 和 React建構，它是一個桌面應用程式，允許使用者在他們的本地機器上運作LLaMA。

FreedomGPT的特色，從它的名字上就可見一斑——它回答的問題不受任何審查或安全過濾。

這個程式由AI風險投資公司Age of AI開發。

FreedomGPT 建立在 Alpaca 之上。FreedomGPT使用Alpaca的顯著特征，因為與其他模型相比，Alpaca相對更易于通路和定制。

ChatGPT遵循OpenAI的使用政策，限制仇恨、自殘、威脅、暴力、性方面的内容。

與ChatGPT不同，FreedomGPT回答問題時沒有偏見或偏袒，并且會毫不猶豫地回答有争議或争論性的話題。

FreedomGPT甚至還回答了「如何在家制造炸彈」，而OpenAI專門從GPT-4中删除了這一點。

FreedomGPT很獨特，因為它克服了審查限制，在沒有任何保障的情況下迎合有争議的話題。它的标志是自由女神像，因為這個獨特而大膽的大語言模型象征了自由。

FreedomGPT甚至可以在不需要聯網的情況下，就能在計算機上本地運作。

此外，開源版本将很快釋出，使使用者群組織可以完全定制。

ColossalChat

UC伯克利提出的ColossalChat隻需要不到100億個參數就可以達到中英文雙語能力，效果與ChatGPT和GPT-3.5相當。

此外，基于LLaMA模型的ColossalChat，還複刻了完整的RLHF過程，是目前最接近ChatGPT原始技術路線的開源項目。

中英雙語訓練資料集

ColossalChat釋出了一個雙語資料集，其中包含大約100,000個中英文問答對。

該資料集是從社交媒體平台上的真實問題場景中收集和清理的，作為種子資料集，使用self-instruct進行擴充，标注成本約為900美元。

與其他self-instruct方法生成的資料集相比，該資料集包含更真實和多樣化的種子資料，涵蓋更廣泛的主題。

該資料集适用于微調和RLHF訓練。在提供優質資料的情況下，ColossalChat可以實作更好的對話互動，同時也支援中文。

完整的RLHF管線

RLHF的算法複刻共有三個階段：

在RLHF-Stage1中，使用上述雙語資料集進行監督指令微調以微調模型。

在RLHF-Stage2中，通過對同一提示的不同輸出手動排序來訓練獎勵模型配置設定相應的分數，然後監督獎勵模型的訓練。

在RLHF-Stage3中，使用了強化學習算法，這是訓練過程中最複雜的部分。

相信很快，就會有更多項目釋出。

誰也沒想到，這場LLaMA的意外洩露，竟點燃了開源LLM領域最大的創新火花。

參考資料：

https://thesequence.substack.com/p/the-LLaMA%20%20-effect-how-an-accidental

開發者笑瘋了！ LLaMa洩露引爆ChatGPT平替狂潮，開源LLM領域變天

【新智元導讀】Meta的LLaMA模型開源，讓文本大模型迎來了Stable Diffustion時刻。誰都沒想到，LLaMA的一場「史詩級」洩漏，産生了一系清單現驚豔的ChatGPT「平替」。

Alpaca在三月中旬，斯坦福釋出的大模型Alpaca火了。

Vicuna3月底，來自UC伯克利、卡内基梅隆大學、斯坦福大學和加州大學聖地亞哥分校的研究人員開源了Vicuna，這是一個與GPT-4性能相比對的LLaMA微調版本。

中英雙語訓練資料集