編輯：喬楊桃子

【新智元導讀】1%合成資料，就能讓模型瞬間崩潰！來自Meta、NYU等機構團隊證明，「微量」合成資料便讓LLM弱不可堪。甚至，參數規模越大，模型崩潰越嚴重。

1%的合成資料，就讓LLM完全崩潰了？

7月，登上Nature封面一篇論文證明，用合成資料訓練模型就相當于「近親繁殖」，9次疊代後就會讓模型原地崩潰。

論文位址：https://www.nature.com/articles/s41586-024-07566-y

然而，許多大佬都不同意這篇文章的方法和結論。

比如，Scale AI的CEO Alexandr Wang就很看好合成資料的前景，英偉達釋出的開源模型Nemotron-4 340B甚至使用了98%的合成資料。

最近，Meta、紐約大學、UCLA機構發表的最新論文，再一次動搖了這些大佬們的結論。

論文位址：https://arxiv.org/abs/2410.04840

他們發現，即使合成資料僅僅占到總資料集的最小部分，甚至是1%的比例，仍然可能導緻模型崩潰。

甚至，ChatGPT和Llama這種較大的模型，還可能放大這種「崩潰」現象。

強模型崩潰，如何發生的？

随着越來越多的合成資料出現在訓練集中，一種新的現象應運而生：「模型崩潰」。

所謂「模型崩潰」，是指随着時間的推移，LLM或大型圖像生成器在其前幾代生成的資料上進行遞歸訓練，導緻性能下降，直至模型完全喪失能力的情況。

圍繞着這個問題，AI學界和業界的大佬依舊莫衷一是，尚未達成一緻的結論。

而合成資料究竟會在多大比例、多大程度上導緻「模型崩潰」，直接影響着我們在未來如何應用這項技術。

從直覺上了解，合成資料導緻「模型崩潰」的底層邏輯，是由于模型開始對合成資料中的模式進行過拟合，而這些模式可能無法代表現實世界資料的豐富性或可變性。

如果進行連續的疊代訓練，這種回報循環會導緻模型強化合成資料中存在的錯誤、偏差或過度簡化，因而損害了對現實世界的準确表示能力和泛化能力。

總體而言，這篇文章旨在回答以下兩個重要問題：

Q1：模型崩潰是不可避免的，還是可以通過政策性地混合真實資料和合成資料來解決？

Q2：較大的模型比較小的模型更容易崩潰嗎？

針對這兩個問題，論文以經典線性設定中的回歸問題為例進行了理論分析，之後在「玩具設定」（MINIST資料集+迷你模型）和更接近真實場景的GPT-2模型上運作了實驗。

理論設定

資料分布

考慮從真實資料分布P_1采樣得到的n_1個獨立同分布樣本_1={(x_i, y_i)∣1≤i≤n_1}，以及從合成資料分布采樣得到了n_2個獨立同分布樣本_2={(x_i, y_i)∣1≤i≤n_2}，令n:=n_1+n_2為訓練資料總量。

這裡，資料分布的特征可以在ℝ^d×ℝ上給出，即P_k=P_{Σ_k,w_k^∗,σ_k^2}：

其中，每個Σ_k都是一個d×d的正定協方差矩陣，捕獲輸入特征向量x的内在變化；σ_k控制每種分布中标簽噪聲的水準。

為了簡潔起見，我們将對w_k^∗做出以下先驗假設（對于某些d×d正半定矩陣Γ和Δ）：

- 真實标簽：w_1^∗∼N⁢(0,Γ)

- 真實标簽與合成标簽之間的不比對：δ:=w_2^∗−w_1^∗∼N⁢(0,Δ) ，獨立于w_1^∗

其中，矩陣Γ捕獲真實/測試分布中的真實标簽函數的結構P_1；矩陣Δ=cov⁢(w_2^∗−w_1^∗)捕獲資料分布P_1和P_2之間關于條件分布p⁢(y|x)差異的協方差結構，連同标簽的噪聲水準σ_1^2和σ_2^2。

平均而言，兩種分布的L2範數差異可以表示為，

。

是以，合成資料的品質就可以被定義為，

模型和性能度量

給定訓練資料，模型的學習目标是建構一個估計器w\hat，這可以看作是一個線性模型 x↦x^⊤⁢w\hat。與真實資料分布P_1對比，模型的測試誤差f\hat:ℝ^d→ℝ就可被定義為：

大模型強崩潰！Meta新作：合成資料有“劇毒”，1%即成LLM殺手

針對不同的模型，f\hat就是本篇論文的主要研究對象。此處考慮兩類易于分析處理的模型：1）經典線性模型，對輸入空間中的回歸施加懲罰，以及2）通過随機投影得到特征空間，之後施加回歸懲罰獲得的模型。

第一類線性模型的優化目标如公式3所定義：

該模型存在如下的比例縮放限制（proportionate scaling limit）：

由此，我們可以得到表示經典線性模型 f_{C⁢L}\hat的定理1：

由定理1和相關推論可知，在Scaling Law範式中（ϕ→0+），如果要保持穩定，則必須要求p2→0+，即僅對真實資料進行訓練，否則就會導緻模型崩潰。

對第二類的随機投影模型（random projections model），可以通過其中的随機投影來簡單近似神經網絡。

相當于，模型

中，v\hat ∈ ℝ^k通過拟合資料集進行學習，優化目标如公式5所定義：

同樣規定在如下的漸近（asymptotic）機制中工作：

這類模型可以被視為實際神經網絡高維動态的簡化。将定理1擴充到随機投影情況，可以得到定理2：

其中，ζ表達式的第一項給出了下界

這就意味着，除非p2→0+，即訓練集中合成資料部分消失，否則模型的性能将始終穩定在基線E\bar之上（意味着強烈的模型崩潰）。

此外，其中的

部分僅取決于模型的設計選擇（之前通過标量θ定義），是以可以預計，不同的設計選擇（例如模型大小），将導緻不同的模型崩潰輪廓。

實驗結果

如上所示，定理2作為定理1的拓展，給了我們相同的結論：要想模型不崩潰，合成資料比例就需要無限接近0。

接下來，作者通過一系列實驗驗證了這一理論推導，并探究模型尺寸在其中扮演的作用。

圖1對應的實驗中，訓練樣本總數固定為 n=500，不同的c^2值對應不同品質的合成資料。

c^2=0 （非常高品質的綜合資料），用方形标記表示；c^2=0.1 （高品質合成資料），用菱形表示；c^2=0.5 （低品質），用三角形表示，以及c^2=1 （非常低品質的合成資料），用星形表示

由圖可知，對于較高品質的合成資料（方形和菱形），使用較大的模型（即更大的ψ）的确是最佳實踐；但如果資料品質較低，模型并不是越大越好，最佳權衡反而處于中等大小。

此外，如圖5所示，網絡的寬度m也會造成影響，而且實驗得到的曲線與理論預測值的拟合效果比較理想。

實線對應實驗結果（5次運作），而虛線對應理論預測

改變合成資料的品質後，圖5所示的整體趨勢依舊成立。

圖6所示的實驗采用了經過全面訓練的兩層網絡，但僅根據合成資料進行訓練，依舊支援了上述的總體趨勢：

- 合成資料造成了顯著的模型崩潰

- 模型越大，崩潰程度越嚴重

圖7分别顯示了随機特征模型（左）和完全訓練的神經網絡（右）的結果，探究合成資料比例的影響。

兩種情況基本一緻，除非P_2接近0，否則模型就逐漸脫離Scaling Law的軌迹，逐漸拉平成為一條水準線，即MSE損失不再随樣本增加而降低，意味着出現了模型崩潰。

相比圖7的小模型和小資料集，圖8使用的BabiStories資料集和GPT-2模型更接近現實中的複雜情況。

可以看到，即便是少量的合成資料也會延遲Scaling Law的進展，作者預計，這最終會導緻最終Scaling Law提前達到飽和狀态或至少出現非常糟糕的指數（即小指數）。

圖8（右）所示的關于模型尺寸的影響。在資料集的某個門檻值前，較大/較深的模型保持較低的測試損失；但超過一定門檻值後，較小的模型反而由于減少過拟合而占了上風。

這表明，較大的模型往往會将模型崩潰放大到某個插值的門檻值之外。

BabiStories包含Mixtral-8x7B生成的高品質合成資料

資料混合，能否防止LLM崩潰？

如上，作者分别從理論、實證上，證明了強模型崩潰所在。

接下來，他們将通過合成資料政策，探索如何緩解模型崩潰這一現象。

這裡首先假設有關于資料源的明确資訊，并使用兩種資料混合方法：

1 權重資料混合

2 戰略性疊代混合

權重單步資料混合

為了研究學習真實資料和替代資料（例如合成資料）混合的scaling law，考慮的設定需包括以下優化問題：

結果如下所示，真實資料+模拟資料混合法，無法解決模型崩潰問題。

在實驗中，作者使用了多個不同的真實資料n1和合成資料n2的大小值。

動态/多步資料混合

疊代混合恢複了scaling law，但在實踐中可能不可行。

研究人員觀察到，在t次疊代（t的數量級為log(n/d)）的疊代混合後，會得到與E成比例的縮放規律，這在圖10中得到了經驗證明。

然而，這需要付出顯著的自舉（bootstrapping）成本，大量的真實資料，以及在多次疊代中清晰區分真實和合成資料的能力——這些條件在實踐中都過于計算密集且難以實作。

而且，疊代混合主要依賴真實資料。

在圖10中，研究人員比較了疊代混合的scaling效果，與僅使用同一訓練集中

部分真實資料（Clean）所獲得的scaling效果。

雖然scaling率保持一緻，但疊代混合的表現始終不如單獨使用真實資料。

這表明疊代混合可能主要是中和了合成資料，并嚴重依賴真實資料來恢複scaling效果。

即使原始合成資料品質很高（即當

很小時，如圖10最右側所示），疊代方法也未能有效利用合成資料，導緻性能比單次混合更差。

是以，盡管疊代混合恢複了相同的scaling率，模型仍在某種程度上發生了崩潰，并且沒有觀察到顯著的性能改善。

最後，研究人員還證明了，與少量實際資料進行疊代混合，也是會導緻模型崩潰。

總而言之，這項研究系統地描述了真實、合成資料混合，訓練模型的效果，表明了模型崩潰是一種穩健的現象，即使在合成資料比例很小的情況下。

作者介紹

Elvis Dohmatob

2021年，Elvis Dohmatob加入了FacebookAI Research（FAIL）成為一名研究員。在此之前，他曾在INRIA、Criteo擔任過研究員。

他的研究興趣包括：深度學習(主要是理論方面)、穩健優化等等。

Yunzhen Feng（馮韫禛）

Yunzhen Feng目前是紐約大學資料科學中心數學和資料組的博士生，導師是Julia Kempe教授。在Meta的FIRE實習期間，與Yann Olivier博士共事。

目前，他的研究興趣在于：1)改進的科學推理方法，2)強化學習和測試時間優化，3)人工智能合成資料對當代學習範式的影響。

他曾在2021年獲得北大數院應用數學學士學位，導師是Bin Dong教授。

Arjun Subramonian

Arjun Subramonian目前是UCLA計算機科學理論博士生，并在Meta實習。

他的博士研究重點是圖神經網絡中社會不公平的理論基礎，對利用譜圖理論和統計學來表征圖的結構屬性如何導緻算法不公平感興趣。

Julia Kempe

Julia Kempe是紐約大學資料科學中心和Courant數學科學研究所計算機科學、數學和資料科學的銀牌教授，也是Meta Fair的客座進階研究員。

大模型強崩潰！Meta新作：合成資料有“劇毒”，1%即成LLM殺手

【新智元導讀】1%合成資料，就能讓模型瞬間崩潰！來自Meta、NYU等機構團隊證明，「微量」合成資料便讓LLM弱不可堪。甚至，參數規模越大，模型崩潰越嚴重。

強模型崩潰，如何發生的？

理論設定

資料分布

模型和性能度量

實驗結果

資料混合，能否防止LLM崩潰？

權重單步資料混合

動态/多步資料混合

繼續閱讀

CNCC | 大模型下的多模态情感計算未來

“伏羲慧眼”大模型重磅釋出！擁有全球規模最大的眼科圖像資料庫

新車 | AI大模型上車，13項新增/27項優化，極氪009光輝OTA更新

AI日報：複旦、百度新模型可生成1小時長視訊；全新ChatGPT Windows版本上線；NotebookLM又上2個新功能

測繪通報 | 任萍：基于LOD1城市模型的噪聲資料可視化

終端AI分級标準落地，手機大模型“戰火”燒到了智能體

J Clin Invest丨楊偉莉/李世華/李曉江團隊利用猴模型揭示帕金森疾病新病理機制

大模型訓練遭投毒損失千萬美元？Anthropic發現LLM代碼庫暗藏bug

全市近千名青少年齊聚中海博，在航海、航空、建築三大模型競賽中一展身手

DeepMind聯合MIT開發Fluid，讓自回歸模型實作文生圖的大規模擴充

AI周報 | 位元組跳動大模型訓練被“投毒”；微軟将終止中國個人Azure OpenAI服務

位元組跳動回應大模型訓練被實習生攻擊：已被辭退，不影響線上業務

中醫藥領域卷出多個大模型，“AI老中醫”來了？

出手即王炸？照片級真實度生成式世界模型，還獲得皮克斯投資

騰訊、華為等接入DeepSeek每月虧損超4億，MaaS模型即服務将要被颠覆了？｜钛媒體AGI

性趣機器人意外獲大模型賦能，成人用品概念股集體上漲，逆天了？