天天看點

用AI合成資料訓練AI,AI模型訓練新市場湧現

用AI合成資料訓練AI,AI模型訓練新市場湧現

智東西

編譯 | 銘滟 編輯 | 徐珊

智東西7月25日消息,微軟、OpenAI和Cohere等公司正在測試使用合成資料(計算機生成的資訊)訓練大語言模型(Lare Language Models,LLM)。合成資料一般用于訓練LLM。目前使用人造資料的最複雜形式即為合成資料,使用合成資料訓練或有助于進一步訓練AI模型。

開發人員表示,來自網絡的通用資料已不足以進一步提升AI模型的性能。多家AI公司已經将目光轉向合成資料。

今年5月,OpenAI首席執行官Sam Altman曾被問及是否擔心監管機構對ChatGPT潛在侵犯隐私的調查。Altman對此表示,“非常有信心将所有資料都更換為合成資料”。

一、合成資料能進一步滿足AI模型訓練需要

AI創企Cohere的CEO Aidan Gomez曾說:“如果你能從網絡上擷取所需的所有資料,那就太棒了。但實際上,網絡環境嘈雜混亂。它并不能滿足我們對資料的需求。”

用AI合成資料訓練AI,AI模型訓練新市場湧現

圖為Cohere的CEO Aidan Gomez

為了提高AI模型的性能并應用于科學、醫學或商業等領域,AI模型需要專門且複雜的資料集用以訓練。這些資料要麼由科學家、醫生、或工程師等領域内專家建立,要麼從制藥、銀行和零售商等大公司擷取專門資料。但是,“人類建立的資料非常昂貴”,Gomez說。

使用合成資料則避免了這筆支出。AI公司可以使用AI模型,合成與醫療或金融相關的資料。然後,将這些合成資料用于教育訓練LLM。

Gomez表示,Cohere及其他幾個AI公司已經使用了合成資料,然後由人類進行微調。“即使合成資料沒有廣泛傳播,它所包含的内容量已經很大了。”Gomez說到。

例如,為了訓練AI模型,Cohere可能會讓兩個AI模型互相對話,其中一個充當數學老師,另一個充當學生。

“兩個AI模型對話圍繞數學的三角學展開,而這些内容都是AI生成的。”Gomez說,“這一切對話都隻是AI模型的想象。然後,人類會檢視這段對話,如果模型說錯了什麼,人工就會介入并糾正。這就是我們正在做的事。”

微軟研究院最近的兩項研究表明,合成資料可用于訓練比OpenAI的GPT-4或谷歌的PaLM-2等LLM更小、更簡單的模型。

第一項研究是由GPT-4生成的短篇小說的綜合資料集,其中隻包含一個典型的四歲孩子可能了解的單詞。這個資料集被稱為TinyStories,然後被用來訓練一個簡單的LLM,它能夠生成流暢且文法正确的故事。

另一項研究為,AI可以通過教科書和練習形式,合成Python代碼進行訓練。研究發現,這些代碼在編碼任務上表現相對較好。

在合成資料這個新興市場中,Scale AI和Gretel.ai等初創企業如雨後春筍般湧現,提供合成資料服務。Gretel由美國國家安全局和中央情報局的前情報分析師創立,曾與谷歌、彙豐銀行、Riot Games和Illumina等公司合作,通過合成增強現有資料,幫助AI企業訓練更好的AI模型。

二、合成資料的潛在風險不容忽視

Gretel首席執行官Ali Golshan表示,合成資料可以保護資料中的個人隐私,同時仍然保持資料統計的完整性。

他補充說,經調整後的合成資料還可以消除現有資料中的偏見和不平衡。“建立對沖基金的AI模型可以用于觀察黑天鵝事件(指難以預測,但突然發生時會引起連鎖反應、帶來巨大負面影響的小機率事件,它存在于自然、經濟、政治等各個領域)。比如說,建立一百種變體來觀察我們的模型是否崩潰,”Golshan說。對于銀行來說,欺詐行為通常隻占總資料的百分之一以下,Gretel的軟體可以生成數千個有關欺詐的邊緣案例場景,并用于訓練AI模型。

但是,合成資料的批評者指出,并非所有合成資料都會使用真實反映或改進現實世界的資料。随着AI生成的文本和圖像充斥網際網路,AI公司不斷在網絡上抓取訓練資料,最終很可能走向重複抓取自己模型的原始版本生成的原始資料——這種現象被稱為“内部測試(dog-fooding)”。

用AI合成資料訓練AI,AI模型訓練新市場湧現

牛津大學和劍橋大學等大學近期的研究也對此發出警告。研究稱,根據AI模型的原始輸出(可能包含虛假或捏造)來訓練AI模型,随着時間的推移,這種方式有可能會破壞和降低技術性能,進而導緻“不可逆轉的缺陷”。

Golshan同意這種觀點,他也認為使用不良合成資料進行訓練可能會阻礙AI模型疊代。“網絡上充斥着越來越多AI生成的内容。我也認為随着時間的推移,這将導緻生成式内容退化,因為LLM隻是不斷重複舊有的知識,沒有任何新的見解。”

盡管存在上述風險,Cohere的Gomez等AI研究人員表示,合成資料也有可能加速超級智能AI系統的發展。

Gomez說:“我們真正想要的是能夠自學的模型。你希望他們能夠做到提出自己的問題,發現新的真理并創造自己的知識。這才是夢想。”

結語:AI企業是否将大規模應用合成資料仍有待觀察

目前AI企業對AI模型的訓練主要基于通用資料。在現有狀況下,如果AI企業意圖尋求新的資料訓練AI模型,可選擇的方式包括專業領域資料庫和合成資料等。但是,專業領域的資料鑒于專業價值及個人隐私等因素,難以用于AI模型訓練。是以,部分AI企業會選擇成本相對較低的合成資料訓練新的AI模型。

但在合成資料的使用過程中,有兩點值得保持警惕:一為資料關聯的個人隐私問題,合成資料首先應確定資料合法;二為資料的反複使用,即“内部測試(dog-fooding)”。如果反複喂入AI模型的資料并未發生實質性疊代,AI模型的功能或可能出現缺陷等性能問題。