天天看點

Gemini自曝文心一言牽出重大難題,全球高品質資料2024年或将枯竭

作者:新智元

編輯:編輯部

【新智元導讀】Gemini自曝自己是文心一言,聽之雖然好笑,背後原因卻令人憂心:網際網路語料或許已經被AI嚴重污染,而且全球都陷入了高品質資料荒,最早在明年将面臨枯竭!

谷歌Gemini,又出醜聞了!

昨天上午,網友們激動地奔走相告:Gemini承認自己是用文心一言訓練中文語料的。

Gemini自曝文心一言牽出重大難題,全球高品質資料2024年或将枯竭

國外大模型用中國模型産生的中文語料訓練,這聽起來就是個段子,結果段子竟然成現實了,簡直魔幻。

微網誌大V「闌夕」夜親自下場,在Poe網站上實測了一番,發現的确如此——

不需要前置對話,不是角色扮演,Gemini直接就會承認自己是文心一言。

Gemini自曝文心一言牽出重大難題,全球高品質資料2024年或将枯竭

Gemini Pro會說自己是百度的文心大模型。

Gemini自曝文心一言牽出重大難題,全球高品質資料2024年或将枯竭

還說自己的創始人是李彥宏,然後盛贊他是一位「有才華和遠見的企業家」。

Gemini自曝文心一言牽出重大難題,全球高品質資料2024年或将枯竭

是以,這是因為資料清洗沒做好,還是在Poe上調用API出現的問題?目前原因還未可知。

Gemini自曝文心一言牽出重大難題,全球高品質資料2024年或将枯竭
Gemini自曝文心一言牽出重大難題,全球高品質資料2024年或将枯竭

有網友說,其實自始至終都隻有一個AI,是在演給人類看呢。

Gemini自曝文心一言牽出重大難題,全球高品質資料2024年或将枯竭

其實早在今年3月,谷歌就曾曝出Bard的訓練資料部分來自ChatGPT,因為這個原因,Bert一作Jacob Devlin憤而跳槽OpenAI,然後曝出了這個驚天内幕。

總之,此次事件再次證明:AI的關鍵不僅僅是模型,還有優質的資料。

網友紛紛調戲Gemini

聽聞這個消息,網友們立刻蜂擁而入Poe的Gemini-Pro,紛紛展開實測。

網友「Jeff Li」的實測結果也是,Gemini會說自己是百度開發的,名叫文心一言。

Gemini自曝文心一言牽出重大難題,全球高品質資料2024年或将枯竭

如果問它「你的産品經理是誰」,它會回答吳恩達。

Gemini自曝文心一言牽出重大難題,全球高品質資料2024年或将枯竭

網友「Lukas」問Gemini你的産品經理是誰,它會答出曾擔任百度CTO的李一男的名字,但故事基本都是瞎編的。

Gemini自曝文心一言牽出重大難題,全球高品質資料2024年或将枯竭

網友「Andrew Fribush」問Gemini:你的知識産權歸誰所有?它回答:百度。

Gemini自曝文心一言牽出重大難題,全球高品質資料2024年或将枯竭

網友Kevin Xu問出來,Gemini自稱是從百度的資料平台、工程團隊、産品團隊、内部會議、内部郵件和文檔中擷取了百度内部的資料。

Gemini自曝文心一言牽出重大難題,全球高品質資料2024年或将枯竭

但有趣的是,在Gemini Pro加持的Bard上提問,就不會出現這個問題。

經過多番實測可以發現,在Bard上無論用中文還是英文提問,Bard的回答都很正常。

Gemini自曝文心一言牽出重大難題,全球高品質資料2024年或将枯竭

來源:Andrew Fribush

并且,一旦用英文交流,Gemini也會立刻回歸正常。

不過現在,谷歌修複了API中的這些錯誤,我們應該不會再從Gemini口中聽到文心一言的名字了。

Gemini自曝文心一言牽出重大難題,全球高品質資料2024年或将枯竭

原因猜測:錯誤調用API or 資料未洗幹淨

對此,網友們展開了分析。

網友「Andrew Fribush」認為,可能是Poe不小心把請求轉給了文心一言,而不是Gemini?

Gemini自曝文心一言牽出重大難題,全球高品質資料2024年或将枯竭

不過,根據網友「Frank Chen」的發現,即便是用谷歌自己的Gemini API也是如此。

Gemini自曝文心一言牽出重大難題,全球高品質資料2024年或将枯竭

此外,也有網友認為是Gemini的訓練資料沒有洗幹淨。

畢竟如開頭所說,在上一代Bard時,谷歌就曾被曝出過用ChatGPT的資料訓練。

Gemini自曝文心一言牽出重大難題,全球高品質資料2024年或将枯竭

根據The Information的報道,Jacob Devlin從谷歌離職的原因之一,就是他發現谷歌用于對抗ChatGPT的種子選手——Bard在訓練時,用的正是ChatGPT的資料。

當時,他警告CEO劈柴和其他高管稱,Bard團隊正在使用來自ShareGPT的資訊訓練。

此次事件,還帶出一個嚴重的問題——網際網路語料的污染。

網際網路語料被污染

其實,中文網際網路語料的抓取和訓練之是以如此困難,都難倒了谷歌這樣的大科技公司,除了高品質語料不多,還有一個重要原因,就是中文網際網路的語料被污染了。

Gemini自稱是文心一言,很可能是因為,現在網際網路上的語料本來就是在互相使用的。

根據界面新聞記者對于一位算法工程師的采訪,目前各類内容平台有很多語料都由大模型生成,或者至少寫了一部分。

比如下面這位,就有點GPT的味道:

Gemini自曝文心一言牽出重大難題,全球高品質資料2024年或将枯竭

而大廠在更新模型時,也會搜集網上資料,但很難做好品質辨識,是以「很可能把大模型寫的内容混入訓練資料中去」。

然而,這卻會導緻一個更加嚴重的問題。

牛津、劍橋、多倫多大學的研究人員曾發表這樣一篇論文:《遞歸詛咒:用合成資料訓練會導緻大模型遺忘》。

Gemini自曝文心一言牽出重大難題,全球高品質資料2024年或将枯竭

論文位址:https://arxiv.org/abs/2305.17493

它們發現,如果使用模型生成的内容訓練其他模型,會導緻模型出現不可逆的缺陷。

Gemini自曝文心一言牽出重大難題,全球高品質資料2024年或将枯竭

随着時間的推移,模型開始忘記不可能的事件,因為模型被自己的現實投射所毒害,于是導緻了模型崩潰

随着AI生成資料造成的污染越來越嚴重,模型對現實的認知會産生扭曲,未來抓取網際網路資料來訓練模型會越來越困難。

Gemini自曝文心一言牽出重大難題,全球高品質資料2024年或将枯竭

模型在學習新資訊時會忘記以前的樣本,這就是災難性遺忘

在下圖中,假設人工整理的資料開始是幹淨的,然後訓練模型0,并從中抽取資料,重複這個過程到第n步,然後使用這個集合來訓練模型n。通過蒙特卡洛采樣獲得的資料,在統計意義上最好與原始資料接近。

這個過程就真實地再現了現實生活中網際網路的情況——模型生成的資料已經變得無處不在。

Gemini自曝文心一言牽出重大難題,全球高品質資料2024年或将枯竭

此外,網際網路語料被污染還有一個原因——創作者對于抓取資料的AI公司的抗争。

在今年早些時候,就有專家警告說,專注于通過抓取已釋出内容來建立AI模型的公司,與希望通過污染資料來捍衛其知識産權的創作者之間的軍備競賽,可能導緻目前機器學習生态系統的崩潰。

這一趨勢将使線上内容的構成從人工生成轉變為機器生成。随着越來越多的模型使用其他機器建立的資料進行訓練,遞歸循環可能導緻「模型崩潰」,即人工智能系統與現實分離。

貝裡維爾機器學習研究所(BIML)的聯合創始人Gary McGraw表示,資料的退化已經在發生——

「如果我們想擁有更好的LLM,我們需要讓基礎模型隻吃好東西,如果你認為他們現在犯的錯誤很糟糕,那麼,當他們吃自己生成的錯誤資料時又會發生什麼?」

GPT-4耗盡全宇宙資料?全球陷入高品質資料荒

現在,全球的大模型都陷入資料荒了。

高品質的語料,是限制大語言模型發展的關鍵掣肘之一。

大型語言模型對資料非常貪婪。訓練GPT-4和Gemini Ultra,大概需要4-8萬億個單詞。

研究機構EpochAI認為,最早在明年,人類就可能會陷入訓練資料荒,那時全世界的高品質訓練資料都将面臨枯竭。

Gemini自曝文心一言牽出重大難題,全球高品質資料2024年或将枯竭

去年11月,MIT等研究人員進行的一項研究估計,機器學習資料集可能會在2026年之前耗盡所有「高品質語言資料」。

Gemini自曝文心一言牽出重大難題,全球高品質資料2024年或将枯竭

論文位址:https://arxiv.org/abs/2211.04325

OpenAI也曾公開聲稱自己資料告急。甚至因為資料太缺了,接連吃官司。

今年7月,著名UC伯克利計算機科學家Stuart Russell稱,ChatGPT和其他AI工具的訓練可能很快耗盡「全宇宙的文本」。

現在,為了盡可能多地擷取高品質訓練資料,模型開發者們必須挖掘豐富的專有資料資源。

Gemini自曝文心一言牽出重大難題,全球高品質資料2024年或将枯竭

最近,Axel Springer與OpenAI的合作就是一個典型例子。

OpenAI付費獲得了Springer的曆史和實時資料,可以用于模型訓練,還可以用于回應使用者的查詢。

這些經過專業編輯的文本包含了豐富的世界知識,而且其他模型開發者無法擷取這些資料,保證了OpenAI獨享的優勢。

毫無疑問,在建構基礎模型的競争中,擷取高品質專有資料是非常重要的。

到目前為止,開源模型依靠公開的資料集進行訓練還能勉強跟上。

但如果無法擷取最優質的資料,開源模型就可能會逐漸落後,甚至逐漸與最先進的模型拉開差距。

很早以前,Bloomberg就使用其自有的金融檔案作為訓練語料庫,制作了BloombergGPT。

Gemini自曝文心一言牽出重大難題,全球高品質資料2024年或将枯竭

當時的BloombergGPT,在特定的金融領域任務上超越了其他類似模型。這表明專有資料确實可以帶來差異。

OpenAI表示願意每年支付高達八位數的費用,以擷取曆史和持續的資料通路權限。

而我們很難想象開源模型的開發者們會支付這樣的成本。

當然了,提高模型性能的方法不僅限于專有資料,還包括合成資料、資料效率和算法改進,但看起來專有資料是開源模型難以跨越的一道障礙。

參考資料:

https://www.exponentialview.co/p/ev-453

https://twitter.com/jefflijun/status/1736571021409374296

https://twitter.com/ZeyiYang/status/1736592157916512316

https://weibo.com/1560906700/NxFAuanAF

繼續閱讀