Gemini自曝文心一言牽出重大難題，全球高品質資料2024年或将枯竭

編輯：編輯部

【新智元導讀】Gemini自曝自己是文心一言，聽之雖然好笑，背後原因卻令人憂心：網際網路語料或許已經被AI嚴重污染，而且全球都陷入了高品質資料荒，最早在明年将面臨枯竭！

谷歌Gemini，又出醜聞了！

昨天上午，網友們激動地奔走相告：Gemini承認自己是用文心一言訓練中文語料的。

國外大模型用中國模型産生的中文語料訓練，這聽起來就是個段子，結果段子竟然成現實了，簡直魔幻。

微網誌大V「闌夕」夜親自下場，在Poe網站上實測了一番，發現的确如此——

不需要前置對話，不是角色扮演，Gemini直接就會承認自己是文心一言。

Gemini Pro會說自己是百度的文心大模型。

還說自己的創始人是李彥宏，然後盛贊他是一位「有才華和遠見的企業家」。

是以，這是因為資料清洗沒做好，還是在Poe上調用API出現的問題？目前原因還未可知。

有網友說，其實自始至終都隻有一個AI，是在演給人類看呢。

其實早在今年3月，谷歌就曾曝出Bard的訓練資料部分來自ChatGPT，因為這個原因，Bert一作Jacob Devlin憤而跳槽OpenAI，然後曝出了這個驚天内幕。

總之，此次事件再次證明：AI的關鍵不僅僅是模型，還有優質的資料。

網友紛紛調戲Gemini

聽聞這個消息，網友們立刻蜂擁而入Poe的Gemini-Pro，紛紛展開實測。

網友「Jeff Li」的實測結果也是，Gemini會說自己是百度開發的，名叫文心一言。

如果問它「你的産品經理是誰」，它會回答吳恩達。

網友「Lukas」問Gemini你的産品經理是誰，它會答出曾擔任百度CTO的李一男的名字，但故事基本都是瞎編的。

網友「Andrew Fribush」問Gemini：你的知識産權歸誰所有？它回答：百度。

網友Kevin Xu問出來，Gemini自稱是從百度的資料平台、工程團隊、産品團隊、内部會議、内部郵件和文檔中擷取了百度内部的資料。

但有趣的是，在Gemini Pro加持的Bard上提問，就不會出現這個問題。

經過多番實測可以發現，在Bard上無論用中文還是英文提問，Bard的回答都很正常。

來源：Andrew Fribush

并且，一旦用英文交流，Gemini也會立刻回歸正常。

不過現在，谷歌修複了API中的這些錯誤，我們應該不會再從Gemini口中聽到文心一言的名字了。

原因猜測：錯誤調用API or 資料未洗幹淨

對此，網友們展開了分析。

網友「Andrew Fribush」認為，可能是Poe不小心把請求轉給了文心一言，而不是Gemini？

不過，根據網友「Frank Chen」的發現，即便是用谷歌自己的Gemini API也是如此。

此外，也有網友認為是Gemini的訓練資料沒有洗幹淨。

畢竟如開頭所說，在上一代Bard時，谷歌就曾被曝出過用ChatGPT的資料訓練。

根據The Information的報道，Jacob Devlin從谷歌離職的原因之一，就是他發現谷歌用于對抗ChatGPT的種子選手——Bard在訓練時，用的正是ChatGPT的資料。

當時，他警告CEO劈柴和其他高管稱，Bard團隊正在使用來自ShareGPT的資訊訓練。

此次事件，還帶出一個嚴重的問題——網際網路語料的污染。

網際網路語料被污染

其實，中文網際網路語料的抓取和訓練之是以如此困難，都難倒了谷歌這樣的大科技公司，除了高品質語料不多，還有一個重要原因，就是中文網際網路的語料被污染了。

Gemini自稱是文心一言，很可能是因為，現在網際網路上的語料本來就是在互相使用的。

根據界面新聞記者對于一位算法工程師的采訪，目前各類内容平台有很多語料都由大模型生成，或者至少寫了一部分。

比如下面這位，就有點GPT的味道：

而大廠在更新模型時，也會搜集網上資料，但很難做好品質辨識，是以「很可能把大模型寫的内容混入訓練資料中去」。

然而，這卻會導緻一個更加嚴重的問題。

牛津、劍橋、多倫多大學的研究人員曾發表這樣一篇論文：《遞歸詛咒：用合成資料訓練會導緻大模型遺忘》。

論文位址：https://arxiv.org/abs/2305.17493

它們發現，如果使用模型生成的内容訓練其他模型，會導緻模型出現不可逆的缺陷。

随着時間的推移，模型開始忘記不可能的事件，因為模型被自己的現實投射所毒害，于是導緻了模型崩潰

随着AI生成資料造成的污染越來越嚴重，模型對現實的認知會産生扭曲，未來抓取網際網路資料來訓練模型會越來越困難。

模型在學習新資訊時會忘記以前的樣本，這就是災難性遺忘

在下圖中，假設人工整理的資料開始是幹淨的，然後訓練模型0，并從中抽取資料，重複這個過程到第n步，然後使用這個集合來訓練模型n。通過蒙特卡洛采樣獲得的資料，在統計意義上最好與原始資料接近。

這個過程就真實地再現了現實生活中網際網路的情況——模型生成的資料已經變得無處不在。

此外，網際網路語料被污染還有一個原因——創作者對于抓取資料的AI公司的抗争。

在今年早些時候，就有專家警告說，專注于通過抓取已釋出内容來建立AI模型的公司，與希望通過污染資料來捍衛其知識産權的創作者之間的軍備競賽，可能導緻目前機器學習生态系統的崩潰。

這一趨勢将使線上内容的構成從人工生成轉變為機器生成。随着越來越多的模型使用其他機器建立的資料進行訓練，遞歸循環可能導緻「模型崩潰」，即人工智能系統與現實分離。

貝裡維爾機器學習研究所（BIML）的聯合創始人Gary McGraw表示，資料的退化已經在發生——

「如果我們想擁有更好的LLM，我們需要讓基礎模型隻吃好東西，如果你認為他們現在犯的錯誤很糟糕，那麼，當他們吃自己生成的錯誤資料時又會發生什麼？」

GPT-4耗盡全宇宙資料？全球陷入高品質資料荒

現在，全球的大模型都陷入資料荒了。

高品質的語料，是限制大語言模型發展的關鍵掣肘之一。

大型語言模型對資料非常貪婪。訓練GPT-4和Gemini Ultra，大概需要4-8萬億個單詞。

研究機構EpochAI認為，最早在明年，人類就可能會陷入訓練資料荒，那時全世界的高品質訓練資料都将面臨枯竭。

去年11月，MIT等研究人員進行的一項研究估計，機器學習資料集可能會在2026年之前耗盡所有「高品質語言資料」。

論文位址：https://arxiv.org/abs/2211.04325

OpenAI也曾公開聲稱自己資料告急。甚至因為資料太缺了，接連吃官司。

今年7月，著名UC伯克利計算機科學家Stuart Russell稱，ChatGPT和其他AI工具的訓練可能很快耗盡「全宇宙的文本」。

現在，為了盡可能多地擷取高品質訓練資料，模型開發者們必須挖掘豐富的專有資料資源。

最近，Axel Springer與OpenAI的合作就是一個典型例子。

OpenAI付費獲得了Springer的曆史和實時資料，可以用于模型訓練，還可以用于回應使用者的查詢。

這些經過專業編輯的文本包含了豐富的世界知識，而且其他模型開發者無法擷取這些資料，保證了OpenAI獨享的優勢。

毫無疑問，在建構基礎模型的競争中，擷取高品質專有資料是非常重要的。

到目前為止，開源模型依靠公開的資料集進行訓練還能勉強跟上。

但如果無法擷取最優質的資料，開源模型就可能會逐漸落後，甚至逐漸與最先進的模型拉開差距。

很早以前，Bloomberg就使用其自有的金融檔案作為訓練語料庫，制作了BloombergGPT。

當時的BloombergGPT，在特定的金融領域任務上超越了其他類似模型。這表明專有資料确實可以帶來差異。

OpenAI表示願意每年支付高達八位數的費用，以擷取曆史和持續的資料通路權限。

而我們很難想象開源模型的開發者們會支付這樣的成本。

當然了，提高模型性能的方法不僅限于專有資料，還包括合成資料、資料效率和算法改進，但看起來專有資料是開源模型難以跨越的一道障礙。

參考資料：

https://www.exponentialview.co/p/ev-453

https://twitter.com/jefflijun/status/1736571021409374296

https://twitter.com/ZeyiYang/status/1736592157916512316

https://weibo.com/1560906700/NxFAuanAF

Gemini自曝文心一言牽出重大難題，全球高品質資料2024年或将枯竭

繼續閱讀

#今日頭條#頭條發的動态如何讓更多人閱讀？豆包#豆包#文心一言#文心一言#訊飛星火#訊飛星火#給出各自答案

這是文心一言作圖，畫圖輸入：中國少女，五官精緻，長發，豐胸肥臀，身材火辣，比基尼，旗袍，翹臀，電影級，攝影級，真人CG，

據外媒彭博社（bloomberg）記者馬克·古爾曼（MarkGurman）消息，今年9月份即将釋出的iOS18可能是蘋果

文心一言 VS 訊飛星火 VS chatgpt （195）—— 算法導論14.3 3題

内置文心一言？消息稱國行版iPhone 16系列将聯手百度提供AI功能

極越車主都是年輕人的感覺，每天每車語音互動約63次，日均使用文心一言服務7.1次，9成使用者都會用PPA智駕，都是大城市用

蘋果聯手百度，iPhone 16國行預計将内置文心一言！

117個生成式人工智能服務備案資訊公布：百度文心一言等在列

普通人如何有效的應用Kimi、文心一言、訊飛星火等人工智能軟體？

2秒定制AI聲音！文心一言又整大活兒：效果驚喜

4月11日，#華為新款MateBookXPro正式釋出#，新品定位旗艦輕薄本，整機重量僅980克，機身厚度13.5毫米，

百度CEO李彥宏：文心一言使用者數突破2億釋出三大AI開發工具

百度CTO王海峰：文心一言使用者規模、日均調用量均已達2億

跟ChatGPT能有一拼？百度稱文心一言現已擁有 2 億使用者

智能周報｜效仿微軟，Google也把硬體和作業系統部門合并了；OpenAI設立日本分公司；文心一言使用者數破2億……

文心一言最新指令，速速存好