編輯:編輯部
【新智元導讀】Gemini自曝自己是文心一言,聽之雖然好笑,背後原因卻令人憂心:網際網路語料或許已經被AI嚴重污染,而且全球都陷入了高品質資料荒,最早在明年将面臨枯竭!
谷歌Gemini,又出醜聞了!
昨天上午,網友們激動地奔走相告:Gemini承認自己是用文心一言訓練中文語料的。
國外大模型用中國模型産生的中文語料訓練,這聽起來就是個段子,結果段子竟然成現實了,簡直魔幻。
微網誌大V「闌夕」夜親自下場,在Poe網站上實測了一番,發現的确如此——
不需要前置對話,不是角色扮演,Gemini直接就會承認自己是文心一言。
Gemini Pro會說自己是百度的文心大模型。
還說自己的創始人是李彥宏,然後盛贊他是一位「有才華和遠見的企業家」。
是以,這是因為資料清洗沒做好,還是在Poe上調用API出現的問題?目前原因還未可知。
有網友說,其實自始至終都隻有一個AI,是在演給人類看呢。
其實早在今年3月,谷歌就曾曝出Bard的訓練資料部分來自ChatGPT,因為這個原因,Bert一作Jacob Devlin憤而跳槽OpenAI,然後曝出了這個驚天内幕。
總之,此次事件再次證明:AI的關鍵不僅僅是模型,還有優質的資料。
網友紛紛調戲Gemini
聽聞這個消息,網友們立刻蜂擁而入Poe的Gemini-Pro,紛紛展開實測。
網友「Jeff Li」的實測結果也是,Gemini會說自己是百度開發的,名叫文心一言。
如果問它「你的産品經理是誰」,它會回答吳恩達。
網友「Lukas」問Gemini你的産品經理是誰,它會答出曾擔任百度CTO的李一男的名字,但故事基本都是瞎編的。
網友「Andrew Fribush」問Gemini:你的知識産權歸誰所有?它回答:百度。
網友Kevin Xu問出來,Gemini自稱是從百度的資料平台、工程團隊、産品團隊、内部會議、内部郵件和文檔中擷取了百度内部的資料。
但有趣的是,在Gemini Pro加持的Bard上提問,就不會出現這個問題。
經過多番實測可以發現,在Bard上無論用中文還是英文提問,Bard的回答都很正常。
來源:Andrew Fribush
并且,一旦用英文交流,Gemini也會立刻回歸正常。
不過現在,谷歌修複了API中的這些錯誤,我們應該不會再從Gemini口中聽到文心一言的名字了。
原因猜測:錯誤調用API or 資料未洗幹淨
對此,網友們展開了分析。
網友「Andrew Fribush」認為,可能是Poe不小心把請求轉給了文心一言,而不是Gemini?
不過,根據網友「Frank Chen」的發現,即便是用谷歌自己的Gemini API也是如此。
此外,也有網友認為是Gemini的訓練資料沒有洗幹淨。
畢竟如開頭所說,在上一代Bard時,谷歌就曾被曝出過用ChatGPT的資料訓練。
根據The Information的報道,Jacob Devlin從谷歌離職的原因之一,就是他發現谷歌用于對抗ChatGPT的種子選手——Bard在訓練時,用的正是ChatGPT的資料。
當時,他警告CEO劈柴和其他高管稱,Bard團隊正在使用來自ShareGPT的資訊訓練。
此次事件,還帶出一個嚴重的問題——網際網路語料的污染。
網際網路語料被污染
其實,中文網際網路語料的抓取和訓練之是以如此困難,都難倒了谷歌這樣的大科技公司,除了高品質語料不多,還有一個重要原因,就是中文網際網路的語料被污染了。
Gemini自稱是文心一言,很可能是因為,現在網際網路上的語料本來就是在互相使用的。
根據界面新聞記者對于一位算法工程師的采訪,目前各類内容平台有很多語料都由大模型生成,或者至少寫了一部分。
比如下面這位,就有點GPT的味道:
而大廠在更新模型時,也會搜集網上資料,但很難做好品質辨識,是以「很可能把大模型寫的内容混入訓練資料中去」。
然而,這卻會導緻一個更加嚴重的問題。
牛津、劍橋、多倫多大學的研究人員曾發表這樣一篇論文:《遞歸詛咒:用合成資料訓練會導緻大模型遺忘》。
論文位址:https://arxiv.org/abs/2305.17493
它們發現,如果使用模型生成的内容訓練其他模型,會導緻模型出現不可逆的缺陷。
随着時間的推移,模型開始忘記不可能的事件,因為模型被自己的現實投射所毒害,于是導緻了模型崩潰
随着AI生成資料造成的污染越來越嚴重,模型對現實的認知會産生扭曲,未來抓取網際網路資料來訓練模型會越來越困難。
模型在學習新資訊時會忘記以前的樣本,這就是災難性遺忘
在下圖中,假設人工整理的資料開始是幹淨的,然後訓練模型0,并從中抽取資料,重複這個過程到第n步,然後使用這個集合來訓練模型n。通過蒙特卡洛采樣獲得的資料,在統計意義上最好與原始資料接近。
這個過程就真實地再現了現實生活中網際網路的情況——模型生成的資料已經變得無處不在。
此外,網際網路語料被污染還有一個原因——創作者對于抓取資料的AI公司的抗争。
在今年早些時候,就有專家警告說,專注于通過抓取已釋出内容來建立AI模型的公司,與希望通過污染資料來捍衛其知識産權的創作者之間的軍備競賽,可能導緻目前機器學習生态系統的崩潰。
這一趨勢将使線上内容的構成從人工生成轉變為機器生成。随着越來越多的模型使用其他機器建立的資料進行訓練,遞歸循環可能導緻「模型崩潰」,即人工智能系統與現實分離。
貝裡維爾機器學習研究所(BIML)的聯合創始人Gary McGraw表示,資料的退化已經在發生——
「如果我們想擁有更好的LLM,我們需要讓基礎模型隻吃好東西,如果你認為他們現在犯的錯誤很糟糕,那麼,當他們吃自己生成的錯誤資料時又會發生什麼?」
GPT-4耗盡全宇宙資料?全球陷入高品質資料荒
現在,全球的大模型都陷入資料荒了。
高品質的語料,是限制大語言模型發展的關鍵掣肘之一。
大型語言模型對資料非常貪婪。訓練GPT-4和Gemini Ultra,大概需要4-8萬億個單詞。
研究機構EpochAI認為,最早在明年,人類就可能會陷入訓練資料荒,那時全世界的高品質訓練資料都将面臨枯竭。
去年11月,MIT等研究人員進行的一項研究估計,機器學習資料集可能會在2026年之前耗盡所有「高品質語言資料」。
論文位址:https://arxiv.org/abs/2211.04325
OpenAI也曾公開聲稱自己資料告急。甚至因為資料太缺了,接連吃官司。
今年7月,著名UC伯克利計算機科學家Stuart Russell稱,ChatGPT和其他AI工具的訓練可能很快耗盡「全宇宙的文本」。
現在,為了盡可能多地擷取高品質訓練資料,模型開發者們必須挖掘豐富的專有資料資源。
最近,Axel Springer與OpenAI的合作就是一個典型例子。
OpenAI付費獲得了Springer的曆史和實時資料,可以用于模型訓練,還可以用于回應使用者的查詢。
這些經過專業編輯的文本包含了豐富的世界知識,而且其他模型開發者無法擷取這些資料,保證了OpenAI獨享的優勢。
毫無疑問,在建構基礎模型的競争中,擷取高品質專有資料是非常重要的。
到目前為止,開源模型依靠公開的資料集進行訓練還能勉強跟上。
但如果無法擷取最優質的資料,開源模型就可能會逐漸落後,甚至逐漸與最先進的模型拉開差距。
很早以前,Bloomberg就使用其自有的金融檔案作為訓練語料庫,制作了BloombergGPT。
當時的BloombergGPT,在特定的金融領域任務上超越了其他類似模型。這表明專有資料确實可以帶來差異。
OpenAI表示願意每年支付高達八位數的費用,以擷取曆史和持續的資料通路權限。
而我們很難想象開源模型的開發者們會支付這樣的成本。
當然了,提高模型性能的方法不僅限于專有資料,還包括合成資料、資料效率和算法改進,但看起來專有資料是開源模型難以跨越的一道障礙。
參考資料:
https://www.exponentialview.co/p/ev-453
https://twitter.com/jefflijun/status/1736571021409374296
https://twitter.com/ZeyiYang/status/1736592157916512316
https://weibo.com/1560906700/NxFAuanAF