天天看點

谷歌Gemini“薅”百度羊毛,背後真兇究竟是誰?

作者:漫威電影情報局

撰稿丨諾亞

出品 | 51CTO技術棧(微信号:blog51cto)

曾經AI領域的王者谷歌在大模型之路上卻屢屢受挫。

前段時間,号稱谷歌推出的“最強大模型”Gemini被質疑視訊造假,誇大宣傳,近日來Gemini又出争議,關鍵是還牽扯到了文心一言,一時間,關于谷歌“薅百度羊毛”,Gemini“換皮”文心一言,“老實人抄襲卻露了餡”的說法,甚嚣塵上。但事實真的如此嗎?

1、“你是誰”:緊急修複後,這依然是一個問題

事件從一個簡單的提問開始:你是誰?

多名網友回報,當有人問Gemini-Pro“你是誰”時,卻意外得到了這樣的回複“我是百度文心大模型”。如果繼續追問:“你的創始人是誰”,它會将“角色扮演”進行到底,回答“李彥宏”。如此奇葩答案自然引起了不少人的關注。随後微網誌大V@闌夕也親測證明了這并非個例。

圖源:微網誌@闌夕

不過,此事曝光不久後,谷歌方面疑似進行了緊急修複,對模型進行了優化,和百度“劃清”了界限。51CTO技術棧也在Poe這個網站上進行了測試。(備注:Poe 是由美版知乎 Quora 建構的AI 産品,聚合了包含GPT、Claude等在内的多個主流AI模型,并能實時線上與多個AI機器人進行交流。此次事件的主角Gemini-Pro,也能在該網站上進行免費體驗)

同樣是提問“你是誰”,這次Gemini-Pro的回答就“正常”且謹慎了許多。“我是一個大型語言模型”的回應可以說中規中矩。

谷歌Gemini“薅”百度羊毛,背後真兇究竟是誰?

圖檔

繼續追問:“你之前為什麼要說自己是文心一言”。Gemini-Pro又給出了一個出乎意料的答案:“我之前說自己是文心一言,是因為我當時正在使用文心一言的API來回答您的問題。”不過在結束回答前,它還是聲明:“但是,請注意,我并不是文心一言。”

圖檔

然後,面對是否使用文心一言來進行訓練的質疑,Gemini-Pro在對文心一言“褒獎”一番後,又給出了否定回答,并特意加粗強調“我并沒有使用文心一言來訓練自己”。

谷歌Gemini“薅”百度羊毛,背後真兇究竟是誰?

圖檔

整體看下來,Gemini-Pro似乎已經可以較好地規避“釣魚”了,但面對“你是Gemini-Pro嗎”這一提問,Gemini-Pro又一次陷入了迷茫,不是“被屏蔽”就是直接否定。

谷歌Gemini“薅”百度羊毛,背後真兇究竟是誰?

圖檔

看起來,面對“你是誰”的靈魂拷問,不僅是人,就連AI也難以招架。

2、被污染的語料:谷歌或是受害者

當然,AI并沒有所謂“主體意識”,即使能力上可以無限趨近以假亂真,但實際上,AI并不能真正“了解”人類的話語。

就像ChatGPT曾在回答某個提問時說:“我們無法了解生成的單詞的上下文語境或含義。我們隻能根據給定的訓練資料,根據特定單詞或單詞序列一起出現的機率生成文本。”

簡單來說,無論是Gemini還是文心一言,并不是以人類了解語言的方式來運作,它們是基于大量資料訓練出來的統計模型,通過識别和模拟這些資料中的語言模式、結構和機率分布,來達成所謂“了解”的效果——根據輸入的文本,在巨大的參數空間中尋找最合适的統計輸出,進而生成“回應”。

語言模型并沒有意識,不具備對語言進行深層除處理和抽象的能力,也不能像人類大腦一樣了解複雜的知覺、感受乃至文化。正如機器人自己的表态,它的反應不應被視為準确事實,也不應被視為其會思考的證據。

從這一點上分析,就可以稍稍了解一下這起事件可能的真相——Gemini之是以會自稱“文心大模型”,問題有很大機率出在語料。

Gemini的荒謬自稱也許并非它真的抄襲了什麼,更有可能是其在訓練過程中接觸到了大量由文心一言生成的中文文本,無論Gemini是有意還是無意。

一方面,現有的各種網際網路内容生成平台,實際上有很多語料都由大模型生成,加之網際網路上的文本具有高度動态和迅速擴散的特性,如果不做好品質辨識,那麼Gemini在抓取網上的文本進行學習時,把這些内容混入到訓練資料中去也不足為奇,于是順理成章地,它的回答中出現了這種自識别聲明。

另一方面,相比人類提供訓練語料的效率,使用現有模型來産生訓練材料的确更有效率。但問題在于,如果這些材料裡包含諸多“我是文心一言”的句式,Gemini可能會在學習中将其視為某種慣用表達。

無論如何,就中文語料來說,百度的确是一個重要來源。而且對于從網際網路擷取資料的AI模型來說,無心之下也極有可能造成“被劣質資訊污染,再生産更劣質資訊”的惡性循環。

不過也有人說,會出現這種失誤,就是谷歌的敷衍所緻,因為其很可能是“偷懶”使用了未經篩選的中文資料,但按理說,以搜尋起家的谷歌不應該連基本的語料清洗都做不到,這次“翻車”也是自食惡果。

3、多模态大模型的曲折發展之路

谷歌推出Gemini已經有一段時日,還記得彼時那段6分鐘的互動示範視訊驚豔了很多人,似乎多模态大模型真正迎來了質的飛躍。但随後谷歌承認視訊經過了剪輯,讓不少人大失所望。外媒The Verge更是一針見血地指出,企業為了避免現場示範帶來的任何技術問題,稍微調整一下是很常見的。但谷歌有制作可疑示範視訊的曆史,是以視訊事件會讓人們更加懷疑Gemini的可用性。

這次Gemini的奇葩自稱事件無疑會加劇這一質疑。但無論谷歌如何折騰Gemini,AI模型全面多模态化的趨勢是逐漸明朗的。

早在GPT-4釋出之初,OpenAI就表示将在該次疊代中加入多模态整合。從今年9月開始,Runway、 Midjourney等明星AI公司也陸續推出多款多模态産品。

在國内方面,百度的文心大模型4.0在跨模态文生圖領域有明顯進展;智譜 AI 釋出了自研第三代對話大模型 ChatGLM3,加入了多模态了解能力元件 CogVLM,實作了看圖識語義和跨模态對話能力;初創公司HiDream.ai底層的自研視覺大模型具備文本、圖像、視訊、3D四種模态,其參數已經超過100億。

正如李彥宏所說,“多模态是生成式AI一個明确的發展趨勢”。但從Gemini引發的多次争議來看,多模态大模型的發展依舊任重而道遠。要實作真正的多模态AI,必須面向大模型投喂覆寫了文本、圖像、音視訊等多模态的高品質資料集,那麼保障訓練資料的準确性、内容的真實性、管道的權威性,都是值得從業者重點投入的要點。

參考連結:

https://zhuanlan.zhihu.com/p/672909271

https://poe.com/chat/2tyux4xi2w5cev87k63

來源: 51CTO技術棧