天天看點

谷歌Gemini自曝用文心一言訓練,大模型互薅羊毛是常态?

作者:核芯産業觀察

電子發燒友網報道(文/吳子鵬)近兩天,原本就火熱的人工智能大模型再度被澆上了一桶油,話題熱度更勝從前。不過,這一次大家探讨的并不是大模型前景和算力這些,而是大模型之間互薅羊毛的問題。根據微網誌知名部落客@闌夕爆料,對谷歌Gemini進行測試時,如果用中文詢問Gemini的身份,其回答竟然是百度文心一言。

更讓人大跌眼鏡的是,測試人員可以使用“小愛同學”“小度”等提示詞喚醒Gemini。并且,Gemini還能夠告訴測試人員,自己是如何擷取到百度的訓練資料的。

谷歌Gemini自曝用文心一言訓練,大模型互薅羊毛是常态?

網傳對話場景

谷歌Gemini自曝用文心一言訓練,大模型互薅羊毛是常态?

網傳對話場景

不過,此則消息應該是很快就引起了谷歌技術人員的關注,在消息曝光不久後,Gemini應對上述提示詞和問題的方式就發生了改變。通過“小愛同學”“小度”等提示詞無法再喚醒Gemini,且對于相關問題的闡述也發生了變化,顯然谷歌技術人員很快修複了一些bug。

谷歌Gemini飽受質疑

當地時間12月6日,谷歌宣布推出“最大、最強、最通用”的新大型語言模型Gemini,我們對此也進行了專門的報道。在釋出會上谷歌聲稱,在32項廣泛使用的基準測試中,Gemini Ultra獲得了30個SOTA(State of the art,特指領先水準的大模型)。這也就意味着,Gemini 1.0版本在文本、代碼、音頻、圖像和視訊處理能力方面,以及推理、數學、代碼等方面都吊打GPT-4。

同時,在釋出會上谷歌還展示了Gemini相關的能力。比如,Gemini可以非常高效地從數十萬份檔案中擷取對科學家有用的資料,并建立資料集;Gemini可以在世界上最受歡迎的程式設計語言(如Python、Java、C++和Go)中了解、解釋和生成高品質的代碼。

不過,谷歌是通過視訊展示的Gemini的相關能力,而不是通過現場實操。于是乎,就在谷歌釋出會的次日,有視訊制作人員質疑稱,谷歌的示範視訊并不是實錄,而是剪輯的。随後,谷歌在部落格文章中解釋了多模态互動過程,并提到了視訊示範中的猜拳,谷歌承認,不同于視訊中對于猜拳手勢的快速反應,隻有在向Gemini同時展示這三個手勢并提示其這是遊戲時,Gemini才會得出猜拳遊戲的結論。

谷歌Gemini自曝用文心一言訓練,大模型互薅羊毛是常态?

圖源:谷歌博文

是以,現在很多人都認為谷歌誇大了Gemini的能力,隻有使用靜态圖檔和多段提示詞拼湊,Gemini才能夠顯示出多模态的能力,這和谷歌宣稱的實時多模态反應明顯是不相符的。

大模型之間互薅羊毛

除了性能質疑之外,此次事件則揭露了大模型發展另一個規則——互薅羊毛。實際上,在Gemini自曝是百度文心一言之前,國内位元組跳動就發生了相關問題。

近日,有外媒報道稱,位元組跳動在使用OpenAI技術開發自己的大語言模型,違反了OpenAI服務條款,導緻賬戶被暫停。對此,位元組跳動相關負責人向記者回應稱:今年年初,當技術團隊剛開始進行大模型的初期探索時,有部分工程師将GPT的API服務應用于較小模型的實驗性項目研究中。該模型僅為測試,沒有計劃上線,也從未對外使用。4月公司引入GPT API 調用規範檢查後,這種做法已經停止。位元組跳動稱,後續會嚴格遵守OpenAI的使用協定。

從Gemini調整之後的回複來看,其在訓練過程中确實使用了百度文心一言的訓練資料,這其實也無可厚非。百度文心一言在中文了解及相關的多模态生成能力方面确實處于領先的位置,那麼背後的原因定然是因為百度掌握着品質相對更好的中文訓練資料集,是以其他大模型如果想要在中文對話方面取得進展,使用文心一言的訓練資料确實是最高效的方式。

另外,除了位元組跳動,此前谷歌也被質疑使用OpenAI資料來訓練Bard,最終谷歌的回應是Bard沒有使用ShareGPT或是ChatGPT的任何資料來進行訓練。另外,國内也有很多公司被質疑是采用OpenAI資料來完善自己的大模型。不過,這種行為大都見不得光,是以都被否認了。

為什麼其他大模型頻傳借用OpenAI資料來訓練呢,重要原因在于GPT-4性能領先一個重要的原因就是資料集品質更高。根據semianalysis釋出的《GPT-4 Architecture, Infrastructure, Training Dataset, Costs, Vision, MoE》文章,GPT-4是一個使用1.8萬億巨量參數訓練的模型架構,而GPT-3隻有約1750億個參數,另外GPT-4擁有16個專家模型,每個MLP專家大約有1110億個參數。這就是為什麼在展示Gemini Ultra的MMLU訓練時,谷歌将“CoT@32”進行小字注釋,代表Gemini Ultra的MMLU測試使用了思維鍊提示技巧,嘗試了32次并從中選擇最好結果。與之對比,GPT-4無提示詞技巧給5個示例。就這樣,GPT-4的成績為86.4%,依然高于Gemini Ultra的83.7%。

另外,OpenAI用13萬億的token訓出了GPT-4。因為沒有高品質的token,這個資料集還包含了許多個epoch。

綜上所述,雖然GPT-4的訓練資料規模沒有官方說明,但是semianalysis文章可信度很高,這個規模比Gemini Ultra宣稱的萬億似乎更強,也不怪大家都想用GPT調優自己的模型。

當然,每一個模型都有自己擅長的地方,尤其是那些垂直的行業模型,在行業資料方面肯定是優于一般多模态大模型的,是以被薅羊毛的機率也很大,但是這大都不會被公開。

大模型資料集背後的産業鍊

為了讓GPT-4具有領先的性能,OpenAI的研發團隊在模型優化、資料選擇和硬體投入等方面做了大量工作。相信谷歌的Gemini Ultra和百度文心一言等大模型也是如此。對于大模型來說,預訓練資料集是一個非常關鍵的元素,很大程度上決定了大模型最終的性能水準。

在這個大背景下,随着大模型産業發展,訓練資料也逐漸成為一種産業。比如國内的雲測資料,雲測創立于2011年,是一家以人工智能技術驅動的企業服務平台,為全球超過百萬的企業及開發者提供雲測試服務、AI訓練資料服務、安全服務。該公司的雲測資料入選“北京市人工智能行業賦能典型案例(2023)”,在垂直大模型訓練資料服務方面很有造詣。

再比如,海天瑞聲作為國内領先基礎資料服務商,是國内首家且是目前唯一一家A股上市的人工智能訓練資料服務企業,為阿裡巴巴、Meta、騰訊、百度、位元組跳動等公司提供資料服務。

北京郵電大學科學技術研究院副院長曾雪雲教授此前在受訪時表示,“網際網路上生成的這些資料,它是非結構化的資料,也是非标準化的資料。這樣的資料就是一種原始的、比較雜亂的、沒有規範的資料,它就需要在計算前進行顆粒度上的清洗,是以高品質資料通常都有從非結構化到結構化這樣的一個加工過程。”

“現在從對資料科學的研究、國家對資料的治理,到學術界對資料的研究、産業界對資料的利用都是一個藍海,都是一個剛開始的狀态。”曾雪雲教授提到。

當然不僅國内關注到這一塊的産業價值,作為頭部企業,OpenAI希望與機構合作建立新的人工智能訓練資料集。OpenAI為此創立了“資料夥伴關系”(Data Partnerships)計劃,該計劃旨在與第三方機構合作,建立用于人工智能模型訓練的公共和私有資料集。OpenAI 在一篇博文中表示,資料合作夥伴關系旨在“讓更多組織能夠幫助引導人工智能的未來”,并“從更有用的模型中獲益”。

結語

人工智能大模型其實是大資料時代的典型産物,那麼也就無法脫離對大資料的依賴。大模型的火爆讓高品質訓練資料成為高價值、緊俏的資源,而這些資料往往掌握在頭部企業手裡,這就是為什麼大模型企業之間互相會薅羊毛。不過,相較于網際網路海量的資料,目前科技巨頭的訓練資料集還隻是九牛一毛,如何從海量網際網路資料提取有價值的訓練資料集,已經逐漸成為一個産業鍊。

繼續閱讀