天天看點

AI公司擠破頭搶資料 OpenAI“扒”視訊内容,谷歌“觊觎”辦公資料

作者:資料猿
AI公司擠破頭搶資料 OpenAI“扒”視訊内容,谷歌“觊觎”辦公資料

4月4日,在接受Bloomberg Originals采訪時,YouTube首席執行官尼爾·莫漢(Neal Mohan)對OpenAI發起了警告,稱如果Sora利用了YouTube的視訊來訓練,這将是違反平台政策和規定的,因為創作者并不希望自己的内容被拿來利用。

但有趣的是,當主持人Emily Cheung追問Google是否也用YouTube資料訓練過自家的Gemini AI,是否為創作者支付了相關費用時,這位CEO的表述變得有些“暧昧”。他承認Google确實使用了YouTube的資料來訓練Gemini,但同時聲稱他們是“按照條款規則”進行的,并沒有透露是否有為創作者支付相關費用。

這種回應顯然無法讓網友信服,于是他們開始了“花式”吐槽:

“創作者們,看到了嗎?YouTube現在說它擁有你們制作的内容。”

“不要把‘不該說’的事情說出來!”

AI公司擠破頭搶資料 OpenAI“扒”視訊内容,谷歌“觊觎”辦公資料

“谷歌也沒有為創作者支付資料費用吧?好吧,是的,服務條款說不用付費。”

AI公司擠破頭搶資料 OpenAI“扒”視訊内容,谷歌“觊觎”辦公資料

盡管目前尚無證據顯示Sora确實使用了YouTube視訊進行訓練,但這位CEO的警告很可能是受到最近《華爾街日報》的一篇報道影響。該報道稱,OpenAI開發了語音識别工具Whisper,可以将YouTube視訊轉錄為文字,為其大型語言模型提供新的訓練資料。

表面上,YouTube似乎站在創作者一邊,但實際上,無論是谷歌還是OpenAI,他們都在竭盡全力尋找各種合規或灰色地帶的手段來擷取大量訓練資料,以確定在人工智能領域保持領先地位,而創作者利益等問題,顯然并不是他們的首要考慮。

網際網路上的可用資料将很快被耗盡

2020 年 1 月,約翰·霍普金斯大學理論實體學家賈裡德·卡普蘭(Jared Kaplan)和九名 OpenAI 研究人員一起發表了一篇關于人工智能的開創性論文,得出了一個明确的結論—訓練大型語言模型的資料越多,它的性能就越好。

自此,“(資料)規模就是一切”成為人工智能領域的一大信條。OpenAI的ChatGPT-3.5的驚豔表現,更是點燃了整個生成式AI賽道的狂歡,引爆了對資料的需求。

Meta全球合作夥伴和内容副總裁尼克·格魯丁 (Nick Grudin) 曾在一次會議上表示:“唯一阻礙我們達到 ChatGPT 水準的因素就是資料量。”

AI巨頭們随之開啟了争奪資料資源的激烈競賽:GPT-3于2020年3月推出,使用了3000億的token;去年上線的GPT-4使用了12萬億token;如果遵循目前的增長軌迹,GPT-5可能會需要 60 萬億到 100 萬億的token。谷歌于去年推出的PaLM 2使用了3.6萬億的token,而2022年上線的PaLm隻用了7800萬的token。

AI公司擠破頭搶資料 OpenAI“扒”視訊内容,谷歌“觊觎”辦公資料

(不同的大語言模型對訓練資料的需求量。Credit:《紐約時報》)

由于這些大語言模型使用資料的速度比産生資料的速度還要快,這便導緻資料資源,尤其是高品質的,已經被大量“開采”和使用。

根據人工智能研究機構Epoch的預測,到2026年,所有高品質可用資料都可能被耗盡, 去年5月,OpenAI首席執行官Sam Altman也在技術會議上公開承認,AI公司們在不久的将來會耗盡網際網路上所有可用的資料。

AI公司擠破頭搶資料 OpenAI“扒”視訊内容,谷歌“觊觎”辦公資料

(低品質的語言資料預計在2050年被用完,高品質的語言資料預計在2026年用完,視覺資料預計在2060年用完。Credit:Epoch)

如果沒有新的資料源或者無法提高資料利用效率,那麼依賴龐大資料集的機器學習模型的發展速度将逐漸放緩。這意味着,AI公司為了維持技術領先優勢,不得不開啟激烈的資料争奪戰,不斷地尋找新的資料源。

新一輪的AI軍備競賽:擷取更多“資料”

OpenAI在2021年底就已經感受到了“資料饑渴”的壓力,為了訓練更大的模型,他們開始四處尋覓資料。在OpenAI總裁Greg Brockman的帶領下,Whisper項目應運而生,通過轉錄超過100萬小時的YouTube視訊,為GPT-4模型注入新的血液。雖然這種做法有法律風險,但OpenAI的團隊依然認為這是值得的。

另一邊,谷歌并沒有“高尚”到哪去,它也轉錄了 YouTube 視訊為其大語言模型擷取文本,甚至還盯上了使用者在Google Docs(谷歌文檔),Google Sheets(谷歌表格),Google Slides(谷歌PPT),以及Google Maps(谷歌地圖)等服務裡産生的内容。

據估算,這些應用程式中蘊藏着數十億個token。為了以後能有機會利用這些資料,去年6月,谷歌要求隐私團隊修改政策,并特意在美國獨立日假期期間7月1日釋出了新政策,以分散公衆的注意力。目前,谷歌聲稱沒有在實驗計劃之外使用這些資料。

在這場“資料淘金潮”中,擁有大量使用者資料的平台格外受到關注:

在ChatGPT推出後不久,“受到刺激”的Meta、谷歌、亞馬遜和蘋果等科技巨頭紛紛與Shutterstock等圖檔庫提供商達成協定,擷取其數億張圖檔、視訊和音樂檔案用于AI訓練。據Shutterstock透露,最初的交易額在2500萬美元到5000萬美元之間,随着對資料的需求增加,這一數字還在不斷上升。

Photobucket,這個曾服務于Myspace和Friendster的圖檔托管網站,也變成了科技公司争奪資料的焦點。據稱,多家科技巨頭正在與Photobucket談判,意圖擷取其130億張照片和視訊資料,以用于訓練他們的生成式人工智能模型。這些資料的定價範圍,從每張圖檔的5美分到1美元不等,而視訊的價值則更高,每個超過1美元。盡管Photobucket的目前使用者數僅為200萬,遠低于其7000萬的巅峰使用者量,它所擁有的龐大資料量仍舊極具價值。

Shutterstock的競争對手Freepik同樣宣布已經與兩家大型科技公司達成協定,以每張圖檔2到4美分的價格,許可其檔案中大部分的2億張圖像。該公司還表示,有5筆類似的交易正在進行中,但拒絕透露買家身份。

谷歌與Reddit簽訂了年度6000萬美元的使用協定,擷取高品質的長篇内容,用以訓練其大型語言模型。

即便擁有Facebook和Instagram這樣大規模的社交平台,Meta仍面臨着高品質資料來源的短缺問題。由于這兩個平台缺少深度内容的沉澱,Meta試圖收購Simon & Schuster出版社,以擷取長篇作品。此外,為了快速擷取資料進行訓練,該公司抓取了網際網路上幾乎所有可用的英語書籍、散文、詩歌和新聞文章,甚至一些受版權保護的内容。

對于創作者來說,他們生産的大量内容在不知情的情況下被科技公司用于訓練,而這些公司利用這些資料來優化自己的盈利産品,而創作者卻分文不得,這種情況多少有些不公平。

《紐約時報》去年起訴 OpenAI 和微軟,稱其在未經許可的情況下使用受版權保護的新聞文章來訓練人工智能聊天機器人。OpenAI 和微軟卻表示,使用這些文章是“合理使用”,或者說是版權法允許的,因為他們為了不同的目的而改造了這些作品。

“合成資料”是出路嗎?

随着網際網路上可用的“天然資源”變得日益稀缺,AI行業正在探索新的資料來源,以滿足未來大模型訓練的需求。其中,合成資料成為了一條潛在的途徑。

顧名思義,合成資料并非直接從現實世界中收集,而是通過算法生成的文本、圖像和代碼,旨在模拟現實資料的特征和行為,進而讓系統能夠從自生成的内容中學習。

換句話說,系統從它們自己産生的東西中學習。

這是有成功案例的。例如,Anthropic在上個月推出的Claude 3 LLM就使用了部分“合成資料”來進行訓練,在最後的榜單性能跑分全面超越GPT-4。

Sam Altman在去年5月也提出了用合成資料來訓練大語言模型的路徑:模型可以産生類似人類的文本,然後這些文本資料可以再被用來訓練模型,将幫助開發人員建構日益強大的技術并減少對受版權保護的資料的依賴。

理論上,這種方法能夠形成一個完美的閉環,既滿足了大規模AI模型對資料的龐大需求,又避免了直接從使用者那裡收集敏感資訊的争議和風險。

但我們并不能過分樂觀,近幾個月來,研究人員發現,在人工智能生成的資料上訓練人工智能模型将是一種數字形式的“近親繁殖”,最終導緻“模型崩潰”或“ 哈布斯堡詛咒(Habsburg AI)。”

而進一步模型崩潰會導緻生成模型輸出低品質、缺乏多樣性的結果,不僅降低了模型的泛化能力和應用價值,增加了訓練和調試的難度及成本,損害使用者對模型及其背後系統的信任和可信度,最終對研究進展和技術創新造成阻礙。

無論是擷取天然資料還是生産合成資料,在人工智能競争中,小型公司都面臨着嚴峻的挑戰。他們既沒有足夠的資金來購買版權資料,也無法擷取存放在科技巨頭擁有的平台上的使用者資料。

在Reddit上,一些創業者感歎道:“是的,這是違反了(YouTube)的使用者協定,但老實說,我們處于困境中,因為大科技公司壟斷了市場。我的公司因為無法爬取開放網絡的内容而崩潰,這是因為 Twitter、Facebook 和 Google 的反競争行為。”

AI公司擠破頭搶資料 OpenAI“扒”視訊内容,谷歌“觊觎”辦公資料

“這隻會引發一系列問題。所有這些公司都在不斷地侵犯對方,但這隻是為了排擠更小的公司。這些大公司都有罪,否則就無法正常運轉。”

AI公司擠破頭搶資料 OpenAI“扒”視訊内容,谷歌“觊觎”辦公資料

在這個以資料為王的時代,AI公司的行為揭示了一個深刻的真相:在追求技術領先的路上,資料的擷取和使用成了無可避免的戰場。随着資料資源的日益緊張,各大公司不惜一切代價尋找新的資料源,即便這意味着涉足法律和道德的灰色地帶。這種做法不僅引發了關于資料隐私、版權、以及創作者權益的廣泛争論,也暴露了現有資料利用機制的漏洞和不足。

在這場由資料驅動的技術競賽中,既有激動人心的進展,也有令人憂慮的隐患。技術的發展不應以犧牲個人隐私和創作者權益為代價,合理合法地利用資料,保護資料來源的同時,開發更加高效、公平的資料利用機制,将是人工智能行業未來發展的關鍵。随着技術和社會的進步,我們期待一個更加透明、公正的資料生态系統的建立,以此推動人工智能技術健康、持續的發展。

繼續閱讀