在大模型競賽中，資料短缺危機正越來越嚴峻。

最近《紐約時報》的一項調查顯示，為了獲得大量且高品質的訓練資料，包括OpenAI、Google和Meta在内的科技公司紛紛走捷徑，忽視平台政策，在違法邊緣瘋狂試探。

其中OpenAI通過語音轉錄工具Whisper，收集了超100萬小時的YouTube視訊文本，作為GPT-4的訓練資料。

《紐約時報》報道封面

AI公司正瘋狂從網際網路上擷取各類資料以訓練AI大模型，但這是否合法、符合平台政策呢？

一場圍繞資料資源的權益争奪戰已在創作者、内容平台和AI公司之間展開。

AI“肥料”不足，

OpenAI瘋狂轉錄YouTube視訊

據《紐約時報》報道，OpenAI多年來一直在收集資料、清理資料，并将其輸入到一個龐大的文本池中，以訓練大型語言模型。

這些資料包括來自Github的計算機代碼、國際象棋資料庫、來自Quizlet的高中考試題和作業内容等。

到了2021年底，OpenAI已經耗盡了網際網路上所有可靠的英文文本資源，急需更多資料來訓練下一代模型GPT-4。

為此，OpenAI内部商量了幾個方案：轉錄播客、有聲讀物和YouTube視訊；用AI系統從頭開始建立資料；收購已經收集了大量數字資料的初創公司。

OpenAI的研究團隊後來建立了一個名為Whisper的語音識别工具，用于轉錄YouTube視訊和播客，生成新的對話文本，以進一步提高AI的智能程度。

Whisper部落格：https://openai.com/research/whisper

三名知情人士表示，OpenAI員工知道這樣做會涉足法律灰色地帶，可能違反YouTube的規則。Google旗下的YouTube禁止将其視訊用于“獨立”的應用程式，還禁止通過“任何自動化手段（如機器人或爬蟲）”通路其視訊。

但OpenAI團隊認為用視訊訓練AI是合理使用，最終還是轉錄了超過100萬小時的YouTube視訊。

知情人士稱，OpenAI總裁Greg Brockman上司了開發GPT-4的團隊，他親自參與收集了這些YouTube視訊，然後将其輸入至GPT-4。

除了OpenAI，Meta、Google等科技公司也采取了類似的措施。

據Meta去年初的内部會議錄音，Meta的生成式AI副總裁Ahmad Al-Dahle稱，團隊已經使用了網際網路上幾乎所有可用的英文書籍、論文、詩歌和新聞文章來開發模型，除非Meta獲得更多資料，否則無法匹敵ChatGPT。

2023年3月和4月，Meta團隊考慮收購出版社Simon & Schuster以擷取其長篇作品的授權，以及讨論了如何在未經許可的情況下，從網際網路上收集受版權保護的資料，即使這将帶來訴訟。

他們提到，如果與出版商、藝術家、音樂家和新聞行業談判授權的話，會耗費太長時間。

Meta曾表示，已經從Instagram和Facebook擷取了數十億公開共享的圖像和視訊來訓練其模型。

有知情人士稱，Google也轉錄了YouTube視訊來訓練自家的AI模型，并在去年擴大了其服務條款。

此前的隐私政策稱，Google隻能使用公開資訊來“幫助訓練Google的語言模型并建構Google翻譯等功能”，更改後的條款擴大了AI技術适用範圍，Google可以利用資料“訓練AI模型并建構Google翻譯、Bard和Cloud AI等産品和功能”。

Google隐私政策修改

Google的内部消息顯示，這一變化的目的之一是為了讓Google能利用公開的Google文檔、Google地圖上的餐廳評論等其他線上資料，來完善其AI産品。

創作者紛紛起訴AI侵權

開發更大更強的AI，意味着需要看似無盡的資料資源。從新聞報道、出版作品，到網絡留言、部落格文章、社交平台上的照片和視訊等等，網際網路上的各類資料正成為AI行業發展的重要基石。

而對于創作者來說，AI公司使用他們的作品來訓練模型，存在侵犯版權和道德問題。

《紐約時報》去年底起訴OpenAI和微軟，稱其在未經許可的情況下使用受版權保護的新聞文章來訓練AI聊天機器人。OpenAI和微軟回應稱這是“合理使用”，或者說受版權法保護的。

去年好萊塢罷工也涉及AI相關權利的争議。電影制作人、演員Justine Bateman是美國演員工會（SAG-AFTRA）的AI顧問，她認為AI模型在未經許可或付費的情況下擷取内容（包括她的作品和電影），“這是美國最大的盜竊案”。

近期，包括知名歌手Billie Eilish、Nicki Minaj等在内的200多名藝術家簽署了一封公開信，要求科技公司承諾不開發破壞或取代人類創意的AI工具，“我們必須防止AI被掠奪性地用來竊取專業創作者的聲音和肖像，侵犯創作者的權利，并破壞音樂生态系統”。

面對創作者的抗議，内容平台也亮明了态度。

YouTube首席執行官Neal Mohan近日在接受彭博社采訪時強調，下載下傳YouTube視訊，然後用于訓練Sora等AI模型顯然違反了YouTube現行的相關條款。

他承認Google在訓練Gemini模型時“使用了YouTube上的一些内容”，但在使用前已得到創作者的授權，這是YouTube與創作者之間的協定所允許的。

Google發言人Matt Bryant針對隐私政策的變更回應稱，Google沒有在未經使用者“明确許可”的情況下使用Google文檔或相關應用的資訊來訓練AI，條款中指的是一個允許使用者測試實驗性功能的自願計劃。

AI合成資料可行嗎

回顧AI大模型的程序，2020年之前，大多數AI模型使用的訓練資料比現在小得多。

AI大模型訓練資料量變化，圖源《紐約時報》

直到約翰·霍普金斯大學理論實體學家Jared Kaplan發表了一篇關于AI的開創性論文，發現訓練大型語言模型所需的資料越多，它的性能就越好。

此後，“規模即一切（Scale Is All You Need）”很快成為AI研究的口号。

論文位址：https://arxiv.org/pdf/2001.08361.pdf

OpenAI在2020年11月推出了GPT-3，它是當時訓練資料量最大的模型——約3000億個token。Google旗下的AI實驗室DeepMind更進一步，在2022年測試了400個AI模型，其中一個模型Chinchilla接受了1.4萬億token的訓練。

不過這一紀錄沒有維持多久。去年，中國的研究人員釋出了一個AI模型Skywork，中英文文本訓練資料量達3.2萬億token。Google的PaLM 2更是超過3.6萬億token。

研究機構Epoch表示，AI公司使用資料的速度比産生資料的速度更快，最早到2026年，網際網路上的高品質資料可能被使用殆盡。

如何解決“資料荒”以及一系列産業問題，成了當下AI發展的焦點。

面對資料短缺危機，科技公司正在開發“合成資料”（Synthetic data），即使用AI生成的文本、圖像和代碼，讓AI從自己生成的内容中進行學習。

OpenAI發言人Lindsay Held告訴The Verge，OpenAI的每個模型都擁有獨特的資料集，他們的資料來源衆多，包括公開資料和非公開資料的合作夥伴，并且正在考慮生成自己的合成資料。

Sam Altman曾表示，未來所有資料都将變成合成資料。既然AI模型可以産生類似人類的文本，那麼也可以建立額外的資料來開發更好的AI，這将減少團隊對版權資料的依賴。

不少業内人士推測，Sora可能已經通過使用了基于資料驅動的Unreal Engine5大量生成了合成資料作為訓練集。

但建構一個可以自我訓練的AI系統說起來容易，做起來難。從自己的輸出中學習的AI模型可能會陷入一個死循環，不斷強化自己的怪癖、錯誤和局限。

“這些AI系統需要的資料就像在叢林中尋找出路，”前OpenAI研究員Jeff Clune說，“如果它們隻在合成資料上訓練，很可能會在叢林中迷路。”

為了對抗這一點，OpenAI和其他公司正在研究兩個不同的AI模型如何合作生成更有用、更可靠的合成資料。一個AI産生資料，另一個評估資訊以分離好的資料和壞的。不過這種方法是否有效仍未得到研究證明。

此外，目前海外已有Scale AI、Gretel.ai等企業開始給外界提供合成資料服務。

國内方面，清華大學蘇世民書院院長、人工智能國際治理研究院院長薛瀾在近期的公開演講中談到，中國的資料量很大，但沒有真正産業化，相對标準化的資料服務商還比較少，因為大資料服務不賺錢，公共資料企業沒有意願去清洗，定制化服務又一般收費比較高。是以，資料市場如何建構也是需要解決的問題。

AI“肥料”不足，OpenAI被曝瘋狂轉錄YouTube視訊

AI“肥料”不足，

OpenAI瘋狂轉錄YouTube視訊

創作者紛紛起訴AI侵權

AI合成資料可行嗎

繼續閱讀

【視訊】2024年5月6日《屏南新聞》

視訊 | 古樹長青常佑吾輩

#難見北坡，北坡難見，你去過嗎，沒去如‬我‬#王建男的北極圈即北極日記，近日‬一連發表了好多篇‬；他統計18期，間或AI

OpenAI大招要來了！AI語音助手狙擊谷歌蘋果，GPT-5年前見

劍閣縣公興國小：開展防溺水安全專題教育活動為有效預防學生溺水事件的發生，增強學生防溺水的安全防範意識，提高學生的自護

OpenAI抓内鬼出奇招，奧特曼耍所有人：GPT搜尋鴿了！改更新GPT-4

全市2024年校園安全暨中聯考備考工作視訊會議召開

視訊号小店是什麼呢？開店需要哪幾步呢？全篇詳解！

央視訊平台播出我台大型融媒體節目《濰有中醫——範天福：精誠所至金“石”為開》

央視訊平台播發我台融媒體金企對接欄目《民營企業路演堂》第二期節目

百度公關一号位短視訊風波回看：一場關于潑天流量的渴求與反噬

“機關住房公積金賬戶設立”在“一網通辦”便捷辦！附視訊指南→

巧了！聽說“跑路了”，被他刷短視訊刷到了

視訊轉gif軟體分享

線上視訊拼接工具，快速便捷的視訊編輯選擇

非洲李子柒Rose醫院待産，皮膚黑的找不到人，原來視訊中用了美顔