Sora訓練資料來源YouTube？OpenAI化身“小偷”

不久前，OpenAI用一款号稱“世界模拟器”的文生視訊大模型Sora秀了把肌肉，再次向外界證明它依舊還是AI這個賽道的領跑者。不過就在最近，Sora卻似乎讓OpenAI陷入了麻煩中。日前，《華爾街日報》和《紐約時報》先後報道了AI公司在收集高品質訓練資料上遇到困難，其中特别是正與OpenAI打官司的《紐約時報》更是直接點明了，OpenAI采集了超一百萬小時的YouTube視訊來訓練GPT-4。

緊接着，谷歌公司發言人Matt Bryant表示，“我們的robots.txt檔案和服務條款都禁止未經授權的抓取或下載下傳YouTube内容”。YouTube CEO尼爾・莫漢更是在接受彭博社采訪時表示，盡管沒有直接證據表明OpenAI使用了YouTube視訊來訓練Sora，但他警告稱這種行為違反了YouTube現行的服務條款。事實上，YouTube CEO如此含沙射影不僅是針對《紐約時報》的報道，更是諷刺OpenAI CTO米拉·穆拉蒂無法明确Sora訓練資料的來源。

此前米拉·穆拉蒂在被《華爾街日報》記者問及Sora訓練資料的來源時，所使用的表述是，“我實際上并不确定（I'm actually not sure about that）”。甚至于在被問及OpenAI是否使用圖檔素材平台Shutterstock的資料時，這位OpenAI的CTO都在回避問題。要知道，Shutterstock與OpenAI早在2021年就達成了合作，允許OpenAI使用該平台的圖檔、視訊、音樂來訓練AI模型，并且為了安撫藝術家，Shutterstock更是曾出錢補償了作品被OpenAI使用的藝術家。

米拉·穆拉蒂這般災難性的發言，直接引爆了外界對于OpenAI缺乏透明度和不合規資料抓取行為的質疑。事實上，OpenAI目前确實面臨着缺乏“公開、且經過許可”資料的窘境。

根據《紐約時報》的相關報道顯示，OpenAI在2021年耗盡了有用的資料供應，并在耗盡其他資源後讨論了轉錄YouTube視訊、播客和有聲讀物的可行性。甚至OpenAI内部确實知道使用YouTube平台的内容會存在法律問題，但認為這是合理使用，OpenAI總裁Greg Brockman更是親自參與了所使用視訊内容的收集。

然而“公開的資料”并不等于“公開資料”，盡管有相當多的資料确實公開釋出在網際網路上，但這并不等于這些資料的主人就願意無償共享。那麼有哪些直接暴露在網際網路上的資料是可以毫無顧忌地使用呢？OpenAI訓練ChatGPT就是合規利用網際網路公開資料的正面典型。據悉，OpenAI用到了Common Crawl、維基百科、美國專利檔案資料庫，其中維基百科是最知名的開源軟體項目之一，而Common Crawl也是一個抓取網際網路、并提供資料開源下載下傳的開源資料庫。

維護這些公開資料源的人幾乎都是以開放、平等、協作、共享為代表的網際網路精神的信徒，隻是随着整個網際網路行業越來越商業化，這樣的網際網路精神也在逐漸凋零，以至于類似維基百科這樣的項目如今已屈指可數。當願意免費分享資料的組織不再能滿足OpenAI的胃口時，付費購買資料其實也是一條出路。但問題是OpenAI的出價打動不了版權方，目前願意向其出售資料的版權方并不多。

以媒體為代表的版權方通常希望将資料賣個高價，因為從目前ChatGPT、GPT-4、Sora等大模型表現出的能力，它們最先替代的可能不是理科生、而是文科生，諸如AI寫新聞、AI作畫、AI生成視訊也幾乎都是在掏空媒體的根基。事實上，版權方不是不接受出賣絞死自己的絞繩，但OpenAI方面每年100萬至500萬美元的價碼顯然不夠有誠意。可OpenAI實際上也給不出太高的價格，因為他們需要的資料實在太多，資料采購的預算盡管可能很多，但攤薄到每一家頭上就隻有不到500萬美元了。

如此一來，OpenAI會以合理使用為借口，做出抓取YouTube視訊内容的操作也就不足為奇了。事實上，自網際網路行業蓬勃發展以來，資料爬取就一直處于灰色地帶。或者說“天下烏鴉一般黑”，幾乎就沒有網際網路廠商在資料收集這件事上是完全無懈可擊的。比如，搜尋引擎爬蟲機器人互相爬取資料早已是公開的潛規則，可版權方對待搜尋引擎和對待AI大模型則完全是兩幅面孔。

robots協定這樣一個“君子協定”為何能長期存在，并且網站還會專門進行SEO、給搜尋引擎的爬蟲優化可通路的内容和結構呢？還不是因為搜尋引擎對于網站而言是有益的，會為網站帶來了流量，而有了流量就能賣廣告或是用其他方式變現。

是以雙赢就是搜尋引擎孜孜不倦爬取資料，卻沒有讓版權方沸反盈天的原因。可反觀AI大模型卻幾乎是不存在利他性的，OpenAI拿走資料也隻會讓自己的估值更高，ChatGPT Plus賺的錢也沒看到分給YouTuber一美分。

從某種意義上來說，OpenAI這次被推上風口浪尖，其實從側面也表明了這家AI獨角獸同樣存在缺陷，也就是資料嚴重依賴外界供給。随着各大廠商都陸續下場做AI大模型，OpenAI就會面臨着一個無可避免的問題，那就是他們沒有自己的内容平台，甚至内容平台全都是友商旗下的。

而且即使微軟想要給OpenAI提供資料也不容易，因為随着現階段越來越多使用者對于個人隐私的重視程度提升，幾乎所有的使用者協定中都會寫明，“我們擷取你的資訊是為了更好地服務你，對這些資訊我們承諾不會與第三方共享”。

此前沒有拿出ChatGPT的OpenAI尚且還可以“偷偷發育”，可現在的OpenAI早已處于舞台中心，是以留給他們閃轉騰挪的空間自然也就越來越小了。

Sora訓練資料來源YouTube？OpenAI化身“小偷”

繼續閱讀

洋槐花是外來物種，它可食用竟然來源于一次大饑荒，有人知道嗎

放棄 OpenAI，HUDstats 采用亞馬遜 Bedrock 推進電子競技叙事技術

楊幂太拼了，新劇裡眼睛褶皺紋路亂成一團，是以被很多人黑，于是有的網友們模仿這個表情，發現腫眼泡這個時候才是王者！圖3簡直

我的公司，還沒被OpenAI殺死

OpenAI Sora負責人專訪:20個問題深入研發細節,Sora仍是GPT-1時期

網絡空間是億萬群眾共同的精神家園，淨化網絡環境，打擊網絡謠言，需要廣大網民共同努力。#這湘有理##打擊網絡謠言共建清朗家

990萬豪拍周鴻祎邁巴赫一站成名，哪吒汽車老闆要送紅衣男子褚會長哪吒L汽車。這波操作玩的深。紅衣男子直播間透漏，想把哪吒

終于看明白了，的來源無非就這五種，能賺得錢，隻能從身邊開始

新鮮早科技丨OpenAI向ChatGPT Plus使用者開放“記憶”功能；曹操出行送出赴港IPO申請；小紅書否認Pre-IPO輪融資

【應急管理部“五一”假期安全提示】來源：中華人民共和國應急管理部

OpenAI神秘搞事，GPT-4.5上線？推理碾壓GPT-4,奧特曼笑而不語

重新開機與OpenAI的談判，蘋果為iOS 18的AI找“備胎”

OpenAI秘密上線神秘模型，疑似ChatGPT4.5進行公開測試

《城中之城》：師徒對決，趙輝罵陶無忌又當又立陶無忌窮追不舍，挖地三尺，終于找到了趙輝和駿龍集團一系列違規操作的蛛絲馬迹。

突發！微軟、OpenAI遭集體起訴

慢和靜是最大的能量來源。