天天看點

Sora訓練資料來源YouTube?OpenAI化身“小偷”

作者:三易生活

不久前,OpenAI用一款号稱“世界模拟器”的文生視訊大模型Sora秀了把肌肉,再次向外界證明它依舊還是AI這個賽道的領跑者。不過就在最近,Sora卻似乎讓OpenAI陷入了麻煩中。日前,《華爾街日報》和《紐約時報》先後報道了AI公司在收集高品質訓練資料上遇到困難,其中特别是正與OpenAI打官司的《紐約時報》更是直接點明了,OpenAI采集了超一百萬小時的YouTube視訊來訓練GPT-4。

Sora訓練資料來源YouTube?OpenAI化身“小偷”

緊接着,谷歌公司發言人Matt Bryant表示,“我們的robots.txt檔案和服務條款都禁止未經授權的抓取或下載下傳YouTube内容”。YouTube CEO尼爾・莫漢更是在接受彭博社采訪時表示,盡管沒有直接證據表明OpenAI使用了YouTube視訊來訓練Sora,但他警告稱這種行為違反了YouTube現行的服務條款。事實上,YouTube CEO如此含沙射影不僅是針對《紐約時報》的報道,更是諷刺OpenAI CTO米拉·穆拉蒂無法明确Sora訓練資料的來源。

此前米拉·穆拉蒂在被《華爾街日報》記者問及Sora訓練資料的來源時,所使用的表述是,“我實際上并不确定(I'm actually not sure about that)”。甚至于在被問及OpenAI是否使用圖檔素材平台Shutterstock的資料時,這位OpenAI的CTO都在回避問題。要知道,Shutterstock與OpenAI早在2021年就達成了合作, 允許OpenAI使用該平台的圖檔、視訊、音樂來訓練AI模型,并且為了安撫藝術家,Shutterstock更是曾出錢補償了作品被OpenAI使用的藝術家。

Sora訓練資料來源YouTube?OpenAI化身“小偷”

米拉·穆拉蒂這般災難性的發言,直接引爆了外界對于OpenAI缺乏透明度和不合規資料抓取行為的質疑。事實上,OpenAI目前确實面臨着缺乏“公開、且經過許可”資料的窘境。

根據《紐約時報》的相關報道顯示,OpenAI在2021年耗盡了有用的資料供應,并在耗盡其他資源後讨論了轉錄YouTube視訊、播客和有聲讀物的可行性。甚至OpenAI内部确實知道使用YouTube平台的内容會存在法律問題,但認為這是合理使用,OpenAI總裁Greg Brockman更是親自參與了所使用視訊内容的收集。

然而“公開的資料”并不等于“公開資料”,盡管有相當多的資料确實公開釋出在網際網路上,但這并不等于這些資料的主人就願意無償共享。那麼有哪些直接暴露在網際網路上的資料是可以毫無顧忌地使用呢?OpenAI訓練ChatGPT就是合規利用網際網路公開資料的正面典型。據悉,OpenAI用到了Common Crawl、維基百科、美國專利檔案資料庫,其中維基百科是最知名的開源軟體項目之一,而Common Crawl也是一個抓取網際網路、并提供資料開源下載下傳的開源資料庫。

Sora訓練資料來源YouTube?OpenAI化身“小偷”

維護這些公開資料源的人幾乎都是以開放、平等、協作、共享為代表的網際網路精神的信徒,隻是随着整個網際網路行業越來越商業化,這樣的網際網路精神也在逐漸凋零,以至于類似維基百科這樣的項目如今已屈指可數。當願意免費分享資料的組織不再能滿足OpenAI的胃口時,付費購買資料其實也是一條出路。但問題是OpenAI的出價打動不了版權方,目前願意向其出售資料的版權方并不多。

以媒體為代表的版權方通常希望将資料賣個高價,因為從目前ChatGPT、GPT-4、Sora等大模型表現出的能力,它們最先替代的可能不是理科生、而是文科生,諸如AI寫新聞、AI作畫、AI生成視訊也幾乎都是在掏空媒體的根基。事實上,版權方不是不接受出賣絞死自己的絞繩,但OpenAI方面每年100萬至500萬美元的價碼顯然不夠有誠意。可OpenAI實際上也給不出太高的價格,因為他們需要的資料實在太多,資料采購的預算盡管可能很多,但攤薄到每一家頭上就隻有不到500萬美元了。

Sora訓練資料來源YouTube?OpenAI化身“小偷”

如此一來,OpenAI會以合理使用為借口,做出抓取YouTube視訊内容的操作也就不足為奇了。事實上,自網際網路行業蓬勃發展以來,資料爬取就一直處于灰色地帶。或者說“天下烏鴉一般黑”,幾乎就沒有網際網路廠商在資料收集這件事上是完全無懈可擊的。比如,搜尋引擎爬蟲機器人互相爬取資料早已是公開的潛規則,可版權方對待搜尋引擎和對待AI大模型則完全是兩幅面孔。

robots協定這樣一個“君子協定”為何能長期存在,并且網站還會專門進行SEO、給搜尋引擎的爬蟲優化可通路的内容和結構呢?還不是因為搜尋引擎對于網站而言是有益的,會為網站帶來了流量,而有了流量就能賣廣告或是用其他方式變現。

是以雙赢就是搜尋引擎孜孜不倦爬取資料,卻沒有讓版權方沸反盈天的原因。可反觀AI大模型卻幾乎是不存在利他性的,OpenAI拿走資料也隻會讓自己的估值更高,ChatGPT Plus賺的錢也沒看到分給YouTuber一美分。

Sora訓練資料來源YouTube?OpenAI化身“小偷”

從某種意義上來說,OpenAI這次被推上風口浪尖,其實從側面也表明了這家AI獨角獸同樣存在缺陷,也就是資料嚴重依賴外界供給。随着各大廠商都陸續下場做AI大模型,OpenAI就會面臨着一個無可避免的問題,那就是他們沒有自己的内容平台,甚至内容平台全都是友商旗下的。

而且即使微軟想要給OpenAI提供資料也不容易,因為随着現階段越來越多使用者對于個人隐私的重視程度提升,幾乎所有的使用者協定中都會寫明,“我們擷取你的資訊是為了更好地服務你,對這些資訊我們承諾不會與第三方共享”。

此前沒有拿出ChatGPT的OpenAI尚且還可以“偷偷發育”,可現在的OpenAI早已處于舞台中心,是以留給他們閃轉騰挪的空間自然也就越來越小了。

繼續閱讀