天天看點

美國爆發“資料起義”:好萊塢文學界新聞界和社交媒體反抗AI

作者:澎湃新聞

·美國聖克拉拉大學法學院教授埃裡克·戈德曼認為,訴訟浪潮才剛剛開始,“第二波和第三波”即将到來,而這将定義人工智能的未來。

美國爆發“資料起義”:好萊塢文學界新聞界和社交媒體反抗AI

美國編劇工會已經罷工70多天,要求漲工資,提高流媒體平台的分成,以及對人工智能的監管。

美國正在爆發一場“資料起義”,好萊塢、藝術家、作家、社交媒體公司和新聞機構都是反抗者。

一切的矛頭都指向ChatGPT和Stable Diffusion等生成式人工智能工具,它們被指在未經許可或提供補償的前提下,非法利用内容創作者的作品訓練大型語言模型。

這場“資料起義”的核心是一種新的認識,即線上資訊——故事、藝術品、新聞文章、網絡文章和照片可能具有重要的未開發價值。在網際網路上抓取公開内容的做法由來已久,大多數采取這種做法的公司和非營利組織都會公開披露。但在ChatGPT釋出之前,資料所有者對此并不太了解,也不認為這是一個特别嚴重的問題。現在,當公衆了解了更多關于AI訓練的基礎知識後,這種情況發生了變化。

“這是資料價值的根本性重塑。”Nomic公司的創始人兼首席執行官布蘭登·杜德斯塔特(Brandon Duderstadt)在接受媒體采訪時說,“以前,人們通過讓所有人都能通路資料并投放廣告來獲得資料價值。而現在,人們認為要保護好自己的資料。”

浪潮疊起

最近幾個月,Reddit和推特等社交媒體公司、《紐約時報》和美國全國廣播公司(NBC)等新聞機構、科幻作家保羅·特倫布雷(Paul Tremblay)和女演員莎拉·西爾弗曼(Sarah Silverman)等紛紛發采取行動,反對他們的作品和資料被人工智能擅自收集。這一系列舉動被美國媒體稱為“資料起義(Data Revolt)”。

上周,西爾弗曼向OpenAI和Meta公司提起訴訟,指控他們在訓練資料時使用其著作的盜版内容,因為這兩家公司的聊天機器人可以準确地總結其書中的内容。此外,包括喬迪·皮科特(Jodi Picoult)、瑪格麗特·阿特伍德(Margaret Atwood)和阮越清(Viet Thanh Nguyen)在内的5000多名作家簽署了一份請願書,要求科技公司在使用他們的書作為訓練資料時,要征得他們的許可,并給予他們署名和補償。

為了保護自己的作品,作家和藝術家們采取了不同的抗議方式。有的選擇鎖定作品,不讓人工智能擷取;有的選擇抵制釋出人工智能生成内容的網站;有的則選擇編寫一些颠覆性的内容,來幹擾人工智能的學習。

7月13日,擁有16萬會員的好萊塢三大工會之一SAG-AFTRA宣布罷工,在此之前,美國編劇工會已經罷工70多天。《紐約時報》稱,這次大罷工使價值1340億美元的美國影視業陷入停頓,SAG-AFTRA工會要求流媒體巨頭為他們提供更公平的利潤配置設定和更好的工作條件,并要求制片公司保證不會以AI和電腦生成面孔和聲音來替代演員。

與此同時,一些新聞機構也在抵制人工智能。6月,在關于使用生成型人工智能的内部備忘錄中,《紐約時報》表示,“人工智能公司應該尊重我們的知識産權。”同月,在代表線上出版商利益的貿易組織Digital Content Next釋出的一份聲明中,《紐約時報》和《華盛頓郵報》等線上出版商認為,使用受版權保護的新聞文章作為人工智能的訓練資料具有潛在風險和法律問題,它們呼籲人工智能公司尊重出版商的知識産權和創作勞動。

社交媒體公司也紛紛表明立場。今年4月,社交新聞網站Reddit表示,它希望對通路其應用程式程式設計接口(API)的第三方收費。Reddit首席執行官史蒂夫·霍夫曼(Steve Hoffman)表示,他的公司“不需要把所有價值都免費提供給世界上最大的一些公司。”7月,推特所有者埃隆·馬斯克(Elon Musk)也表示,一些公司群組織“非法”大量抓取推特的資料,為了應對“極端的資料抓取和系統操縱”,推特決定限制個人賬戶可以檢視的推文數量。

美國爆發“資料起義”:好萊塢文學界新聞界和社交媒體反抗AI

Reddit創始人兼首席執行官史蒂夫·霍夫曼希望對通路其應用程式程式設計接口(API)的第三方收費,引發網民一場聲勢浩大的抗議。

這場“資料起義”也包括“訴訟浪潮”,一些人工智能公司由于資料隐私問題受到多次起訴。去年11月,一群程式員對微軟和OpenAI發起集體訴訟,稱這兩家公司使用其代碼訓練人工智能程式設計助手,侵犯了他們的版權。今年6月,總部位于洛杉矶的克拉克森律師事務所向OpenAI和微軟發起起訴書長達151頁的集體訴訟,指出OpenAI如何從未成年人那裡收集資料,并稱網絡抓取侵犯了版權法,構成了“盜竊”。此後,該事務所又對谷歌提起了類似的訴訟。

美國聖克拉拉大學法學院教授埃裡克·戈德曼(Eric Goldman)在接受媒體采訪時說,這起訴訟的論點過于寬泛,不太可能被法院接受。但他認為,訴訟浪潮才剛剛開始,“第二波和第三波”即将到來,而這将定義人工智能的未來。

法律争議

OpenAI的ChatGPT和Dall-E、谷歌的Bard、Stability AI的Stable Diffusion等生成式AI都是基于從網際網路上抓取的海量新聞文章、書籍、圖檔、視訊和部落格文章進行訓練的,其中很多公開内容都受版權保護。

今年3月,OpenAI釋出了一份對該機構主要語言模型的分析報告,顯示訓練資料的文本部分使用了來自新聞網站、維基百科和一個盜版書籍資料庫(LibGen)的資料,目前該盜版書籍資料庫已被美國司法部查封。

7月13日,美國聯邦貿易委員會(FTC)向OpenAI發送了一份20頁的檔案,要求OpenAI提供有關其人工智能模型的風險管理、資料安全和資訊稽核的記錄,以調查其是否侵犯了消費者權利。

美國爆發“資料起義”:好萊塢文學界新聞界和社交媒體反抗AI

7月12日,美國參議院小組委員會舉行關于人工智能、知識産權和版權問題的聽證會,出席的證人在庭上宣誓。聽證會聽取了音樂行業、Photoshop制造商Adobe、人工智能公司Stability AI以及插畫家Karla Ortiz的發言。

但在公開露面和對訴訟的回應中,人工智能公司辯解稱,使用受版權保護的作品來教育訓練人工智能是合理的——這參考了美國版權法中“轉換性使用”的概念,如果材料以一種“變革性”的方式改變,就會創造一個例外。

“人工智能模型基本上是在從所有的資訊中學習。這就像一個學生在圖書館讀書,然後學習如何寫作和閱讀。”谷歌全球事務總裁肯特·沃克(Kent Walker)在一次采訪中說,“與此同時,你必須確定沒有複制别人的作品,也沒有做一些侵犯版權的事情。”

谷歌的總法律顧問哈利瑪·德萊恩·普拉多(Halimah DeLaine Prado)向媒體表示:“多年來,所有人都很清楚,我們會使用來自公共來源的資料——比如釋出到開放網絡和公共資料集的資訊,來訓練谷歌翻譯等服務背後的人工智能模型。”她指出,“美國法律支援利用公共資訊來創造新的有益用途,我們期待着駁斥這些毫無根據的說法。”

邁阿密大學研究知識産權法的教授安德烈斯·索維基(Andres Sawicki)在接受采訪時說,有一些可能有利于科技公司的先例,比如1992年美國上訴法院的裁決,允許公司對其他公司的軟體代碼進行逆向工程來設計競争産品。但許多人表示,對于大型公司利用創作者的工作來制造新的賺錢工具,直覺上這是不公平的。“關于生成式人工智能的問題真的很難給出答案。”他說。

邁阿密大學版權法教授傑西卡·D·利特曼·索維基(Jessica D. Litman Sawicki)表示,合理使用原則(Fair use)是對人工智能公司的一種有力辯護,因為人工智能模型的大多數輸出内容并不明确地類似于某個特定人類的作品。但她認為,如果起訴人工智能公司的創作者能夠展示足夠多與他們作品非常相似的人工智能輸出的例子,他們就會有充分的理由認為,版權正在受到侵犯。

人工智能公司開始應對

索維基表示,人工智能公司可以通過在産品中安裝過濾器(filters)來避免這種情況,以確定它們不會生成任何與現有作品太相似的内容。例如,視訊網站YouTube已經使用相關技術,檢測并自動删除上傳到其網站的受版權保護的作品。從理論上講,人工智能公司也可以建立算法,發現與現有藝術、音樂或寫作作品高度相似的輸出。

這場“資料起義”從長期來看可能無法掀起波瀾。像谷歌和微軟這樣的科技巨頭已經擁有了海量的專有資料,并且有能力擷取更多資料。但是,随着内容擷取變得越來越困難,那些想要與大公司抗衡的新興企業和非營利機構可能無法得到足夠的資料來訓練他們的系統。

就在7月初,加州大學伯克利分校計算機科學教授、《人工智能——現代方法》作者斯圖爾特·羅素(Stuart Russell)發出警告稱,ChatGPT等人工智能驅動的機器人可能很快就會“耗盡宇宙中的文本”,通過收集大量文本來訓練機器人的技術“開始遇到困難”。

一些公司也正在以合作态度應對這股浪潮。OpenAI在一份聲明中表示,“我們尊重創意人員和作者的權利,并期待繼續與他們合作,以保護他們的利益。”7月14日,美聯社同意将1985年以後的新聞報道檔案授權給OpenAI,同時也将利用OpenAI的技術和産品。

谷歌也在一份聲明中表示,它參與了關于出版商未來如何管理其内容的談判。該公司表示:“我們相信,每個人都能從一個充滿活力的内容生态系統中受益。”

人工智能公司HuggingFace的首席倫理科學家瑪格麗特·米切爾(Margaret Mitchell)在接受媒體采訪時表示,“整個資料收集系統都需要改變,不幸的是,它需要通過訴訟來實作,但這往往是推動科技公司進行改變的方式。”她說,如果OpenAI因為訴訟或新規定而在年底前完全下架其中一款産品,她不會感到驚訝。

繼續閱讀