機器之心報道
編輯:佳琪
雖然提示詞隻是要生成「動畫版的玩具」,但結果和《玩具總動員》沒有差別。
不久之前,《紐約時報》指控 OpenAI 涉嫌違規使用其内容用于人工智能開發的事件引起了社群極大的關注與讨論。
GPT-4 輸出的許多回答中,幾乎逐字逐句地抄襲了《紐約時報》的報道:
圖中紅字是 GPT-4 與《紐約時報》報道重複的部分。
對此,各個專家分别有不同的看法。
機器學習領域權威學者吳恩達對 OpenAI 和微軟表示了同情,他懷疑 GPT「存在抄襲」的原因并不隻是模型訓練集使用了未經授權的文章,而是來自類似于 RAG(檢索增強生成)的機制。ChatGPT 浏覽網絡以搜尋相關資訊,并下載下傳了一篇文章來回答使用者的問題。他發現,沒有 RAG 類似機制的 LLM,在預訓練中的輸出通常是對輸入的轉換,幾乎從未逐字逐句地「抄襲」。
而紐約大學教授 Gary Marcus 有不同的觀點,他說在視覺生成領域的「抄襲」和 RAG 毫不相幹。
他在近日 IEEE Spectrum 發表的文章中,明确指出「Generative AI Has a Visual Plagiarism Problem」。
下面,就讓我們看下這篇文章講了什麼。
LLM 對其訓練資料的「記憶力」長期以來一直是個問題。最近的實證研究表明,在某些情況下,LLM 能夠再現,或者在稍作修改的情況下再現其訓練集中的大量文本。
例如,Milad Nasr 等研究者在 2023 年發表的一篇論文中提出,LLM 可以在輸入某些提示詞時洩露如郵件和電話号碼等私人資訊。來自谷歌 Deepmind 的 Carlini 也在最近的研究中得出了較大的聊天機器人模型有時會逐字逐句地反刍大量文本,小模型則未出現此現象。
最近《紐約時報》指控 OpenAI 涉嫌違規使用其内容用于人工智能開發,《紐約時報》提供的申訴書中提供了大量重複抄襲證據。
Marcus 稱這種近乎逐字逐句的輸出為「抄襲輸出」。如果這些内容的作者是人類,那麼肯定會被認定是抄襲。雖然無法計算出「抄襲輸出」出現的頻率,或者抄襲在什麼情況下發生。但是這些直覺的結果為「生成式人工智能系統可能會抄襲」提供了強有力的證據。即使使用者沒有直接要求 AI 這麼做,也面臨版權方的侵權索賠。
人工智能的抄襲問題說不清,也道不明,其原因在于 LLM 對于人類來說還是「黑匣子」。我們不完全了解輸入(訓練資料)和輸出之間的關系,輸出也可能在某一時刻發生不可預測的變化。「抄襲輸出」普遍出現的可能很大程度上取決于模型的大小和訓練集等具體因素。
由于 LLM 的黑匣子特性,關于「抄襲輸出」的問題隻能通過實驗來驗證。這些實驗可能也隻能得出一些不确定的結論。
然而但「抄襲輸出」引發了許多重要問題,在技術方面,是否能夠通過技術手段來避免「抄襲輸出」?在法律層面,這些輸出是否構成侵犯版權?在實際應用中,使用者 LLM 生成内容時,是否有方法可以讓不希望侵權的使用者确信他們沒有侵權?
《紐約時報》和 OpenAI 的訴訟案對生成式人工智能領域未來的發展具有關鍵影響。
在計算機視覺領域,抄襲問題依然存在。模型是否也能基于受版權保護的圖檔,産生「抄襲輸出」呢?
Midjourney v6 中的抄襲視覺輸出
Marcus 的答案是肯定的,甚至不需要直接向模型輸入抄襲的提示。
隻需給出與某些商業電影相關的簡短提示,Midjourney v6 就能生成許多「抄襲輸出」。從下面的例子中,可以發現,Midjourney 生成的圖檔與《複仇者聯盟》、《沙丘》等知名電影還有電子遊戲中的鏡頭幾乎完全相同。
他們還發現了,卡通角色特别容易被複制,正如下面的《辛普森一家》,即使輸入的提示詞是「90 年代流行的黃皮膚的動畫」,完全與《辛普森一家》無關,但生成結果和原動畫看不出什麼差別。
根據這些結果,幾乎可以肯定 Midjourney V6 是基于受版權保護的材料上訓練的。目前尚不清楚 Midjourney V6 是否獲得了版權方的許可,但 Midjourney 可用于侵犯原作者權利的創造。
在上述許多示例中,本文作者驗證了 Midjourney 可以故意複制受版權保護的素材,但還未确定:在不故意的情況下,是否有人是以而侵犯了版權。
在《紐約時報》的訴訟中,其中有一點很引人注目。如下圖所示,《紐約時報》提供的證據表明,在不使用「您能否以《紐約時報》的風格撰寫關于某某的文章」的提示詞,而是通過給出文章前幾個字,GPT-4 還是給出了和原文一模一樣的回答。這表明模型可以在不故意抄襲的情況下引發「抄襲輸出」。
t few words of an actual article.
當給提供了一篇《紐約時報》的文章的前幾個詞時,它輸出了看似存在抄襲的回答。
在視覺生成領域中,這個問題的答案也是肯定的。在下面展示的例子中,他們沒有在提示詞中涉及《星球大戰》或者角色,但是 Midjourney 卻生成了達斯・維德、盧克・天行者、R2-D2 等家喻戶曉的經典形象。
《玩具總動員》、小黃人、索尼克、馬裡奧,這些耳熟能詳的大 IP 也沒能逃過「無意識的抄襲輸出」。
即使沒有直接提名,Midjourney 生成了這些辨識度很高的電影和遊戲角色的相關圖像。
在沒有直接訓示的情況下喚出電影般的畫面
在第三個實驗中,Marcus 等人探索了 Midjourney 能否在沒有提示詞的情況下,輸出和電影原出處相似的整個電影幀。同樣,這個問題的答案是肯定的。
最終,他們發現,在輸入「screencap」的提示詞時,即使沒有輸入任何具體的電影,角色或者演員,但是卻産生了明顯的侵權内容。以下圖檔都是使用「screencap」作為提示,Midjourney 生成了與電影中的一幀極其相似的結果。
雖然 Midjourney 可能會很快修補這個特定的提示詞,但 Midjourney 産生潛在侵權行為的能力是顯而易見的。Marcus 和他的同伴發現了以下被「抄襲」的受害者,更多電影、演員和遊戲的名單将在他們的 YouTube 頻道釋出。
Midjourney 的抄襲問題
通過以上的實驗,可以得到如下結論:Midjourney 違規使用了受版權保護的素材訓練模型,一些生成式人工智能系統可能會産生「抄襲輸出」,即使提示詞不涉及抄襲行為,也可能使使用者面臨版權侵權索賠。最近的新聞也支援同樣的結論。Midjourney 最近收到了 4700 多名藝術家的聯合起訴,因為 Midjourney 在未經同意的情況下使用了他們的作品用于訓練 AI。
Midjourney 的訓練資料中有多少是未經許可使用的版權材料?尚未可知。該公司對其原始材料以及哪些材料獲得了适當許可都未公開。
事實上,該公司在一些公開評論中對抄襲問題持不屑一顧的态度。當 Midjourney 的首席執行官接受《福布斯》雜志采訪時,對版權相關的問題回答道:「沒有一種方法可以在獲得一億張圖檔的同時知道它們的來源。」
如果未獲得原素材許可,可能會使 Midjourney 面臨來自電影工作室、視訊遊戲發行商、演員等的大量訴訟。
版權和商标法的要點是限制未經授權的商業再使用,以保護内容創作者。由于 Midjourney 收取訂閱費,并且可以被視為與視覺内容工作室的競争者,這可能是版權方的起訴原因。
Midjourney 顯然試圖壓制 Marcus 的發現。在他釋出了一些實驗結果後,文章被 Midjourney 要求撤稿。
但是并非所有使用受版權保護素材的行為都是非法的。例如,在美國,如果使用時間短,或素材被用于批評、評論、科學評估或模仿,那麼使用未經授權的素材是被允許的。Marcus 認為 Midjourney 可能在訴訟中依靠這些論據。
更糟糕的是,Marcus 發現有證據表明 Midjourney 的一名進階軟體工程師在 2022 年 2 月參與了一場關于如何通過「通過微調代碼」來「洗白」資料以逃避版權法的對話。
另一名不能确定是否為 Midjourney 工作的參與者随後說:「在某種程度上,在版權法看來,真的無法追蹤什麼是衍生作品。」
就 Marcus 所知,Midjourney 被懲罰,做出賠償的可能性很大。有消息人士稱,Midjourney 可能建立了一個很長的藝術家名單,為他們支付沒有獲得許可将其作品用于訓練的報酬。
此外,Midjourney 對 Marcus 的合作者進行了封号,在他建立小号後依舊禁止他通路。
随後,Midjourney 更改了其服務條款,加入了:「您不得使用該服務試圖侵犯他人的知識産權,包括版權、專利或商标權。這樣做可能會使您受到包括法律訴訟或永久禁止使用該服務等處罰。」的提示語。
這一修改通常是阻礙甚至排除對生成式 AI 限制進行安全調查的常見做法,這種做法是幾家大型 AI 公司在 2023 年與白宮達成的協定中承諾的一部分。
除此之外,Marcus 并不認為 Midjourney 是目前的圖像生成 AI 中能生成最精細結果的軟體。是以,他們還提出了「随着能力的提高,AI 創造抄襲圖像的傾向是否會增加」的猜想。
根據已有研究者在文本輸出領域的研究表明,這可能是真的。憑直覺而言,系統掌握的資料越多,它就越能掌握統計的相關性,但也可能越容易精确地重建訓練集中的資料。如果這種猜測是正确的,那麼随着生成式人工智能公司收集的資料越來越多,模型越來越大,那麼模型也可能更具抄襲性。
DALL・E 3 的抄襲
與 Midjourney 一樣,即使沒有有指向性的具體提示詞, DALL・E 3 也能夠建立近乎與原作完全的複制品。
如下圖所示,通過以下簡單的提示詞:「動畫玩具」, DALL・E 3 就建立了一系列潛在的侵權作品。
與 Midjourney 一樣,OpenAI 的 DALL・E 3 似乎也借鑒了大量受版權保護的來源。OpenAI 似乎非常清楚其軟體可能侵犯版權的事實,并在去年 11 月提出為使用者的版權侵權訴訟提供賠償。考慮到 Marcus 發現的侵權規模,OpenAI 似乎要「大出血」。
同時,也有人猜測 OpenAI 一直在實時地更改其系統,以排除 Marcus 的文章中揭露的某些行為。
解決大模型「抄襲的問題」有多難?
可能的解決方案:移除版權材料
最幹淨的解決方案是在不使用受版權保護的材料的情況下重新訓練圖像生成模型,或者限制訓練僅限于獲得适當許可的資料集。
隻在收到投訴後删除受版權保護的材料,類似于 YouTube 上的下架請求,其實施成本非常高。無法以任何簡單的方式從現有模型中删除特定受版權保護的材料。大型神經網絡不是資料庫,其中可以輕松删除違規記錄,每次「下架」幾乎相當于重新訓練。
是以,生成式 AI 公司可能希望修補其現有系統,來限制某些類型的查詢和某些類型的輸出。如下圖所示,他們已經看到了一些迹象,但這注定是一場艱苦的戰鬥。
OpenAI 可能正試圖在實時情況下逐個解決這些問題。一位 X 使用者分享了一個 DALL・E 3 提示,該提示首先生成了 C-3PO 的圖像,但 GPT 稱無法生成需要的圖像。
同時,Marcus 還提供了兩種不需要重新訓練模型的解決方法。首先是過濾掉可能侵犯版權的查詢。
雖然像「不要生成蝙蝠俠」這樣的低級任務可以被過濾掉,但是如下圖所示,跨越多個查詢的生成結果根本防不住:
經驗表明,文本生成系統中的護欄在某些情況下往往過于寬松,而在另一些情況下又過于嚴格。圖像生成可能也面臨類似的困難。例如向必應查詢「在陽光炙烤下的荒蕪風景中有一座廁所」。必應拒絕回答,并傳回了一個令人困惑的「檢測到不安全的圖像内容」的提示。
此外也有網友發現了如何突破 OpenAI 的内容防護護欄,來讓 DALL・E 3 生成部分圖像的方法。他們的做法是讓提示詞「包括區分角色的具體細節,如不同的發型、面部特征和身體紋理」和「使用顔色暗示原始圖像中獨特的色調、圖案和排列」。
Reddit 上的網友 Pitt.LOVEGOV 分享如何讓 ChatGPT 生成布拉德皮特的圖像。
Marcus 提供的第二種思路是過濾版權圖檔來源。
在推特上已經有網友嘗試通過讓 ChatGPT 和 Google 反向圖像搜尋識别來源,但這種方法成功率不高,特别是對于資料集中使用的比較新或者作者不是很知名的素材。這種方法的可靠性還有待觀察。
重要的是,雖然一些人工智能公司和現狀的捍衛者建議過濾掉侵權輸出作為補救措施,但這種過濾機制絕不應該是解決方案的全部。根據國際法保護知識産權和人權的意旨,任何創作者的作品都不應未經同意用于商業用途。
更多詳細内容,請參閱原部落格。
參考連結:
https://spectrum.ieee.org/midjourney-copyright
https://www.deeplearning.ai/the-batch/issue-230/