天天看點

藝術作品、訓練資料與Stability相關訴訟(2)

作者:YunfangW

Stability的營運情況

原告認為,Stability的迅速成功雖然有一部分是依賴于計算機科學的巨大飛躍,但更依賴于利用受版權保護的圖像。關于Stability的商業模式,原告陳述如下:

  • 2020年,前對沖基金經理Mohammad Emad Mostaque在英國倫敦創立Stability并至今擔任其CEO。2022年8月,Stability釋出Stable Diffusion,目前主要版本包括1.1、1.2、1.3、1.4、2.1,正在開發3.0。
  • Stable Diffusion是在寬松的開源許可證下釋出的軟體,在此開源許可下,程式員和使用者可以免費下載下傳該軟體及其相關的,源自訓練圖像的機器學習模型,然後根據開源許可的條款使用該軟體。采用開源許可而非傳統的付費許可,使Stable Diffusion得以快速傳播,許多程式員設計并釋出了基于Stable Diffusion開發的自己的軟體。
  • 2022年8月,Stability同時釋出了一款web-server-based的AI圖像産品DreamStudio,使用者可以通過輸入文本提示生成圖像。DreamStudio依賴Stable Diffusion,因為其以Stable Diffusion作為底層軟體庫,這意味着DreamStudio依賴Stable Diffusion基于文本提示生成圖像。
  • DreamStudio按“積分”(credits)收費,1美元等于100積分,1000積分起購;新使用者可以免費獲得一定數量的積分。“積分”通常意味着使用者可以調用的Stability雲伺服器上的算力資源。使用DreamStudio生成圖像會消耗積分,每張圖像消耗的積分數量取決于使用者請求的圖像的品質、大小和使用的算力資源,DreamStudio估計1000積分可以在預設設定下生成約5000張圖像。
  • Stability從網站上抓取、複制超過50億張圖像用作Stable Diffusion的訓練圖像——沒有征求圖像建立者的同意,也沒有征求圖像托管網站的同意,沒有試圖就訓練圖像的授權許可進行談判,沒有與圖像建立者或作品所有者分享任何收入。
  • Stability将訓練圖像的壓縮副本嵌入并存儲于Stable Diffusion。
  • DreamStudio為Stability帶來豐厚利潤。2022年10月,Stability宣布融資1億美元,由Coatue和Lightspeed Venture Partners領投,當時估值約10億美元。

Stable Diffusion的工作原理

原告援引論文對Stable Diffusion工作原理進行說明,主張被告存在未經許可的網絡抓取行為、對訓練圖像的利用方式涉及複制和存儲,而且其輸出是衍生作品:

  • 2015年,斯坦福大學Jascha Sohl-Dickstein上司的一個研究小組發明了“diffusion”技術。論文 “Deep Unsupervised Learning Using Nonequilibrium Thermodynamics”介紹該技術可用于任何類型的資料,訴狀側重描述其在數字圖像中的應用。

1)擴散模型應用分兩階段:

第一階段是正向擴散,即取一張圖像,在一系列步驟中逐漸在圖像中添加噪聲。數字圖像處理下,“噪聲”指的是看到而不是聽到的東西,但内涵一樣,都是指我們認為混亂的和非結構化的随機波動。每一步中,程式都會記錄噪聲的添加如何改變圖像,在最後一步中,圖像被“擴散”(“diffused”)成本質上随機的噪聲。

第二階段是反向擴散,即去除圖像中的噪聲。在記錄了經過許多步驟将某個圖像轉化為噪聲的過程後,程式可以反向運作該序列。随着逐漸去除資料中的噪聲,該程式最終能夠重建原始圖像。

2)該程式依賴于複雜的數學、線性代數和一系列算法,需要強大的計算機和計算機處理來識别資料中的潛在關系。
  • 訴狀進一步援引Sohl-Dickstein的論文(用螺旋圖像作為示例訓練資料說明了擴散過程的兩個階段),表示Diffusion技術有三個基本事實:

1)擴散是機器學習模型計算如何重建其訓練圖像副本的一種方法。

擴散模型訓練中,會找到去噪步驟序列,以重建該特定圖像,然後存儲這個步驟序列。這種方法可被重複用于數百萬或數十億張訓練圖像,為每個訓練圖像建立副本。重建訓練圖像的副本并非偶然的副作用,因為擴散模型的主要目标就是以最大的精度和保真度重建訓練資料的副本。

2)這些重建的副本與原件并不完全相符。

擴散模型會對訓練圖像進行有損壓縮,當資料被壓縮成更小的尺寸時,小的、不重要的或無關緊要的細節會丢失。

3)因為經過訓練的擴散模型可以生成任何訓練圖像的副本,擴散模型可以被認為是存儲訓練圖像副本的替代方式。

從本質上說,這類似于計算機上有一個包含數十億JPEG圖像檔案的目錄。但是擴散模型使用統計和數學方法,以更有效和壓縮的方式存儲這些圖像。

  • 2020年12月,Jonathan Ho上司的加州大學伯克利分校的一個研究小組對diffusion技術進行改進。論文“Denoising Diffusion Probabilistic Models”描述了兩項改進:
1)“漸進式有損壓縮”(“progressive lossy compression”),是一種可以使擴散模型更有效地存儲訓練資料而不影響其重建高品質訓練資料副本的能力的方法。訓練圖像的壓縮版本被稱為潛像(latent images)。原告認為“潛像說到底隻是訓練圖像的一個副本”。
2)Ho展示了如何對潛像進行插值、數學混合以産生新的衍生圖像(derivative images),即展示了如何将訓練圖像作為潛像存儲在擴散模型中,然後作為新的潛像進行插值,而不是逐個像素地組合兩個圖像,然後将插值潛像轉換回标準像素的圖像。
訴狀在這裡寫到逐個像素組合的效果不好,并援引論文圖檔對插值像素和插值潛像的結果差異進行說明:逐像素插值生成的結果看起來就像是兩個半透明的人臉圖像堆疊在一起——不是一張令人信服的臉;潛像插值生成的人臉看起來令人信服,不是兩張人臉圖像的疊加或組合。
訴狀繼續指出【盡管結果不同,但這兩種插值方式都是從源圖像生成衍生作品】:前者,源圖像本身被直接插值,以生成衍生圖像;後者,先将源圖像轉換為屬于有損壓縮副本的潛像,再對潛像進行插值,生成衍生潛像,然後将該衍生潛像解壓縮回标準像素的圖像。
  • 2022年4月,慕尼黑Ludwig Maximilian University的Robin Rombach上司的研究小組(慕尼黑LMU機器視覺與學習研究小組,前身為海德堡大學CompVis實驗室)進一步改進擴散技術。

1)論文“High-Resolution Image Synthesis with Latent Diffusion Models”介紹了一個關鍵改進——使用額外的資訊來補充去噪過程,這樣就可以用更複雜的方式對潛像進行插值,這個過程被稱為“conditioning”。最常見的conditioning工具是文本提示,比如“一隻戴着棒球帽吃冰淇淋的狗”,它可以描述圖像的元素。使用文本提示作為條件資料(conditioning data)來選擇已經與文本說明關聯的潛像,例子中的文本說明訓示這些潛像應包含“狗”、“棒球帽”和“冰淇淋”圖像。文本說明是訓練圖像的一部分,是從抓取圖像的網站上抓取的。

訴狀在這部分還提到Rombach被Stability聘請為Stable Diffusion的主要開發人員之一,在軟體中實施他論文中的理念。網絡上公開資訊也有介紹:“開發Stable Diffusion 1.0版本的團隊是Robin Rombach(Stability AI)和 Patrick Esser(Runway ML),他們來自LMU Munich CompVis Group。在實驗室之前的Latent Diffusion Models基礎上,他們開發出了Stable Diffuision 1.0,并且得到了 LAION 和 Eleuther AI 的大力支援。”

2)原告認為這樣生成的圖像必然是衍生作品,因為它完全由條件資料和潛像組合生成,所有這些都是受版權保護的圖像的副本,是以這是一種21世紀的拼貼工具。
3)原告進一步指出這個conditioning的結果也可能不令人滿意,然後展示了Stable Diffusion(通過DreamStudio應用程式)使用文本提示(“一隻戴着棒球帽吃冰淇淋的狗”)生成圖像的示例,圖像中的狗看起來都戴棒球帽,隻有左下角的看起來是在吃冰淇淋。
4)原告認為,一般來說,Stable Diffusion基于文本提示生成的圖像中,沒有哪個會和訓練資料中的特定圖像緊密比對,因為使用條件資料對多個潛像進行插值,意味着最終的混合圖像看起來不會完全像任何複制到這些潛像中的訓練圖像。但是,潛在擴散系統(latent-diffusion system)唯一能做的就是将潛像插值到混合圖像中,該系統的每一個輸出都完全來自潛像,潛像是受版權保護的圖像的副本。是以,混合圖像必然是衍生作品。
  • 原告認為潛在擴散系統永遠不能像人類一樣對“狗”、“棒球帽”或“冰淇淋”等術語有更廣泛的了解,是以,在這種情況下使用術語“人工智能”是不準确的;潛在擴散系統隻能複制帶有文本标記的潛像,潛像的品質也受制于訓練圖像的品質;AI圖像産品的訓練圖像的來源非常重要。
  • 原告最後提出,根據Stability CEO的說法,Stable Diffusion已經“壓縮了超過100tb的圖像知識”,Stable Diffusion的迅速成功雖然部分是依賴于計算機科學的巨大飛躍,但更依賴于利用受版權保護的圖像。

一些定義

需要說明的是,原告在陳述事實背景前,對訴狀中的常用詞彙進行定義:

  • “AI圖像産品”(“AI Image Product” )是指由被告建立、維護、推廣、銷售和/或分發的基于人工智能的圖像生成産品,即Stable Diffusion、Midjourney産品、DreamStudio和DreamUp.
  • “人工智能”或“AI”是指一種軟體程式,它通過算法模拟人類推理或推斷,通常使用統計或數學方法。
  • “衍生作品”(“Derivative Work”)是指AI圖像産品的輸出,以及AI圖像産品本身——(AI圖像産品)包含它們訓練所基于的版權作品的壓縮副本。
  • “Diffusion”是一個特定的機器學習應用程式,它生成一個存儲訓練資料集中每個項目的壓縮副本的模型。詳情見下文。Stable Diffusion是一個包含diffusion模型的人工智能軟體程式。
  • “生成式AI”(“Generative AI”)是機器學習的一個子集,其程式複制訓練資料并使用其生成該訓練資料的衍生作品。Stable Diffusion就是生成式AI系統的一個例子,因為它使用複制的圖像進行訓練,并生成類似的圖像。現存的可以生成對話文本、軟體代碼和音樂的其他生成式AI系統,也是以類似方式利用訓練資料。
  • “機器學習”(“Machine Learning” or “ML”)是一種人工智能程式,軟體程式的行為來源于複制被稱為訓練資料的材料語料庫。在這種情況下,“學習”一詞是隐喻,與人類的學習幾乎沒有什麼相似之處;它是一種通過大量資料輸入和統計操作、計算和線性代數來開發軟體程式的技術,而不是使用程式設計語言逐行編碼。機器學習程式可以基于資料集或訓練資料找到模式(patterns)或進行計算。算法的算子有時被稱為“訓練器”。除非有必要做進一步區分,機器學習将被稱為“AI”。Stable Diffusion, Midjourney産品, DreamStudio和DreamUp都包含AI程式和ML程式。
  • “模型”(“Model” )是人工智能程式的軟體元件,機器學習過程的輸出。作為一個計算機檔案,它包含了從分析訓練資料中提取的所有資訊,包括算法産生的規則和資料結構。
  • “軟體庫”(“Software Library”)是軟體本身包含的軟體程式,其設計目的是為了給其他軟體程式(比如桌面或智能手機應用程式)提供某些功能或服務,進而減少開發時間。Stable Diffusion被用作“軟體庫”時,為其他程式提供圖像生成服務。Stable Diffusion已經被包括DreamStudio、DreamUp以及Midjourney産品在内的多個程式用作軟體庫。
  • “文本提示”(“Text Prompt”)是一種文本描述,被用作包括AI圖像産品在内的生成式AI系統的接口,以産生輸出。比如,使用者輸入“一隻戴着棒球帽吃冰淇淋的狗”這樣的文本提示,Stable Diffusion就會嘗試生成與該文本提示相對應的圖像。因為随機性與文本提示一起被注入到生成過程中,是以特定文本提示通常會産生一系列不同的結果。在像Stable Diffusion這樣的生成式AI系統中,文本提示并不是訓練資料的一部分。它是工具的最終使用者界面的一部分。是以,它更類似于傳遞給網際網路搜尋引擎的文本查詢。就像網際網路搜尋引擎在其龐大的網頁資料庫中查找查詢以向我們顯示比對結果一樣,生成式AI系統使用文本提示,基于其龐大的訓練資料庫生成輸出。
  • “訓練圖像”(“Training Image”)是指被包含在機器學習過程的訓練資料中的一副圖像,或與描述性文本标題配對的圖像,通常通過網絡抓取收集。Stable Diffusion為了擷取訓練資料,從公公網站上抓取了數十億張訓練圖像。
  • “網絡抓取”(“Web Scraping”)是指通過使用包括機器人或網絡爬蟲在内的自動工具,從網站上收集、複制或提取資料。這樣“抓取”的資料範圍和數量通常是巨大的。網絡抓取可被用于擷取公共網站上的任何類型的資料,特别是受版權保護的資料,如文本、圖像或軟體代碼。這些資料被用作其他計算機程式(比如搜尋引擎、機器學習過程)的輸入。所有AI圖像産品的訓練資料都是通過網絡抓取收集的,比如Stable diffusion。
  • 訴狀中的“作品”(“Work” or “Works”)是指任何一個在集體訴訟期間(Class Period)被用于訓練任一版本的Stable Diffusion的,由被告直接提供和/或合并到另一個産品中的圖像。

需要說明的是,這些定義中有時會包含原告視角下的定性和傾向性解釋。

下篇看訓練資料來源和另外兩個被告的被訴原因。

繼續閱讀