天天看點

實力打臉!Adobe用競品Midjourney圖檔訓練Firefly

作者:漫威電影情報局
實力打臉!Adobe用競品Midjourney圖檔訓練Firefly

撰稿 | 言征

出品 | 51CTO技術棧(微信号:blog51cto)

AIGC圈太魔幻了,啪啪打臉的時刻總是在路上!

開源的模型會變閉源,比如被認為是開源獨角獸的Mistral,開始考慮“使命與商業利益之間的平衡”,推出閉源的旗艦大模型Large。當然,上一次這麼說的還要數OpenAI。

不過在外界看來,理由就是四個字:我、要、賺、錢!

再比如,一開始攻擊谷歌搜尋廣告泛濫的AI搜尋寵兒Perplexity AI也宣布了自己網站開始賣起了廣告位,同樣一改對于“恰飯”廣告的态度:隻要廣告足夠好,就不影響使用者體驗。

今天同樣被網友們吃到“打臉”瓜的會是誰呢?嗯,這次是Adobe。

1.質疑Midjourney,了解Midjourney,成為Midjourney?

當Adobe公司去年釋出其圖像生成軟體Firefly時,該公司表示,這款人工智能模型主要是在Adobe Stock上訓練的,其資料庫包含數億張授權圖像。Adobe公司稱,Firefly是一個“商業上安全”的替代方案,可以替代像Midjourney這樣的競争對手,後者是通過從網際網路上抓取圖檔來學習的。

此外,Adobe公司曾就競争對手的資料收集做法提出批評。該公司首席戰略官斯科特·貝爾斯基(Scott Belsky)去年表示,其他模型都是建立在“公開抓取”的資料之上的。

Adobe公司在其網站上表示,Firefly比OpenAI的類似模型更勝一籌的原因之一是,它尊重創意社群,隻使用有授權或可免費擷取的資料進行訓練。而在去年3月的一篇題為《生成式人工智能時代的負責任創新》的部落格文章中,法務總監達娜·拉奧(Dana Rao)指出,生成式AI“的好壞取決于其訓練資料的品質”。

她寫道:“經過精心策劃、多樣化的資料集訓練,你的模型在商業安全和倫理結果方面自然具有競争優勢。”同時,她指出Adobe公司對Firefly的訓練是基于AdobeStock圖像、有授權的内容和版權已過期的公有領域内容。

Adobe公司進階副總裁阿什利·斯蒂爾(Ashley Still)在本月初的彭博情報活動中表示:“當我們釋出Firefly時,我們的企業客戶找到我們說,‘我們很喜歡你們在做的事情,我們真的很感激你們沒有在開放的網際網路上竊取我們所有的知識産權。”

然而,在多次演講和公開文章中,Adobe從未明确表示其模型實際上使用了來自這些競争對手的一些圖像,來作為其比競争對手更安全的原因。

人設崩塌往往來自于内部消息。根據最新的爆料,幕後情況是,Adobe也在一定程度上依賴AI生成的内容來訓練Firefly,包括從那些AI競争對手那裡擷取的内容。

實力打臉!Adobe用競品Midjourney圖檔訓練Firefly

圖檔

彭博社報道:

Adobe’s 'Ethical' AI Tools Used Rival AI Images for Training

2.内部員工實在看不下去,爆料使用競品素材來訓練

AI生成的内容之是以會進入Firefly的訓練集,是因為創作者被允許将數百萬張使用其他公司技術的圖像送出到Adobe Stock市場。Adobe公司代表米歇爾·哈爾霍夫(Michelle Haarhoff)去年9月在為攝影師和藝術家設立的Discord群組中寫道:“Adobe Stock收藏中的生成式AI圖像是Firefly訓練資料集的一小部分。”

Adobe公司表示,用于訓練其AI工具的圖像中,隻有相對較小的一部分(約5%)是由其他AI平台生成的。公司發言人表示:“送出給Adobe Stock的每一張圖像,包括一小部分用AI生成的圖像,都會經 過嚴格的稽核過程,以確定其中不包含知識産權、商标、可識别的角色或标志,也不包含藝術家的名字。”

公司内部對該做法的批評聲不斷:據多位熟悉Firefly開發過程的員工(因讨論是私密的,故要求匿名)表示,自從Firefly誕生之初,公司内部就一直存在關于将AI生成的圖像納入模型的道德和視覺效果的争議。有些人建議逐漸減少系統對生成圖像的使用,但有知情人表示,目前尚無此類計劃。

實力打臉!Adobe用競品Midjourney圖檔訓練Firefly

Adobe Stock 添加了許多AI生成的圖像

然而,Adobe公司從未公開明确表示,Firefly部分使用了競争對手工具中據稱不太道德的圖像進行訓練。不過,根據彭博社檢視的消息,Adobe公司至少在兩個由公司營運的Discord線上讨論組中披露了這些細節——一個用于Adobe Stock,另一個專門用于Firefly。

3.使用者實錘:慚愧,被用于訓練的AI圖檔的确獲得了獎金

2023年3月,Adobe公司釋出了Firefly的“測試版”産品。當月,與Adobe Stock社群合作的勞爾·塞羅恩(Raúl Cerón)在Discord上發帖稱,公司不打算使用生成的圖像來訓練即将釋出的Firefly公開版。

“一旦我們結束測試并正式上線,我們将為它建立一個新的訓練資料庫,其中将不包含生成式AI的内容。” 他在6月的一篇文章中寫道。

當Adobe于9月13日宣布Firefly公開釋出時,該公司還向“其内容被用于訓練首個商業版Firefly模型”的Adobe Stock貢獻者支付了特别的“Firefly獎金”。根據與Adobe Stock社群合作的馬特·海沃德(Mat Hayward)在Discord上的一條消息,那些使用生成式AI的貢獻者也在獲得獎金的人之列。

海沃德寫道,Adobe Stock中的AI生成圖像“增強了我們的資料集訓練模型,我們決定在商業釋出的Firefly版本中包含這些内容。”

這一點,也被使用者實際證明了。一位使用者在Adobe上傳Midjourney圖像,結果反手就被用來訓練,而且還收到了一筆獎金。

布萊恩·彭尼(Brian Penny)是一位作家和stock圖像貢獻者,他向Adobe Stock送出了數千張AI生成的圖像——其中大多數是用Midjourney制作的。在收到獎金時,他感到十分驚訝,因為他認為自己作為AI貢獻者是沒有資格獲得獎金的。盡管獲得了經濟收益,但彭尼認為讓Firefly訓練包含像他這樣貢獻的内容是一個糟糕的決定,并表示公司應該更加坦率地說明它是如何訓練這款圖像建立軟體的。

他說:“他們需要秉持道德原則,需要更加透明,需要做得更多。”

自2022年底正式接受AI内容以來,Adobe Stock的素材庫蓬勃發展。如今,大約有5700萬張圖像,即總數的約14%,被标記為AI生成的圖像。送出AI圖像的藝術家必須指明該作品是使用技術建立的,但他們不需要說明使用的是哪種工具。為了喂養其AI訓練集,Adobe還提出為貢獻者提供報酬,以送出大量用于AI訓練的照片——例如香蕉或旗幟的圖像。

4.究竟什麼是道德/負責任的AI?淩亂了

要訓練支撐流行内容創作産品的AI模型,需要海量的資料,同時,AI技術公司在此過程中使用版權材料的行為也受到了越來越多的審視。

Midjourney、Dall-E的制作者OpenAI以及Stable Diffusion的制作者Stability AI等公司都是利用從網際網路上抓取的圖檔資料集來建構他們的媒體生成模型,這種做法引發了衆多藝術家的憤怒和訴訟。

一位研究法律和倫理影響的助理教授認為,“這顯示了負責任AI定義的模糊性,也說明了擺脫生成内容帶來的社會、文化和倫理問題(如果不是法律問題的話)的困難。”

Adobe公司決定使用公司擁有版權或屬于公共領域的内容來建構Firefly,很明顯,是為了在快速增長的生成式人工智能市場中,使其AI圖像工具脫穎而出。

然而,該公司卻将其宣傳為更道德、更合法的選擇,适合那些希望通過少量詞彙生成圖像但又擔心潛在版權問題的客戶。不過,Adobe公司還表示,它不會基于其他人的知識産權或品牌來生成内容,也會避免産生有害圖像。

哈佛大學教授麗貝卡·塔什内特(Rebecca Tushnet)專注于版權和廣告法領域。她表示,用AI生成的内容進行訓練可能不會讓Adobe的Firefly圖像生成器在商業上變得不那麼安全,隻要公司不誤導消費者,它就不需要說明其訓練内容。但是,用像Midjourney建立的圖像這樣的AI圖像進行訓練,會破壞Firefly與競争對手服務不同的理念。

“Adobe基本上想将自己定位為更進階别的替代品,但它也想要非常便宜的輸入,而AI是一個擷取便宜輸入的非常好的方式,”她說。

是以,到底什麼才是道德的、負責任的AI,相信不少人都淩亂了。

來源: 51CTO技術棧