
新智元報道
編輯:LRS
【新智元導讀】還在為PS的各種指令、工具頭疼嗎?魏茨曼聯合英偉達釋出了一個新模型Text2LIVE,隻需用自然語言就能輕松完成各種摳圖、貼圖,圖像和視訊都能用!
使用Photoshop類的軟體算是創造性工作還是重複性工作?
對于用PS的人來說,重複性工作如摳圖可能是一大噩夢,尤其是頭發絲、不規則的圖形、與背景顔色貼近的,更是難上加難。
如果有AI模型能幫你摳圖,還能幫你做一些如替換紋理、添加素材等工作,那豈不是能節省大把時間用來創作?
一些專注于視覺效果(VFX)的從業者對圖像和視訊合成方面的新工作和創新很感興趣,但他們同時也會感覺到威脅,擔心AI的快速發展是否會替代他們,畢竟現在AI從繪畫到生成視訊,簡直無所不能。
比如讓一個新手生成一個僞造視訊需要大量的學習和操作時間,如果使用deepfake的話則不需要什麼門檻,而且效率也高得多。
不過好消息是,AI目前并非全知全能,一個模型隻能做軟體内的一點點工作;如果要把多個模型組裝成一個Pipeline,那還得需要人來操作才行;對于更複雜的任務,那還需要人類的創造力。
魏茨曼科學研究學院和英偉達的研究人員就提出了一個模型Text2Live,使用者隻需要輸入自然語言文本作為指令,就能對給定的圖檔和視訊進行處理。模型的目标是編輯現有物體的外觀(如物體的紋理)或以語義的方式增加場景的視覺效果(如煙、火等)。
論文連結:https://arxiv.org/pdf/2204.02491.pdf
Text2Live能夠用複雜的半透明效果增強輸入場景,而不改變圖像中的無關内容。
比如對模型念出咒語「煙」或者「火」,就可以給圖檔合成上相應的效果,十分真實;
對着面包圖檔說「冰」,就可以變成一個冰面包,甚至「奧利奧蛋糕」也不在話下;
或是對着視訊說「給長頸鹿戴個圍脖」,它也能精确識别出來長頸鹿的脖子,并在每一幀都給它戴上一個圍脖,還能換各種不同的效果。
用自然語言P圖
受視覺語言模型(Vision-Language models)強大的語義表達能力啟發,研究人員想到,為什麼我們不能用自然語言指令來P圖呢?這樣使用者就可以輕松而直覺地指定目标外觀和要編輯的對象和區域,而開發出的模型需要具備識别出給定文本提示的局部、語義編輯的能力。
多模态的話,在4億個文本-圖像對上學習過的CLIP模型就是現成的,并且其内包含巨大的視覺和文本空間豐富性已經被各種圖像編輯方法所證明了!
但還有一個困難,就是在所有真實世界的圖像中想用CLIP達到完美性能還是不容易的。
大多數現有方法都是将預訓練好的生成器(例如GAN或Diffusion模型)與CLIP結合起來。但用GANs的話,圖像的域是受限制的,需要将輸入圖像反轉到GAN的潛空間,本身就是一個具有挑戰性的任務。而擴散模型雖然克服了這些障礙,但在滿足目标編輯和保持對原始内容的高保真度之間面臨着權衡。但将這些方法擴充到視訊中也并不簡單。
Text2LIVE采取了一條不同的路線,提出從單一的輸入(圖像或視訊和文本提示)中學習一個生成器。
新問題來了:如果不使用外部生成式的先驗,該如何引導生成器走向有意義的、高品質的圖像編輯操作?
Text2LIVE主要設計了兩個關鍵部分來實作這一目标:
1. 模型中包含一種新穎的文字引導的分層編輯(layered editing),也就是說,模型不是直接生成編輯過的圖像,而是通過在輸入的圖層上合成RGBA層(顔色和不透明度)來表示編輯。
這也使得模型可以通過一個新的目标函數來指導生成的編輯内容和定位,包括直接應用于編輯層的文本驅動的損失。
比如前面的例子中使用文本提示「煙」,不僅輸出最終的編輯圖像,還表達了編輯層所代表的目标效果。
2. 模型通過對輸入的圖像和文本進行各種資料增強,在一個由不同的圖像-文本訓練執行個體組成的「内部資料集」上訓練生成器。實驗結果也表明,這種「内部學習方法」可以作為一個強大的regularization,能夠高品質地生成複雜的紋理和半透明的效果。
文本增強主要使用預定義的14個模闆提示符,能夠提供CLIP向量的多樣性。
圖像資料的Pipeline由一個在單一輸入圖像上訓練的生成器和目标文本提示組成。
左側就是生成内部資料集的過程,即由不同訓練執行個體組成的内部(圖像,文本)對和資料增強後得到的資料集。
右測是生成器将圖像作為輸入,并輸出一個RGBA的可編輯層(顔色+透明度),在輸入的基礎上進行合成,進而形成最終的編輯過的圖像。
生成器的的優化函數為多個損失項之和,每個損失項都是在CLIP空間中定義,包括主要的目标Composition loss,能夠反映圖像和目标文本提示之間的比對程度;Screen loss,應用于生成的編輯層中,主要技術是在純綠色背景上合成一個噪音背景圖像,判斷摳圖準确度;Structure loss,保證替換的紋理和顯示效果能夠保持原始目标的空間分布和形狀。
除了圖像外,研究人員還将Text2LIVE擴充到了文本指導的視訊編輯領域。
現實世界的視訊通常由複雜的物體和錄影機運動組成,包括了關于場景的豐富資訊。然而,想實作一緻的視訊編輯是很困難的,不能隻是簡單地對圖檔的每一幀都使用相同操作。
是以,研究人員提出将視訊分解為一組二維圖集(atlases)。每個圖集可以被視為一個統一的二維圖像,代表了整個視訊中的一個前景物體或背景。這種表示方法大大簡化了視訊編輯的任務。應用于單個二維圖集的編輯會以一種一緻的方式映射到整個視訊中。
視訊的訓練Pipeline包括(a)一個預訓練的固定分層神經圖集模型,可以用作「視訊渲染器」,包括了一組二維圖集、從像素到圖集的映射函數,以及每個像素的前景/背景透明值;(b)架構訓練一個生成器,将標明的離散圖集IA作為輸入,并輸出;(c)一個圖集編輯層EA;(d)使用預訓練映射網絡M把編輯過的圖集渲染回每一幀;(e)在原始視訊上進行合成。
在實驗的量化評估中,研究人員選擇人類感覺評估的方式,參與者會看到一個參考圖像和一個目标編輯提示,以及兩個備選方案。
參與者必須選擇「哪張圖檔能更好地根據文本提示來編輯參考圖像」?
實驗資料包括了82個(圖像,文本)對,收集了12450個使用者對圖像編輯方法的判斷,投票結果可以看到Text2LIVE在很大程度上超過了所有的基線模型。
在視訊的實驗中,參與者需要選擇「品質更好、更能展現文本的視訊」,實驗資料包含19個(視訊,文本)對和2400個使用者的判斷結果。結果可以看到,Frames基線模型産生了時間線不一緻的結果,而Atlas基線的結果更一緻,但在生成高品質紋理方面表現不佳,經常産生模糊的結果。
參考資料:
https://www.unite.ai/consistent-ai-video-content-editing-with-text-guided-input/