天天看點

Diffusion+目标檢測,華人團隊提出GLIGEN完美控制對象的空間位置

作者:新智元

#科技之巅#

編輯:LRS

【新智元導讀】再也不用擔心圖像生成的位置錯亂了!

随着Stable Diffusion的開源,用自然語言進行圖像生成也逐漸普及,許多AIGC的問題也暴露了出來,比如AI不會畫手、無法了解動作關系、很難控制物體的位置等。

其主要原因還是在于「輸入接口」隻有自然語言,無法做到對畫面的精細控制。

最近來自威斯康星大學麥迪遜分校、哥倫比亞大學和微軟的研究人員提出了一個全新的方法GLIGEN,以grounding輸入為條件,對現有「預訓練文本到圖像擴散模型」的功能進行擴充。

Diffusion+目标檢測,華人團隊提出GLIGEN完美控制對象的空間位置

論文連結:https://arxiv.org/pdf/2301.07093.pdf

項目首頁:https://gligen.github.io/

體驗連結:https://huggingface.co/spaces/gligen/demo

為了保留預訓練模型的大量概念知識,研究人員沒有選擇對模型進行微調,而是通過門控機制将輸入的不同grounding條件注入到新的可訓練層中,以實作對開放世界圖像生成的控制。

目前GLIGEN支援四種輸入。

Diffusion+目标檢測,華人團隊提出GLIGEN完美控制對象的空間位置

(左上)文本實體+box (右上)圖像實體+box

(左下)圖像風格+文本+box (右下)文本實體+關鍵點

實驗結果也顯示,GLIGEN 在 COCO 和 LVIS 上的zero-shot性能大大優于目前有監督layout-to-image基線。

可控圖像生成

在擴散模型之前,生成對抗網絡(GANs)一直是圖像生成領域的一哥,其潛空間和條件輸入在「可控操作」和「生成」方面得到了充分的研究。

文本條件自回歸和擴散模型表現出驚人的圖像品質和概念覆寫率,得益于其更穩定的學習目标和對網絡圖像-文本配對資料的大規模訓練,并迅速出圈,成為輔助藝術設計和創作的工具。

但現有的大規模文本-圖像生成模型不能以「文本之外」的其他輸入模式為條件,缺乏精确定位概念或使用參考圖像來控制生成過程的能力,限制了資訊的表達。

比如說,使用文本很難描述一個物體的精确位置,而邊界框(bounding

boxes)或關鍵點(keypoints)則可以很容易實作。

Diffusion+目标檢測,華人團隊提出GLIGEN完美控制對象的空間位置

現有的一些工具如inpainting, layout2img生成等可以利用除文本以外的模态輸入,但卻很少将這些輸入結合起來用于可控的text2img生成。

此外,先前的生成模型通常是在特定任務的資料集上獨立訓練的,而在圖像識别領域,長期以來的範式是通過從「大規模圖像資料」或「圖像-文本對」上預訓練的基礎模型開始建立特定任務的模型。

擴散模型已經在數十億的圖像-文本對上進行了訓練,一個很自然的問題是:我們能否在現有的預訓練的擴散模型的基礎上,賦予它們新的條件輸入模式?

由于預訓練模型所具有的大量概念知識,可能能夠在其他生成任務上取得更好的性能,同時獲得比現有文本-圖像生成模型更多的可控性。

GLIGEN

基于上述目的和想法,研究人員提出的GLIGEN模型仍然保留文本标題作為輸入,但也啟用了其他輸入模态,如grounding概念的邊界框、grounding參考圖像和grounding部分的關鍵點。

這裡面的關鍵難題是在學習注入新的grounding資訊的同時,還保留預訓練模型中原有的大量概念知識。

為了防止知識遺忘,研究人員提出當機原來的模型權重,并增加新的可訓練的門控Transformer層以吸收新的grouding輸入,下面以邊界框為例。

指令輸入

Diffusion+目标檢測,華人團隊提出GLIGEN完美控制對象的空間位置

每個grouding文本實體都被表示為一個邊界框,包含左上角和右下角的坐标值。

需要注意的是,現有的layout2img相關工作通常需要一個概念詞典,在評估階段隻能處理close-set的實體(如COCO類别),研究人員發現使用編碼圖像描述的文本編碼器即可将訓練集中的定位資訊泛化到其他概念上。

訓練資料

用于生成grounding圖像的訓練資料需要文本c和grounding實體e作為條件,在實踐中可以通過考慮更靈活的輸入來放松對資料的要求。

Diffusion+目标檢測,華人團隊提出GLIGEN完美控制對象的空間位置

主要有三種類型的資料

1. grounding資料

每張圖檔都與描述整張圖檔的标題相關聯;名詞實體從标題中提取,并标上邊界框。

由于名詞實體直接取自自然語言的标題,它們可以涵蓋更豐富的詞彙,有利于開放世界詞彙的grounding生成。

2. 檢測資料 Detection data

名詞實體是預先定義的close-set類别(例如COCO中的80個物體類别),選擇使用classifier-free引導中的空标題token作為标題。

檢測資料的數量(百萬級)大于基礎資料(千級),是以可以大大增加總體訓練資料。

3. 檢測和标題資料 Detection and Caption data

名詞實體與檢測資料中的名詞實體相同,而圖像是單獨用文字标題描述的,可能存在名詞實體與标題中的實體不完全一緻的情況。

比如标題隻給出了對客廳的高層次描述,沒有提到場景中的物體,而檢測标注則提供了更精細的物體層次的細節。

門控注意力機制

研究人員的目标是為現有的大型語言-圖像生成模型賦予新的空間基礎能力,

大型擴散模型已經在網絡規模的圖像文本上進行了預訓練,以獲得基于多樣化和複雜的語言指令合成現實圖像所需的知識,由于預訓練的成本很高,性能也很好,在擴充新能力的同時,在模型權重中保留這些知識是很重要的,可以通過調整新的子產品來逐漸适應新能力。

Diffusion+目标檢測,華人團隊提出GLIGEN完美控制對象的空間位置

在訓練過程中,使用門控機制逐漸将新的grounding資訊融合到預訓練的模型中,這種設計使生成過程中的采樣過程具有靈活性,以提高品質和可控性。

實驗中也證明了,在采樣步驟的前半部分使用完整的模型(所有層),在後半部分隻使用原始層(沒有門控Transformer層),生成的結果能夠更準确反映grounding條件,同時具有較高的圖像品質。

實驗部分

在開放集合grounded文本到圖像生成任務中,首先隻用COCO(COCO2014CD)的基礎标注進行訓練,并評估GLIGEN是否能生成COCO類别以外的基礎實體。

Diffusion+目标檢測,華人團隊提出GLIGEN完美控制對象的空間位置

可以看到,GLIGEN可以學會新的概念如「藍鴉」、「羊角面包」,或新的物體屬性如「棕色木桌」,而這些資訊沒有出現在訓練類别中。

研究人員認為這是因為GLIGEN的門控自注意力學會了為接下來的交叉注意力層重新定位與标題中的接地實體相對應的視覺特征,并且由于這兩層中的共享文本空間而獲得了泛化能力。

實驗中還定量評估了該模型在LVIS上的zero-shot生成性能,該模型包含1203個長尾物體類别。使用GLIP從生成的圖像中預測邊界框并計算AP,并将其命名為GLIP得分;将其與為layout2img任務設計的最先進的模型進行比較,

Diffusion+目标檢測,華人團隊提出GLIGEN完美控制對象的空間位置

可以發現,盡管GLIGEN模型隻在COCO标注上進行了訓練,但它比有監督的基線要好得多,可能因為從頭開始訓練的基線很難從有限的标注中學習,而GLIGEN模型可以利用預訓練模型的大量概念知識。

Diffusion+目标檢測,華人團隊提出GLIGEN完美控制對象的空間位置

總的來說,這篇論文:

1. 提出了一種新的text2img生成方法,賦予了現有text2img擴散模型新的grounding可控性;

2. 通過保留預訓練的權重和學習逐漸整合新的定位層,該模型實作了開放世界的grounded text2img生成與邊界框輸入,即綜合了訓練中未觀察到的新的定位概念;

3. 該模型在layout2img任務上的zero-shot性能明顯優于之前的最先進水準,證明了大型預訓練生成模型可以提高下遊任務的性能

參考資料:

https://the-decoder.com/gligen-gives-you-more-control-over-ai-image-generation/

繼續閱讀