天天看點

Stability AI 又出新模型 DeepFloyd !AI設計海報指日可待了

作者:無為設計研究所

大家好,這裡是和你們一起探索 AI 繪畫的花生~

4 月份的時候給大家介紹了 Stability AI 新推出新模型 Stable Diffusion XL,它的參數是 SD v2.1 的 2.5 倍,整體圖像生成品質也比 v2.1 要好很多。不到半個月時間,Stability AI 又推出了一個新的文本到圖像模型 DeepFloyd IF,今天我們就繼續看看這個新模型的功能。

DeepFloyd IF

DeepFloyd 官網: https://deepfloyd.ai/

DeepFloyd IF 模型試玩: https://huggingface.co/spaces/DeepFloyd/IF

DeepFloyd 是 Stability AI 旗下的多模态 AI 研究實驗室,這次的 IF 模型就是由 DeepFloyd 研發的。據官方介紹,DeepFloyd IF 是最新最先進的開源文本-圖像模型,擁有強大的語言了解能力,生成的圖像具有高度真實感。從其官網展示了圖像來看,DeepFloyd IF 生成的圖像品質非常不錯,也能處理多種不同的風格效果。

Stability AI 又出新模型 DeepFloyd !AI設計海報指日可待了

DeepFloyd IF 生成的圖像,圖檔内容來源:DeepFloyd 官網

上面的這些圖像也展現了 DeepFloyd IF 另外的 2 項優勢 —— 能在圖像中生成連貫清晰的文本,以及了解不同對象的屬性和空間關系。比如它可以正确地将文字呈現在路牌、紙片、包裝外殼等規定的媒介内;能了解文本之間的連續關系,将不同的字母或數字按順序呈現在不同的物體上;以及厘清圓球是金屬的,三角形是毛茸茸的,不會将不同物體的屬性弄混。

我用同一組提示詞在 Stable Diffusion XL、DeepFloyd IF 和 Midjourney 中分别進行了測試,結果見下圖。可以看到 SD XL 雖然顯示了文字,但是文字内容并不準确,也沒有有突出文字的主體位置,顯然是模型對文本的了解能力有限;Midjourney 生成圖像品質很高,但是文字部分是錯的;DeepFloyd IF 對文字内容和塗鴉風格把握都很準确,整體效果最好。

Stability AI 又出新模型 DeepFloyd !AI設計海報指日可待了

推特上也有很多網友利用 DeepFloyd IF 成功生成各種具有清晰文字内容的圖像,說明 IF 模型的這項功能的非常穩定。

Stability AI 又出新模型 DeepFloyd !AI設計海報指日可待了

内容來源: https://twitter.com/deepfloydai

DeepFloyd 還在官網上展示了 IF 模型與其他的模型的效果對比,包括 OpenAI 的 DALLE·2、Google 的 Imagen 和 Parti,以及 Stability AI 自己的 Stable Diffusion v2.1。從對比圖可以看出 DeepFloyd IF 的圖像生成品質并不遜于其他模型,在語言了解方面方面甚至表現更好,比如在和 DALLE·2 的對比圖中,IF 模型可以更好地了解“a handpalm 一隻手掌”這個概念。

Stability AI 又出新模型 DeepFloyd !AI設計海報指日可待了

DeepFloyd IF 與其他模型的對比

與 Stable Diffusion、DALLE·2 等模型不同的是,DeepFloyd IF 是一個由當機文本編碼器和三個級聯像素擴散子產品組成的。三個擴散子產品分别為一個基于文本提示生成 64x64 像素圖像的基本模型,和兩個超分辨率模型。

Stability AI 又出新模型 DeepFloyd !AI設計海報指日可待了

也就是說使用一般的繪畫工具 ,我們直接就能生成一張 512*512px 或者 1024*1024px 的分辨率圖像,而 DeepFloyd IF 則是先生成一張 64*64px 的基礎圖像,然後再通過兩個超分辨率模型對其進行分辨率提升。這一點在 DeepFloyd IF 試玩 Demo 中也展現了出來:輸入提示詞後,會先得到一個模糊的 64*64px 的圖像,然後選擇“Upscale”進行放大,才會得到一個 1024x1024 px 的資訊圖像。這個特點讓 IF 模型在生成基礎圖像時速度比一般模型快很多, 圖像生成效率更高。

Stability AI 又出新模型 DeepFloyd !AI設計海報指日可待了

除了根據文本提示生成圖像,DeepFloyd IF 還有一個根據圖像生成類似圖像的功能,整個過程也非常有意思。DeepFloyd IF 會先将原圖縮減至 64 px,通過正向擴散添加一定程度的噪聲,然後在逆向擴散過程中使用新文本提示對圖像進行去噪,進而實作圖像到圖像的轉換。這樣以保留原圖的基礎構圖、色彩等資訊,然後再根據文本提示,生成不同樣式、風格和細節的圖像。

DeepFloyd IF 還有 Super Resolution 和 Inpainting 功能。Super Resolution 即提升畫面的分辨率,前面提到過 IF 模型本身就自帶 2 個超分辨率模型,而對于并非由 IF 生成的圖像,也可以用 IF 模型進行放大。Inpainting 則是通過塗抹修改圖像局部内容,且修改後的内容能與原畫面的風格保持一緻。

Stability AI 又出新模型 DeepFloyd !AI設計海報指日可待了

DeepFloyd IF 目前沒有正式的應用,隻在 Huggingface 上提供了一個試玩 Demo,感興趣的朋友可以戳下面的連結試一試。DeepFloyd IF 模型及生成的内容目前不可商用,僅供研究使用。團隊目前在開放收集關于 IF 模型的回報意見,之後會釋出一個完全免費的商業相容版本。

DeepFloyd IF 模型試玩: https://huggingface.co/spaces/DeepFloyd/IF

DeepFloyd IF 模型的出現意味着 AI 繪畫的可控性得到了進一步的提升,特别是在能生成連貫準确的文字内容這方面,讓 AI 繪畫工具在未來可以在設計領域有更廣泛得的應用,比如生成具有準确文字的圖檔素材、具有特殊效果的字型設計,甚至是進行準确地排版。本期文章封面的配圖就是用 DeepFloyd IF 生成的,你覺得 DeepFloyd IF 還會哪些其他的發揮它的優勢呢?歡迎在評論區分享你的看法~

繼續閱讀