編輯：David 如願好困

【新智元導讀】時隔僅一月，谷歌又推出新的「AI畫圖」模型Parti，換個姿勢吊打其他選手，兩戰告捷！

最近，在「AI畫畫」這一塊，大廠們又卷上了新高度！

4月，在GPT-3大模型的加持下，Open AI對畫圖界的扛把子DALL-E進行了2.0版的全面更新。

讓自然語言生成圖像達到了全新的高度。比如下面這幅「孫子玩兒電腦」（非罵街）。

5月，谷歌不甘落後推出AI創作神器Imagen，效果奇佳。

号稱重奪AI畫畫老大哥地位的Imagen，迅速被國外網友玩出了新高度，一波「虎戴VR」熱度直接起飛。

有人驚呼，現在的新模型的保存期限隻有一個月了麼？

谷歌一看，這是要開卷的節奏，不如我再進一步，再搞個新的AI大畫家吧。

于是，隻過了一個月，新一代AI繪畫大師Parti就來了！

Parti，全名叫「Pathways Autoregressive Text-to-Image」，是谷歌大腦老大Jeff Dean提出的多任務AI大模型藍圖Pathway的一部分。

Jeff Dean在社交媒體上第一時間推廣了一波。

同時他也表示，和一個月之前的「老前輩」Imagen相比，這次的Parti使用的是不同的技術路線。

為此，谷歌AI專門寫了一篇部落格文章，對比了兩個「AI大畫家」在技術層面上的差別。

雖然Imagen和Parti使用類似技術，不過但具體的政策是不同的——自回歸和擴散。這樣互補的方式使得兩個強大模型的有了更加令人期待的組合！

從Imagen到Parti，谷歌又整了啥新活？

先來回顧一下「老前輩」Imagen，它是一個Diffusion模型，學習将随機點的圖案轉換為圖像。

這些圖像首先以低分辨率開始，然後通過超分辨率技術，不斷的豐富圖像的資訊，進而達到提高圖像分辨率的目的。

具體點講，就是：

在使用者輸入文本後，如「一隻戴着藍色格子貝雷帽、穿着紅色波點高領毛衣的金毛犬」，Imagen先使用一個當機（frozen）T5-XXL 編碼器将輸入文本映射到嵌入序列和64×64圖像擴散模型，再将生成的64×64圖像上采樣為256 × 256圖像，最後上采樣為1024 × 1024圖像。

而這次新推出Parti是一個自回歸模型，它的方法首先将一組圖像轉換為一系列代碼條目，類似于拼圖。然後将給定的文本提示轉換為這些代碼條目并「拼成」一個新圖像。

換言之，Parti将「文本到圖像的生成」轉換成一個「序列到序列」的模組化問題，類似于機器翻譯——這使得它能夠受益于大型語言模型（如PaLM），這對于處理長而複雜的文本提示和生成高品質的圖像至關重要。

在這種情況下，目标輸出是圖像token的序列，而不是另一種語言的文本token。

Parti通過使用功能強大的圖像标記器「ViT-VQGAN」将圖像編碼為離散token序列，并利用其重建圖像token序列的能力，使其成為高品質、視覺多樣化的圖像。

參數從3.5億到200億：有啥差別？

Parti的模型規模支援擴充，最高可擴充至200億參數。

參數越多，模型規模越大，生成圖像的細節越豐富，錯誤資訊也明顯降低。

比如面對同樣的文本輸入：

身穿橙色連帽衫和藍色太陽鏡的袋鼠站在悉尼歌劇院前的草地上，胸前舉着寫着「歡迎朋友」的智語

在3.5億參數下，袋鼠的眼鏡不是藍色，而且PS痕迹明顯，背景隻展現出「草地」，悉尼歌劇院基本看不出來。舉的牌子上更不知道是哪國文字。

到了7.5億參數下，眼鏡顔色和背景都和文字準确對上了，但卻多了另一隻帶着藍眼鏡的袋鼠。

擴充到30億參數，之前的袋鼠不見了，但舉的牌子多了一塊，上面的字仍有拼寫錯誤，但大概能看出是「歡迎朋友」了。但背景中的悉尼歌劇院似乎開了「影分身」。

最終在200億參數下，文字中的内容得到準确再現。

換一張圖，也是如此。文本資訊細節越少，展現的越明顯。

比如文本是「小提琴的背面」這幾個字：

直到30億參數下，生成的圖像仍然是「小提琴的正面」，直到200億參數下，才生成了正确的圖像。

多面手「藝術家」，風格百搭

除了由模型參數量擴大帶來的細節提升外，畫畫最要緊的是能畫出不同風格，要都是千篇一律，那還叫藝術家嗎？

Parti表示，這挺簡單的。

比如命題作畫：

一隻浣熊穿正裝，頭戴禮帽，拄着拐杖，拿着個垃圾袋。

就能畫出梵高風格的：

埃及法老風格的：

甚至是像素藝術風的：

再比如下面的文字：

「一隻老虎戴着列車長的帽子，手裡拿着一塊滑闆，上面有一個陰陽符号。」

也可以畫成油畫風，真真的那種。

或者版畫風，酷酷的那種。

甚至國畫風，萌萌的那種。

當然，也有翻車的時候。

比如下面這個作品，文字是「一個沒有香蕉的盤子,旁邊有一個沒有橙汁的玻璃杯。」

然而，生成的圖檔中盤子裡全是香蕉，玻璃杯裡也幾乎盛滿了橙汁！

就當是藝術家偶爾打了個盹吧！

看起來，以後「鬥圖界」說不定可以告别表情包了，想要什麼圖，打字就行了！

早些年要是能有這樣的神器，「美術課恐懼症」的小編可能也會免去不少不堪回首的回憶吧。

參考資料：

https://parti.research.google/

https://blog.google/technology/research/how-ai-creates-photorealistic-images-from-text/

谷歌赢兩次？AI作畫大師Parti一出，DALL-E 2.0成「爺爺輩」了

【新智元導讀】時隔僅一月，谷歌又推出新的「AI畫圖」模型Parti，換個姿勢吊打其他選手，兩戰告捷！

從Imagen到Parti，谷歌又整了啥新活？

參數從3.5億到200億：有啥差別？

多面手「藝術家」，風格百搭