天天看點

微調疊代僅500次,大眼萌生成效果超越StyleGAN,可線上試玩

機器之心報道

編輯:杜偉、陳萍

JoJoGAN生成的漫畫臉可以細緻到捕獲眼睛形狀和細節。

喜歡看漫畫的小夥伴,或多或少都聽過《JOJO 的奇妙冒險》,簡稱 JOJO,這是一本由日本漫畫家荒木飛呂彥所著漫畫,其獨特的畫風,令人驚歎的劇情,可謂是青少年漫畫的必看作。

好的作品總是給人以靈感,來自伊利諾伊大學厄巴納 - 香槟分校(University of Illinois at Urbana-Champaign,UIUC)的研究者以 JOJO 為靈感,開發出一款漫畫生成架構 JoJoGAN,該架構可以将任意人臉進行風格化。使用者隻需要給定一個單一的輸入風格參照(如下圖第一排圖像,包括不同的動漫和卡通人物),JoJoGAN 就能将該風格應用到任何輸入圖像上(如下圖最左邊的歌手 IU,馬斯克),生成的圖像風格特征都保留完好,如眼睛、發色等。

例如生成長發公主風格的馬斯克,眼睛大大的馬斯克看起來還挺萌:

微調疊代僅500次,大眼萌生成效果超越StyleGAN,可線上試玩

JoJoGAN 其他生成效果展示:

微調疊代僅500次,大眼萌生成效果超越StyleGAN,可線上試玩

JoJoGAN 還能線上試玩,你也可以輸入自己的圖檔檢視生成的漫畫臉,這裡,我們也試玩了一下,效果還不錯:

微調疊代僅500次,大眼萌生成效果超越StyleGAN,可線上試玩

試玩位址:https://huggingface.co/spaces/akhaliq/JoJoGAN

微調疊代僅500次,大眼萌生成效果超越StyleGAN,可線上試玩

論文位址:https://arxiv.org/pdf/2112.11641.pdf

項目位址:https://github.com/mchong6/JoJoGAN

總體而言,JoJoGAN 首先對一個成對的訓練資料集進行近似,然後微調 StyleGAN,以執行單次(one-shot)面部風格化。該研究表明,JoJoGAN 在零監督的情況下,可以很好的保留參考圖像的風格細節,還能泛化到不同的風格。

技術解讀

首先來看 JoJoGAN 的工作流。

JoJoGAN 通過對具有單個參照風格圖像的預訓練 StyleGAN2 的微調來工作,具體分為以下四個步驟:

通過 GAN 翻轉參照風格圖像 y 來準備近似成對訓練資料,得到的風格代碼 w 可以生成合理的真實人臉圖像 x;

找出生成真實人臉圖像 x 族的 w 族,它應該與參照風格圖像 y 相比對。形成(w_i, y)對,作為成對訓練集;

根據這些成對訓練資料進行微調;

使用微調後的 StyleGAN 生成新的樣本。

微調疊代僅500次,大眼萌生成效果超越StyleGAN,可線上試玩

然後是資料準備。

使用成對資料進行訓練時圖像風格化任務的最佳選擇,但是,成對資料不易獲得,需要耗費大量時間和資源。目前,領域内沒有适合本研究中任務的好的開源成對資料集。

是以,研究者想要通過如下圖 3 中的近似成對訓練資料集來克服這一問題。給定一個風格參照圖像 y,他們使用 e4e 架構執行 GAN 反轉以獲得 W。由于 e4e 是在真實人臉資料集上訓練的,無法泛化到分布外(out-of-distribution)風格圖像,因而為研究者提供了一個近似真實人臉圖像 y 的 w,形成了一個成對的(w, y)訓練集。

微調疊代僅500次,大眼萌生成效果超越StyleGAN,可線上試玩

但是,僅使用單個資料點進行訓練導緻對其他圖像的泛化效果較差,如下圖 4 所示。是以,研究者通過生成更多訓練資料點來克服這一問題。思路很簡單,很多真實人臉圖像應該與相同風格的參照圖像相比對。例如,眼睛大小或頭發紋理略有不同的人臉可以與相同的參照圖像相比對。

微調疊代僅500次,大眼萌生成效果超越StyleGAN,可線上試玩

最後,研究者使用 Adam 優化器、以 2×10^-3 的學習率對 JoJoGAN 進行 500 次疊代的微調,在 Nvidia A40 上僅花費 1 分鐘左右。

研究者将不保留顔色(non-color preserving)的 JoJoGAN 與目前 SOTA 單 / 小樣本風格化方法 StyleGAN-NADA 和 BlendGAN 進行了比較。結果顯示,JoJoGAN 可以捕捉定義風格的小細節,同時保持清晰的輸入人臉身份特征。

如下圖 5a 所示,JoJoGAN 完美地捕捉到了眼睛形狀和細節以及來自風格參照的發飾;圖 5d 中,JoJoGAN 準确地捕捉到了複雜的面部彩繪。相比之下,雖然 StyleGAN-NADA 也捕捉到了整體小醜妝容,但未能捕捉到眼睛和眉毛等細節,身份特征也受到了大的影響。BlendGAN 未能捕捉到有意義的風格細節,甚至連發型的顔色都不比對。

微調疊代僅500次,大眼萌生成效果超越StyleGAN,可線上試玩
gan

繼續閱讀