天天看點

“衆所周知,視訊不能P”,GAN:是嗎?

見過用GAN來P圖,見過用GANP視訊嗎?

瞧,原本一直在面無表情地講話的人,全程露出了微笑;原本得4、50歲的人,直接變20幾歲了:

“衆所周知,視訊不能P”,GAN:是嗎?

另一邊,正在微笑唱歌的“赫敏”一下子憤怒起來,還能換上一張幾歲小孩的臉:

“衆所周知,視訊不能P”,GAN:是嗎?

奧巴馬也如此,4種版本的面部狀态信手拈來,甚至連性别都給P成女的了:

“衆所周知,視訊不能P”,GAN:是嗎?

不管人臉表情和狀态如何變化,這些視訊都沒有給人任何違和感,全程如此的絲滑~

哦對,除了真人,動漫視訊裡的臉也可以P:

“衆所周知,視訊不能P”,GAN:是嗎?

有點厲害了。

基于GAN的視訊面部編輯

這個模型出自以色列特拉維夫大學。

“衆所周知,視訊不能P”,GAN:是嗎?

衆所周知,GAN在其潛空間内編碼豐富語義的能力,已經被廣泛用于人臉編輯。

不過将它用在視訊中還是有點挑戰性:一個是缺乏高品質資料集,一個是需要克服時間一緻性 (temporal coherency)這一基本障礙。

不過研究人員認為,第二點這個障礙主要是人為的。

因為原視訊本具備時間一緻性,編輯後的視訊卻變了,部分原因就是在editing pipeline中對一些元件(component)處理不當。

而他們提出的這個視訊人臉語義編輯架構,相對于目前技術水準做出了重大改進:

隻采用了标準的非時序StyleGAN2,對GAN editing pipeline中的不同元件進行分析,确定哪些元件具備一緻性,就用這些元件來操作。

整個過程不涉及任何用來維持時間一緻性的額外操作。

具體流程一共分為六步:

“衆所周知,視訊不能P”,GAN:是嗎?

1、輸入視訊首先被分割成幀,每幀中的人臉都被裁剪下來并對齊;

2、使用預訓練的e4e編碼器,将每張已裁剪的人臉反演到預訓練的StyleGAN2的潛空間中;

3、在所有并行幀中使用PTI(最新提出的一種視訊人臉編輯方法)對生成器進行微調,糾正初始反演中的錯誤,恢複全局一緻性;

4、所有幀通過使用固定的方向和步長,線性地操縱其軸心潛碼(pivot latent codes)進行相應編輯;

5、再次微調生成器,将背景和編輯過的人臉“縫合”在一起;

6、反轉對齊步驟,并将修改後的人臉粘貼回視訊中。

“衆所周知,視訊不能P”,GAN:是嗎?

△ 注意頸部曾産生了大量瑕疵,在最後一步完全修複好

和SOTA模型對比

這個模型效果到底有多好,來個對比就知道:

“衆所周知,視訊不能P”,GAN:是嗎?
“衆所周知,視訊不能P”,GAN:是嗎?
“衆所周知,視訊不能P”,GAN:是嗎?

第一個是變年輕、第二、三個都是變老。

可以明顯看到目前的SOTA模型(Latent Transformer)和PTI模型中的人臉會“抽巴”,并出現一些僞影,而這個新模型就避開了這些問題。

此外,研究人員還進行了時間一緻性測試。

名額包含兩個:

局部時間一緻性(TL-ID),通過現成的一緻性檢測網絡來評估相鄰兩幀之間的一緻性。TL-ID分數越高,表明該方法産生的效果越平滑,沒有明顯的局部抖動。

全局時間一緻性(TG-ID),同樣使用一緻性檢測網絡來評估所有可能的幀(不一定相鄰)之間的相似性。得分為1表示該方法成功保持了和原視訊的時間一緻性。

結果如下:

“衆所周知,視訊不能P”,GAN:是嗎?

可以看到,這個新模型在兩項名額中都略勝一籌。

最後,代碼将于2月14号釋出,感興趣的朋友可以蹲一蹲了~

“衆所周知,視訊不能P”,GAN:是嗎?

繼續閱讀