蒙娜麗莎一鍵“複活”！三星AI Lab：隻需一張圖檔就能合成動畫

還記得哈利・波特第一次來到霍格沃茨看到牆上那些既會動又會說話的挂畫是多麼驚訝嗎？如果我們可以将挂畫 “複活”，和 500 多年前的蒙娜麗莎來場穿越時空的對話會怎樣呢？感謝 AI 技術，把畫 “複活” 不再是夢！

名畫《蒙娜麗莎的微笑》，會動了！

夢娜麗莎轉過頭，嘴裡說着話，微微眨了眨眼，臉上帶着溫婉的微笑。

是的，《哈利·波特》世界中”會動的畫“魔法實作了！來自三星AI中心(Samsung AI Center)和莫斯科斯的Skolkovo 科學技術研究所的一組研究人員，開發了一個能将讓JPEG變GIF的AI系統。

《哈利·波特》中守衛格蘭芬多學院休息室的胖夫人畫像

更牛逼的是，該技術完全無需3D模組化，僅需一張圖檔就能訓練出惟妙惟肖的動畫。研究人員稱這種學習方式為“few-shot learning"。

當然，如果有多幾張照片——8張或32張——創造出來動圖效果就更逼真了。比如：

愛因斯坦給你講實體：

瑪麗蓮夢露和你 flirt：

本周，三星AI實驗室的研究人員發表了一篇題為 “Few-Shot Adversarial Learning of Realistic Neural Talking Head Models” 的論文，概述了這種技術。該技術基于卷積神經網絡，其目标是獲得一個輸入源圖像，模拟目标輸出視訊中某個人的運動，進而将初始圖像轉換為人物正在說話的短視訊。

論文一發表馬上引起轟動，畢竟這項技術創造了巨大的想象空間！

類似這樣的項目有很多，是以這個想法并不特别新穎。但在這篇論文中，最有趣的是，該系統不需要大量的訓練示例，而且系統隻需要看一次圖檔就可以運作。這就是為什麼它讓《蒙娜麗莎》活起來。

3個神經網絡，讓蒙娜麗莎活起來

這項技術采用“元學習”架構，如下圖所示：

圖2：“讓照片動起來”元學習架構

具體來說，涉及三個神經網絡：

首先，嵌入式網絡映射輸入圖像中的眼睛、鼻子、嘴巴大小等資訊，并将其轉換為向量；

其次，生成式網絡通過繪制人像的面部地标(face landmarks)來複制人在視訊中的面部表情；

第三，鑒别器網絡将來自輸入圖像的嵌入向量粘貼到目标視訊的landmark上，使輸入圖像能夠模拟視訊中的運動。

最後，計算“真實性得分”。該分數用于檢查源圖像與目标視訊中的姿态的比對程度。

元學習過程：隻需1張輸入圖像

研究人員使用VoxCeleb2資料集對這個模型進行了預訓練，這是一個包含許多名人頭像的資料庫。在這個過程中，前面描述的過程是一樣的，但是這裡的源圖像和目标圖像隻是同一視訊的不同幀。

是以，這個系統不是讓一幅畫去模仿視訊中的另一個人，而是有一個可以與之比較的ground truth。通過持續訓練，直到生成的幀與訓練視訊中的真實幀十分相似為止。

預訓練階段允許模型在隻有很少示例的輸入上工作。哪怕隻有一張圖檔可用時，結果也不會太糟，但當有更多圖檔可用時，結果會更加真實。

實驗和結果

研究人員使用2個資料集分别進行定量和定性評估：VoxCeleb1資料集用于與基準模型進行比較，VoxCeleb2用于展示他們所提出方法的效果。

研究人員在三種不同的設定中将他們的模型與基準模型進行了比較，使用fine-tuning集中的1幀、8幀和32幀。

表1：few-shot learning設定下不同方法的定量比較

結果如表1上半部分所示，基線模型在兩個相似性度量上始終優于我們的方法。

不過，這些名額不能完全代表人類的感覺，因為這兩種方法都會産生恐怖谷僞影，從圖3的定性比較和使用者研究結果可以看出。

另一方面，餘弦相似度與視覺品質有更好的相關性，但仍然傾向于模糊、不太真實的圖像，這也可以通過表1-Top與圖3中的比較結果看出。

圖3：使用1張、8張和32張訓練圖像時的三個示例。系統采用一個源圖像(第1列)，并嘗試将該圖像映射到ground truth幀中的相同位置(第2列)。研究人員将他們的結果與X2Face、PixtopixHD模型進行了比較。

大規模的結果。

随後，我們擴充可用的資料，并在更大的VoxCeleb2資料集中訓練我們的方法。

下面是2個變體模型的結果：

圖4：在VoxCeleb2資料集中的最佳模型的結果。

同樣，訓練幀的數量是T(左邊的數字)，第1列是示例訓練幀。第2列是ground truth圖像，後3列分别是我們的FF feed-forward 模型及微調前後的結果。雖然 feed-forward變體的學習更快速，但fine-tuning 最終提供了更好的真實感和保真度。

最後，我們展示了的照片和繪畫的結果。

圖5：讓靜态照片“活”起來