前沿 | 想讓照片裡的美女“回頭”？清華MIT谷歌用AI幫你實作了

前言

“麻煩幫我把照片上這個美女轉過來，臉朝前。”

設計師們總是接到這種神奇的需求，但是受限于素材和工具的“想象力”，設計師無法憑空推理出背影女子的正臉是美女還是恐龍，這種需求根本無法達成。不過，AI似乎把這個問題解決了。不過轉過來的不是美女，而是香車。

本文經AI新媒體量子位（公衆号 ID: QbitAI）授權轉載，轉載請聯系出處

文章編輯：小雨

“麻煩幫我把照片上這個美女轉過來，臉朝前。”

設計師們總是接到這種神奇的需求，但是受限于素材和工具的“想象力”，設計師無法憑空推理出背影女子的正臉是美女還是恐龍，這種需求根本無法達成。

不過，AI似乎把這個問題解決了。不過轉過來的不是美女，而是香車。

我們看到圖上汽車的背影，幾輛車在道路的右側向前行駛。清華、MIT和谷歌的研究人員，通過AI“腦補”3D圖形，成功的讓最後面這輛黑色的車“掉頭”了。

先打個左轉彎轉過來。

然後掉頭180°，開始“逆行”。

而且除此之外，這項研究成果還可以實作“看圖拍電影”功能，一張靜态圖就可以演化出一系列不同幀的鏡頭。

比如霧霾天氣路上的車輛：

準備超車，成功超越，消失在霧霾中。

或者給道路上的車“噴上”不同的顔色。

這樣看，似乎這項技術不僅幫設計師解決了難題，甚至以後電影拍攝也可以在GPU裡進行了。

這項研究本身基于三類研究：

1.可解釋的圖像表示，比如Tejas D Kulkarni的DC-IGN；

2.深度生成模型，比如大家都知道的GAN；

3.深度圖像處理，比如風格遷移。

不過這些研究主要還是圍繞2D圖像來進行的，我們介紹的這項新研究則在其中加入了3D感覺。

語義、紋理、幾何分層

主要的原理是将圖像的語義、紋理、幾何三個次元分層，分别經過一系列去渲染和渲染流程。

先讓原圖像經過語義去渲染器，生成語義地圖；同時經過紋理去渲染器，生成紋理代碼；然後還要經過幾何去渲染器，生成3D屬性。

3D屬性經過幾何渲染器後，與語義地圖及紋理代碼共同進行紋理渲染，最終實作圖像分層，将圖像分解為背景和多個前景對象。

3D幾何推理：腦補3D

上圖是幾何解釋子產品。該子產品擷取整個圖像，使用來自對象提議的适當公式推斷3D屬性，并且可以生成可解釋的表示以用于了解和操縱。這裡首先使用MaskRCNN對對象執行個體進行分割。對于每個對象，推斷其3D網格模型和對象姿勢。

之後，得出其3D屬性，確定重新得出的3D投影一緻。

語義&紋理推理

在語義和紋理分析的過程中，先要分析類似場景的2D資訊。

使用兩個單獨的卷積網絡來獲得背景中道路、天空、樹林等部分，以及前景中的轎車、貨車等物體，以及的必要顔色和紋理描述代碼。

傳送門

3D-Aware Scene Manipulation via Inverse Graphics

Shunyu Yao, Tzu Ming Harry Hsu, Jun-Yan Zhu, Jiajun Wu, Antonio Torralba, William T. Freeman, Joshua B. Tenenbaum

https://arxiv.org/pdf/1808.09351.pdf

— 完 —