
前言
“麻煩幫我把照片上這個美女轉過來,臉朝前。”
設計師們總是接到這種神奇的需求,但是受限于素材和工具的“想象力”,設計師無法憑空推理出背影女子的正臉是美女還是恐龍,這種需求根本無法達成。不過,AI似乎把這個問題解決了。不過轉過來的不是美女,而是香車。
本文經AI新媒體量子位(公衆号 ID: QbitAI)授權轉載,轉載請聯系出處
文章編輯:小雨
“麻煩幫我把照片上這個美女轉過來,臉朝前。”
設計師們總是接到這種神奇的需求,但是受限于素材和工具的“想象力”,設計師無法憑空推理出背影女子的正臉是美女還是恐龍,這種需求根本無法達成。
不過,AI似乎把這個問題解決了。不過轉過來的不是美女,而是香車。
我們看到圖上汽車的背影,幾輛車在道路的右側向前行駛。清華、MIT和谷歌的研究人員,通過AI“腦補”3D圖形,成功的讓最後面這輛黑色的車“掉頭”了。
先打個左轉彎轉過來。
然後掉頭180°,開始“逆行”。
而且除此之外,這項研究成果還可以實作“看圖拍電影”功能,一張靜态圖就可以演化出一系列不同幀的鏡頭。
比如霧霾天氣路上的車輛:
準備超車,成功超越,消失在霧霾中。
或者給道路上的車“噴上”不同的顔色。
這樣看,似乎這項技術不僅幫設計師解決了難題,甚至以後電影拍攝也可以在GPU裡進行了。
這項研究本身基于三類研究:
1.可解釋的圖像表示,比如Tejas D Kulkarni的DC-IGN;
2.深度生成模型,比如大家都知道的GAN;
3.深度圖像處理,比如風格遷移。
不過這些研究主要還是圍繞2D圖像來進行的,我們介紹的這項新研究則在其中加入了3D感覺。
語義、紋理、幾何分層
主要的原理是将圖像的語義、紋理、幾何三個次元分層,分别經過一系列去渲染和渲染流程。
先讓原圖像經過語義去渲染器,生成語義地圖;同時經過紋理去渲染器,生成紋理代碼;然後還要經過幾何去渲染器,生成3D屬性。
3D屬性經過幾何渲染器後,與語義地圖及紋理代碼共同進行紋理渲染,最終實作圖像分層,将圖像分解為背景和多個前景對象。
3D幾何推理:腦補3D
上圖是幾何解釋子產品。 該子產品擷取整個圖像,使用來自對象提議的适當公式推斷3D屬性,并且可以生成可解釋的表示以用于了解和操縱。這裡首先使用MaskRCNN對對象執行個體進行分割。 對于每個對象,推斷其3D網格模型和對象姿勢。
之後,得出其3D屬性,確定重新得出的3D投影一緻。
語義&紋理推理
在語義和紋理分析的過程中,先要分析類似場景的2D資訊。
使用兩個單獨的卷積網絡來獲得背景中道路、天空、樹林等部分,以及前景中的轎車、貨車等物體,以及的必要顔色和紋理描述代碼。
傳送門
3D-Aware Scene Manipulation via Inverse Graphics
Shunyu Yao, Tzu Ming Harry Hsu, Jun-Yan Zhu, Jiajun Wu, Antonio Torralba, William T. Freeman, Joshua B. Tenenbaum
https://arxiv.org/pdf/1808.09351.pdf
— 完 —