天天看點

中國女博士的「水淹食堂」大法:單目視訊完美重建3D場景,畫面毫無違和感

雲栖号資訊:【 點選檢視更多行業資訊

在這裡您可以找到不同行業的第一手的上雲資訊,還在等什麼,快來!

一位程式員小哥,正在Facebook食堂愉快地準備喝咖啡。

突然,就被水淹了。

而另一位正好好坐着玩手機的同學,則猝不及防地遭遇了屋頂漏雪事件。

中國女博士的「水淹食堂」大法:單目視訊完美重建3D場景,畫面毫無違和感
中國女博士的「水淹食堂」大法:單目視訊完美重建3D場景,畫面毫無違和感

不過幾秒鐘的時間,不僅頭發上覆上了一層雪,腳面都被積雪埋住了。

遭遇“靈異事件”的還有一隻無辜的小貓咪。

它本乖乖坐在小桌闆上專心賣萌,房間卻突然暗了下來,還有奇怪的小光球開始繞着它轉圈圈!

中國女博士的「水淹食堂」大法:單目視訊完美重建3D場景,畫面毫無違和感

當事貓表示:當時我心裡害怕極了。

中國女博士的「水淹食堂」大法:單目視訊完美重建3D場景,畫面毫無違和感

看着受害貓驚(dan)慌(ding)的表情,兼此事件一時引得物議沸騰:

中國女博士的「水淹食堂」大法:單目視訊完美重建3D場景,畫面毫無違和感

我們決定:走進科學。

中國女博士的「水淹食堂」大法:單目視訊完美重建3D場景,畫面毫無違和感

而當我們剝開事實的真相,發現,這一切事件的“始作俑者”竟是——

來自華盛頓大學和Facebook的最新單目深度估計算法,已中SIGGRAPH 2020,将于下周在GitHub上開源。

單目視訊深度估計

算法的核心思路,是結合單圖像深度估計網絡和傳統的結構-運動重建法,使網絡學會為指定視訊生成幾何一緻的深度。

該方法整體設計架構如下。

中國女博士的「水淹食堂」大法:單目視訊完美重建3D場景,畫面毫無違和感

輸入單目視訊,對一對相機位置不同的幀進行采樣,然後,用預先訓練好的單圖像深度估計模型估計深度,得到初始深度圖。

對這對圖像,使用光流法前後向一緻性檢查建立對應關系。

接着,利用這些對應關系和相機位置提取三維幾何限制。

将三維幾何限制分解為兩個損失:

  • 空間損失
  • 視差損失

通過标準反向傳播,用這兩個損失對深度估計網絡的權重進行微調,以最小化多幀幾何不一緻性誤差。

中國女博士的「水淹食堂」大法:單目視訊完美重建3D場景,畫面毫無違和感

如此,隻需要對視訊中任意幀進行配對采樣,就可以将這一過程擴充到整個視訊,對單目視訊中的所有像素進行幾何一緻的深度重建。

在研究人員的實驗中,對于一個244幀的視訊,用4個英偉達Tesla M40 GPU訓練下來需要40分鐘。

超過此前SOTA,各個資料集上表現穩定

在評估深度重構方法方面,已經有了很多資料集。

但論文作者認為,這些資料集或多或少存在一些問題——要麼是合成的,要麼是針對自動駕駛等特定領域的,要麼是針對單幅圖像或靜态場景的視訊的,并不能完美地評估他們方法有效性。

于是他們用手持錄影機做了一個自定義3D資料集,來進行評估。資料集由靜态和物體運動量很小的動态場景組成,視訊的分辨率為1920x1440像素,長度從119幀到359幀不等。

對比的對象是此前最先進的深度估計模型:傳統的多視角立體視覺系統COLMAP、單圖像深度估計模型Mannequin Challenge和MiDaS-v2、基于視訊的深度估計模型WSVD(兩幀)和 NeuralRGBD(多幀)。

評估的名額一共有三個,覆寫模型的“測光誤差”(Es)、“(不)穩定性”(Ed)、“漂移程度”(Ep),都是反向名額,數值越小,證明模型效果更好。

從下圖中可以看出,無論是靜态場景還是動态場景,論文中提出的深度估計算法,在各個名額上都是最優。

中國女博士的「水淹食堂」大法:單目視訊完美重建3D場景,畫面毫無違和感

從直覺的結果中也能夠看出效果的差異:

中國女博士的「水淹食堂」大法:單目視訊完美重建3D場景,畫面毫無違和感
中國女博士的「水淹食堂」大法:單目視訊完美重建3D場景,畫面毫無違和感

不僅精度和幾何一緻性更高,視覺效果也更加穩定。

此外,為了評估的完整性與公平性,他們還在三個公開資料集上,與這些模型進行了定量比較,分别是:TUM資料集、ScanNet資料集和KITTI 2015資料集。

下表展示的是ScanNet資料集上結果,論文中提出的方法雖然不是最優,但與最優算法的差距并不算大。

中國女博士的「水淹食堂」大法:單目視訊完美重建3D場景,畫面毫無違和感

來自中國女學霸,大學畢業于上海交大

這一研究成果來自華盛頓大學、Facebook等研究機構,一共有5名學者參與。

一作名為羅璇,是華盛頓大學在讀博士,2015年畢業于上海交大ACM班,是戴文淵等大神的直系學妹。

中國女博士的「水淹食堂」大法:單目視訊完美重建3D場景,畫面毫無違和感

大學畢業之後,先後拿到加州伯克利大學、華盛頓大學等高校Offer,為了追求“虛拟視覺”而選擇了華盛頓大學,這也是她從高中就開始關注的領域。

去華盛頓大學讀博之後,她先後在迪士尼、谷歌等知名企業實習,目前的這一研究成果,是她在Facebook實習期間的研究成果。

第二作者是Jia-Bin Huang,弗吉尼亞理工學院助理教授,大學畢業于台灣國立交通大學。論文的其他三位作者, 都來自Facebook,分别是Richard Szeliski、Kevin Matzen、Johannes Kopf。

關于這一研究,他們在結論部分提到了不足之處——比較依賴此前的研究成果,比如用COLMAP估計單目視訊中錄影機的姿态,依賴FlowNet2建立幾何限制等等。

這些方法的不足,也直接影響到了羅璇等人的研究。

另一個值得改進的地方在于,它不支援線上處理,訓練244幀的視訊需要約40分鐘,如果想要實際的生活中,還需要進一步優化。

但從廣大網友的山呼海嘯般的反響中,也能夠看到算法一旦實作,使用者是肯定有的~

你期待嗎?

【雲栖号線上課堂】每天都有産品技術專家分享!

課程位址:

https://yqh.aliyun.com/live

立即加入社群,與專家面對面,及時了解課程最新動态!

【雲栖号線上課堂 社群】

https://c.tb.cn/F3.Z8gvnK

原文釋出時間:2020-05-03

本文作者:魚羊 乾明

本文來自:“量子位公衆号”,了解相關資訊可以關注“公衆号 QbitAI”

繼續閱讀