MIT博士用機率程式設計讓AI和人類一樣看三維｜NeurIPS 2021

新智元報道

編輯：LRS

【新智元導讀】神經網絡模型最大的弊端就在于無法了解實體世界的常識，人類一眼就能看到的物體，AI模型卻視而不見；盤子都漂浮在空中了，模型還覺得自己預測對了。MIT博士在NeurIPS 2021帶來的工作也許能幫你在視覺模型中注入這些實體常識，獲得三維場景感覺能力！

人與AI之間最大的差別就是對常識的利用！

無論各種AI模型在各大排行榜以何種性能超越了人類，它們在常識的利用上仍然遠遠不及人類，而這也正是目前AI研究中需要面臨的一個巨大的挑戰。

對于自然語言處理的研究來說，我們可以向模型中添加各種知識圖譜、實體等資訊來增強模型對于常識的感覺能力，但對于計算機視覺來說就沒有那麼容易了。

視覺的常識不僅要考慮各個物體之間在現實中的空間關系，還要考慮物體位置的合理性。

如果有實體世界的常識能夠注入到視覺系統中，那就不會識别出懸空的盤子、藏在碗後面的叉子若隐若現等等「育碧」特色模組化。

更嚴重一點的說，當不完善的、沒有常識的視覺系統應用到自動駕駛系統時，導緻無法識别出行人、急救車等，或者錯誤了解了空間位置關系，那後果将不堪設想。

人類的視覺和AI視覺略有不同，人類的眼睛實際上是三維的，能夠對不同視角、不同光照、遮擋和雜亂的場景進行視覺概括。

是以為了給計算機一個三維場景感覺的能力，MIT的研究人員最近在NeurIPS 2021上發表了一篇論文，提出了一個基于機率推理的3D場景感覺的生成模型3DP3。

模型有了3D感覺能力以後，除了可以提高自動駕駛汽車的安全性之外，還可以讓清潔機器人感覺雜亂場景下物體間的互相關系。

3DP3的核心就是一個生成式的模組化架構，使用離散的物體及其三維形狀和一個稱為場景圖（scene graph）的層次結構來表示場景，其中場景圖的層次結構與物體的位置和朝向有關。

研究人員使用機率程式設計來建立架構，讓系統能夠從輸入圖像中檢測到物體。通過機率推理（probabilistic inference）的方式也可以讓系統推斷出場景和物體的不比對是由噪聲還是預測錯誤導緻的，增加了可解釋性，也有利于下一步進行中的糾正。

例如給定一副RGB圖像和對應的深度圖，3DP3就可以推斷出一個層次的3D場景圖。

并且因為模型懂常識，一個物體經常是平放（lay flat）在另一個物體上，是以從深度圖中實際上已經可以知道各個物體的位置和朝向了。

除此之外，文中提出的算法還可以推斷什麼時候這些常識是有用的（紫色節點的夾子和盒子是相關的，因為夾子放在了盒子上），哪些物體用不上（紅色節點的四個物體表示一個整體，沒有放置在其他物體上）。

但從這幅圖上看，瞅着這「四合一」的紅色節點還是放置在這個盒子上的，但是文章作者對此沒有進一步說明。

并且3DP3使用機率程式設計（probabilistic program）的形式來表示三維場景的結構化生成模型。

模型使用了兩個先驗機率，1）從資料中學習到的機率作為物體形狀的先驗，2）圖形上的機率分布作為場景結構的先驗。然後從世界節點（world node）開始對場景圖進行周遊來計算物體的位置、方向和深度圖的似然模型。

世界節點的意思就是所有沒有平放在其他物體上的節點的父節點，例如圖中的盒子（灰色節點）和四合一物體（紅色節點）的父節點就是世界節點。圖中為了簡化沒有畫出世界節點。

可以看到，3DP3主要以這種物體之間的接觸關系的常識和機率來進行場景圖的模組化，而這種常識恰恰可以保證系統能夠檢測和糾正計算機視覺中深度學習模型常犯的錯誤。并且機率推斷也能夠更準确地推斷出物體的正确相對位置。

文章的作者Nishad Gothoskar也認為這和人類的推斷過程是相同的：如果你知道了接觸關系，那麼你肯定會知道一個物體永遠不可能漂浮在桌子上，也就是說，在桌子和物體之間必定還存在一個物體，這對于深度學習的黑盒模型來說是一個強有力的解釋操作。

并且3DP3不要求對物體形狀進行寫死，而是提出了一個基于體素（voxel）的物體形狀學習方法。研究人員使用機率推理來學習三維物體形狀的非參數模型，考慮到了由于self-occlusion而産生的不确定性。

文中主要研究了如何從包含已知類型的單一孤立物體的場景中學習到物體的形狀，并沒有考慮對更通用的形狀學習和對形狀不确定性的處理。

有了上面提到的基于接觸關系的生成式模型後，就可以搭建一個完整的場景圖推理算法了。

由于圖像是通過實時圖形和點雲上的似然機率來模組化的，是以研究人員把三維場景的了解作為這種生成模型的近似機率推理。

推理算法将資料驅動的Metropolis-Hastings核與物體姿勢、場景圖結構的MCMC核、物體形狀的不确定性的積分以及現有的深度學習物體檢測器和姿勢估計器結合起來共同預測。

此外，這種架構能夠利用生成模型中的推理來提供常識性的限制，進而修複神經網絡檢測器所産生的錯誤。

在實驗部分，研究人員使用一個标準的機器人資料集YCB-Video來訓練和評估3D感覺能力。

首先對每個物體類型選取5張合成圖像來學習圖形先驗，然後使用一個神經6DoF姿勢估計模型DenseFusion對模型的推理算法進行初始化。

為了衡量姿勢（物體的位置和朝向）預測的準确性，研究人員使用ADD-S來估計物體模型上的點與預測物體姿态之間的平均最近點距離。

實驗結果可以看到，3DP3幾乎能夠準确預測所有形狀的物體，并且在消融實驗中可以看到，3DP3比固定結構且沒有接觸關系的3DP3*更精确。

這也表明了基于渲染和結構推斷都有助于3DP3更準确地估計6DoF姿态。

參考資料：

https://arxiv.org/pdf/2111.00312

MIT博士用機率程式設計讓AI和人類一樣看三維｜NeurIPS 2021

繼續閱讀

預測完整糖肽的片段光譜，浙大開發深度學習方法DeepGlyco

斯坦福團隊研發新型深度學習模型，能預測碳捕集引起的地表位移

王子奇的私服穿搭經，建議長相闆正的男生深度學習下！

深度思考：視覺深度學習模型一定越大越好嗎？

南方測繪推薦 | 劉麗：聯合深度學習與面向對象分析的衛甯北山露天礦山采場資訊提取

【技術】汽車端到端大模型：AI對駕駛規則的深度學習

“AI”科普丨太全了！多模态深度學習的綜述！

學前教育｜董欣然：在遊戲工作坊中促進幼兒深度學習——以“彭城美食街”為例

深度學習硬體的進步：GPU、TPU 等

生成式AI原理技術詳解（一）——神經網絡與深度學習

聽說你缺GPU？送你一份輕量級深度學習的最全總結！

100種分析思維模型之：深度學習

深度學習與化學語言模型結合，用于藥物從頭設計，登Nature子刊

深度學習算法在素材隐義标簽生成中應用研究

預測瞬态熔池變化，美國開發深度學習替代原位PBF-LB粉末床金屬熔融3D列印過程監測

看了極客灣的測評，發現A卡的專業性能其實也不弱A卡的ai性能和深度學習不行，沒有CUDA核心根本運作不了，軟體都進不去，