雲栖号資訊:【 點選檢視更多行業資訊】
在這裡您可以找到不同行業的第一手的上雲資訊,還在等什麼,快來!
現在,細微到物體表面的紋理,AI都可以識别。
這就是李飛飛團隊新研究。
我們知道,卷積神經網絡在識别視覺對象方面很出色,但還不能很好的識别出物體的具體屬性,比如表面形狀、紋理等。
而最近,李飛飛團隊的最新研究——Learning Physical Graph Representations from Visual Scenes,就一舉解決了這個問題。

還引入了實體場景圖(Physical Scene Graphs,PSG)和對應的PSGNet網絡架構。
PSG的概念概括了MONet/IODINE和3D-RelNet的工作思路,力求能夠在幾何上處理複雜的物體形狀和紋理。
這樣,在真實世界的視覺資料中學習,可以做到自監督,因而不需要大量和繁瑣的場景元件标記。
具體研究是如何呢?我們一起來看看吧!
PSGNet的建構
簡單來說,用一張圖就可以表示。
棕色方框表示PSGNet的三個階段。
首先,特征提取。采用ConvRNN從輸入中提取特征。
然後,建構圖形,負責優化現有PSG級别。
最後,用于端到端訓練的圖形渲染。
其中,在建構圖形這一階段,由一對可學習的子產品組成,即池化和向量化。
前者在現有圖節點上動态的建構一個池化核的分區,作為學習的、成對的節點 affinities函數。
後者在與每個池化核相關聯的圖像區域及其邊界上,聚合節點統計,來産生新節點的屬性向量。這樣便可以直覺的表示出真實場景中的物體屬性。
在「圖形渲染階段」,PSG相當于通過一個解碼器。
在每個時間點将圖節點屬性,以及圖節點頂層空間配準(SR),渲染成RGB、深度、段和RGB變化圖z。
舉個例子,除開棕色方框部分,就是一個PSG的三個層次以及與其紋理(QTR)和形狀(QSR)渲染圖。
實驗結果
随後,将模型在 TDW-Primitives、TDW-Playroom 和 Gibson 測試集上訓練,并與最近基于CNN場景分割方法進行性能比較。
首先說一說這三個資料集,為什麼要選擇這三個資料集呢?
Primitives和Playroom中的圖像由ThreeDWorld (TDW)生成。其中,Primitives是在一個簡單的3D房間中渲染的原始形狀(如球體、圓錐體和立方體)的合成資料集。
Playroom是具有複雜形狀和逼真紋理的物體的合成資料集,如動物、家具和工具,渲染為具有物體運動和碰撞的圖形。
Gibson則是由斯坦福大學校園内部建築物的RBG-D掃描組成。
這三個資料集都提供了用于模型監督的RGB、深度和表面法線圖。
性能的比較結果如下:
注意的是,OP3和PSGNetM沒有在Gibson或Primitives上進行訓練,因為它們有靜态測試集。
可以看到與其他模型相比,PSGNet表現出了更優的性能。
△ PSGNets的場景分解
此外,文中還通過「手動編輯」PSG頂層的節點,觀察其渲染效果,來說明PSG能夠正确的将場景表示為離散的對象及其屬性。
就像這樣。
從圖中删除一個節點(DeleteA或者B),将它們移動到新的3D位置(MoveB和Occlude),改變形狀屬性(Scale/Rot),或者交換兩個節點的顔色(Swap RGB)。
結果,發現都會改變相對于原始(Full)預測的圖形渲染。
研究團隊
這篇論文的研究團隊是由斯坦福大學和麻省理工大學多個團隊共同合作完成的,其中就包括李飛飛團隊和來自MIT CSAIL的團隊。
第一作者名叫Daniel Bear,心理學系博士後研究員,來自斯坦福大學吳蔡神經科學研究所。
你可能想問,為何研究腦科學的會跟李飛飛團隊一起合作呢?
看了這位作者的研究方向你就知道了。
他一直都在緻力于研究動物是如何感覺世界。
從一開始哈佛大學大學期間,就主要研究動物電信号,比如來自感官刺激的信号,如何誘導神經元基因表達。
接着在哈佛大學繼續攻讀博士時,就研究化學信号,比如動物遇到的氣味分子,如何轉化為嗅覺感覺。
而現在博士後研究期間,他就把目光轉向了采用計算模型來表示動物大腦中的表征。如果可以,給他進一步的研究提供了思路。
于是,他們就這樣交織在了一起。
吳蔡神經科學研究所
也許有朋友會對這個研究所的名字有點陌生。
但這是斯坦福大學裡以中國人命名的研究所,2018年10月,出于紀念蔡崇信、吳明華夫婦對該所慷慨捐贈,正式命名為吳蔡神經科學研究所。
蔡崇信,大家都不陌生了。阿裡巴巴合夥人,最早慧眼識珠加入馬雲的阿裡事業的那個人。
也是鮮有機會,其夫人也被關注到。
【雲栖号線上課堂】每天都有産品技術專家分享!
課程位址:
https://yqh.aliyun.com/live立即加入社群,與專家面對面,及時了解課程最新動态!
【雲栖号線上課堂 社群】
https://c.tb.cn/F3.Z8gvnK
原文釋出時間:2020-06-29
本文作者:白交
本文來自:“
量子位公衆号”,了解相關資訊可以關注“公衆号 QbitAI”