天天看點

麻省理工研發全新AI視覺系統 或可大幅提高自動駕駛安全性

财聯社(上海,編輯 黃君芝)訊,衆所周知,計算機視覺系統有時會對與常識相悖的場景進行推斷。例如,如果機器人正在處理餐桌的場景,它可能會完全忽略任何人類觀察者都可以看到的碗,認為盤子漂浮在桌子上方,或者誤認為叉子正在穿透碗而不是靠着它。

有鑒于此,如果将計算機視覺系統轉移到自動駕駛汽車上,風險就會高得多——例如,這種系統無法檢測到緊急車輛和過馬路的行人。

為了克服這些錯誤,麻省理工學院(MIT)的研究人員開發了一個架構,可以幫助機器像人類一樣看世界。他們用于分析場景的新人工智能系統學習僅從幾張圖像中感覺真實世界的對象,并根據這些學習到的對象感覺場景。

研究人員使用機率程式設計建構了這個架構,這是一種人工智能方法,能夠讓系統對檢測到的物體與輸入資料進行交叉檢查,以檢視錄影機記錄的圖像是否與任何候選場景可能比對。機率推理允許系統推斷出不比對是否可能是由于噪聲或場景解釋中的錯誤導緻的,需要通過進一步處理來糾正。

這種常識性的保護措施使系統能夠檢測并糾正許多困擾“深度學習”方法的錯誤,這些方法也已用于計算機視覺。機率程式設計還可以推斷場景中對象之間可能的接觸關系,并使用關于這些接觸的常識推理來推斷對象的更準确位置。

“如果你不知道接觸關系,那麼你可以說一個物體漂浮在桌子上方——這将是一個有效的解釋。作為人類,我們很明顯知道這在實體上是不現實的,放在桌子頂部的物體更可能是物體的姿勢。因為我們的推理系統知道這種知識,是以它可以推斷出更準确的姿勢。這是這項工作的一個關鍵見解,”該研究論文的主要作者 Nishad Gothoskar 說,他是機率計算項目的電氣工程和計算機科學(EECS)博士生。

研究人員将上述系統命名為“通過機率程式設計的3D場景感覺(3DP3)”系統。為了分析場景的圖像,3DP3首先了解該場景中的對象。在隻顯示物體的五張圖像後,每張圖像都是從不同的角度拍攝的,3DP3會學習物體的形狀并估計它在空間中占據的體積。

Gothoskar說,“如果我從五個不同的角度向您展示一個對象,您可以很好地表示該對象。您會了解它的顔色、形狀,并且能夠在許多不同的場景中識别該物體。”

麻省理工研發全新AI視覺系統 或可大幅提高自動駕駛安全性

“這比深度學習方法的資料要少得多。例如,Dense Fusion神經對象檢測系統需要為每種對象類型提供數千個訓練示例。相比之下,3DP3隻需要每個對象幾張圖像,并報告每個對象形狀部分的不确定性。”他補充說。

3DP3系統會生成一個圖形來表示場景,其中每個對象都是一個節點,連接配接節點的線表示哪些對象彼此接觸。這使3DP3能夠更準确地估計對象的排列方式。(深度學習方法依賴于深度圖像來估計對象姿态,但這些方法不會産生接觸關系的圖結構,是以它們的估計不太準确。)

研究人員指出,除了提高自動駕駛汽車的安全性外,這項工作還可以提高計算機感覺系統的性能,這些系統必須解釋物體的複雜排列,例如負責清潔雜亂廚房的機器人。

未來,研究人員希望進一步推動該系統,使其能夠從單個圖像或電影中的單個幀中了解對象,然後能夠在不同場景中穩健地檢測該對象。他們還想探索使用3DP3為神經網絡收集訓練資料。人類通常很難用3D幾何體手動标記圖像,是以3DP3可用于生成更複雜的圖像标簽。

繼續閱讀