天天看點

人大解決複雜時空場景的物體分割難題,能用于自動駕駛和影像分析

作者:DeepTech深科技

在過去幾十年裡,人工智能和機器學習的發展迅速,尤其在視覺識别、語言了解和自然語言處理等領域取得了顯著進展。

然而,盡管這些系統在特定任務上的表現越來越接近甚至超過人類水準,它們在了解複雜場景的能力、進行有效推理能力和長期記憶方面仍存在明顯的局限性。

特别是在處理視覺場景時,現有的模型往往難以從場景中分離和識别出單獨的物體實體,更不用說跟蹤這些物體随時間的變化和互相作用。

此外,許多現有的模型缺乏對物體如何在實體世界中存在和互相作用的直覺了解,這限制了它們的推理和預測能力。

人類的認知過程在很大程度上依賴于對物體及其實體屬性的直覺了解,這使得我們能夠輕松地處理複雜的動态場景,并在日常生活中進行有效的推理和預測。

是以,可以從人類生活習慣中汲取靈感,探索更為合理的、更加符合人類行為的模型架構,彌補現有人工智能系統在複雜場景了解、物體分割和追蹤、以及基于實體直覺的推理和預測方面的不足。

基于此,人民大學孫浩教授團隊開展了一項研究,旨在解決以下幾個關鍵問題:

其一,解決複雜場景中的物體分割和追蹤問題。

現有模型往往在識别場景和跟蹤場景中的多個物體時表現不佳,尤其是在物體之間存在遮擋或互相作用時。

通過開發新的推理子產品和記憶機制,他們希望可以提高模型在這些場景中的物體感覺能力。

其二,實作更為符合人類行為的推理和預測。

許多模型缺乏進行有效推理和基于實體直覺的預測的能力。而本次研究通過引入基于槽的時空變換器和記憶緩沖區,試圖模拟人類的推理和預測過程,以提升模型的直覺實體了解。

其三,探索以物體為中心的認知過程。

通過模仿人類的物體感覺和直覺實體能力,本次研究旨在深入了解人類如何通過觀察和互動來學習實體世界的規律。

這不僅有助于解釋人類的認知過程,對于開發能夠模仿這些過程的更智能的人工智能系統也具有重要意義。

人大解決複雜時空場景的物體分割難題,能用于自動駕駛和影像分析

圖丨模型架構(來源:arXiv)

明确研究目标之後,該團隊開始設計具體改進方向和初步的模型架構。

基于初步設計的模型架構,他們進行了模型建構和初步測試。這需要在簡單或公開的資料集上進行,以便快速驗證改進方向的可行性。

接着,他們在更廣泛的資料集上進行深入實驗,目的是全面驗證研究假設的正确性,并精确地确定最優的模型結構。

最終,相關論文以《面向視訊的推理增強型以對象為中心的學習》(Reasoning-Enhanced Object-Centric Learning for Videos)為題發在 arXiv。

人大解決複雜時空場景的物體分割難題,能用于自動駕駛和影像分析

圖丨相關論文(來源:arXiv)

李健是第一作者,孫浩擔任通訊作者。

人大解決複雜時空場景的物體分割難題,能用于自動駕駛和影像分析

圖丨李健(來源:李健)

預計本次成果将能實作以下應用:

其一,可用于自動駕駛。

在自動駕駛領域,本次成果可以精确地識别和跟蹤道路上的物體(如其他車輛、行人、障礙物)。

同時,這項技術能夠提升自動駕駛系統對周圍環境的了解能力,特别是在複雜的交通情況下,能夠更好地預測其他物體的行為和可能的變化。

其二,可用于視覺監控。

在安全監控系統中,本次成果能夠準确地分割和跟蹤視訊中的每個物體,對于事件檢測、行為分析和異常識别等任務非常有用。也就是說,這種技術可以使監控系統更加智能,有效地提高公共安全。

其三,可用于機器人技術。

在機器人領域,本次成果可以提高對于複雜環境的了解和物體的操控能力,能讓機器人更好地了解周圍環境,進行有效的規劃和互動,特别是在執行搜尋、抓取和搬運等任務時。

其四,可用于互動娛樂和遊戲。

在遊戲設計和互動娛樂産品中,本次成果可以提供具有真實實體行為的虛拟環境和對象,進而極大地提高使用者體體驗。

其五,可用于影像分析。

在醫學影響和化學影像處理領域,精确地識别和跟蹤圖像中的特定結構(如惡性良性腫瘤、器官等),對于疾病診斷和治療規劃非常重要,而本次成果恰好可以起到提高醫學影像分析的準确性和效率的作用。

人大解決複雜時空場景的物體分割難題,能用于自動駕駛和影像分析

圖丨實驗結果(來源:arXiv)

此外,核心圍繞“時空槽注意力機制”,基于人類直覺實體的基礎原理,該團隊通過以物體為中心的視角,建構了隐空間時序預測模型,進一步了解并預測了實體世界中的動态變化。

同時,他們結合先進的大模型和擴散生成模型,建構了一個面向實體場景的、更加符合實體規律的視訊生成多模态基礎模型。

研究中,他們還将通用先驗實體知識,嵌入現階段模型的有效機制,提高了隐空間特征序列預測的一緻性。

這一政策不僅增強了視訊幀預測的連貫性,還確定了生成的視訊滿足基本實體規律,進而提升了視訊真實性。

進一步地,課題組建構了一套基于符号學習和推理的隐空間序列預測模型與方法。該模型能夠聯合時空槽注意力機制,針對複雜實體場景實作了更魯棒的視訊生成與預測。

通過這一系列的創新方法,也為實作複雜實體場景下真實感視訊的生成,提供了強有力的技術支援。

參考資料:

1.https://arxiv.org/pdf/2403.15245.pdf

排版:劉雅坤

繼續閱讀