天天看點

AI 學會從視訊中預測人類行為

哥倫比亞工程研究人員開發了計算機視覺算法,用于預測視訊中的人類互動和肢體語言,這種能力可以應用于輔助技術、自動駕駛汽車和協作機器人。

AI 學會從視訊中預測人類行為

人工智能模型可以識别未來何時不确定,并能夠“對沖賭注”,就像一個人會做的那樣。例如,當模型發現無法預測兩個人是要擁抱還是握手時,它會預測他們會互相問候。《蘋果酒屋規則》(上)和芒福德(下)的劇照紐約州紐約市 - 2021 年 6 月 28 日 - 根據某人的肢體語言預測某人接下來将要做什麼對人類來說是很自然的,但對計算機而言則不然。當我們遇到另一個人時,他們可能會向我們打招呼、握手甚至是撞拳。我們可能不知道會使用哪種手勢,但我們可以閱讀情況并做出适當的反應。

在一項新研究中,哥倫比亞工程學院的研究人員推出了一種計算機視覺技術,通過利用人、動物和物體之間的更高層次的關聯,讓機器對接下來會發生的事情有更直覺的感覺。

哥倫比亞大學計算機科學助理教授卡爾·馮德裡克( Carl Vondrick ) 指導了這項研究,他說:“我們的算法是朝着機器能夠對人類行為做出更好預測,進而更好地協調他們的行為與我們的行為邁出的一步。” 2021 年 6 月 24 日舉行的計算機視覺和模式識别國際會議。 “我們的結果為人機協作、自動駕駛汽車和輔助技術開辟了許多可能性。”

研究人員說,這是迄今為止預測未來幾分鐘内視訊動作事件的最準确方法。在分析了數千小時的電影、體育比賽和“辦公室”等節目後,該系統學會了預測數百種活動,從握手到拳頭碰撞。當它無法預測具體動作時,它會找到将它們聯系起來的更進階别的概念,在這種情況下,就是“問候”這個詞。

過去在預測機器學習方面的嘗試,包括團隊的嘗試,都集中在一次隻預測一個動作。算法決定是否将動作歸類為擁抱、擊掌、握手,甚至是“忽略”等非動作。但是當不确定性很高時,大多數機器學習模型都無法找到可能選項之間的共性。

哥倫比亞工程博士生 Didac Suris 和 Ruoshi Liu 決定從不同的角度看待更長期的預測問題。“并非未來的一切都是可以預測的,”該論文的共同主要作者蘇裡斯說。“當一個人無法準确預見會發生什麼時,他們會謹慎行事并在更高的抽象層次上進行預測。我們的算法是第一個學習這種抽象推理未來事件能力的算法。”

AI 模型可以識别未來何時不确定,并能夠像一個人那樣“對沖賭注”。

蘇裡斯和劉不得不重新審視可追溯到古希臘的數學問題。在高中,學生們學習了熟悉而直覺的幾何規則——直線是筆直的,平行線永遠不會交叉。大多數機器學習系統也遵守這些規則。但是,其他幾何圖形具有奇異的、違反直覺的特性。直線彎曲,三角形凸出。Suris 和 Liu 使用這些不尋常的幾何形狀來建構 AI 模型,這些模型可以組織進階概念并預測未來的人類行為。

“預測是人類智慧的基礎上,說:”奧德奧利瓦,在麻省理工學院進階研究科學家和麻省理工學院,IBM沃森人工智能實驗室的副主任,在人工智能和人類認知的專家誰沒有參與這項研究. “機器會犯人類永遠不會犯的錯誤,因為它們缺乏我們抽象推理的能力。這項工作是彌合這一技術差距的關鍵一步。”

研究人員開發的數學架構使機器能夠根據事件在未來的可預測性來組織事件。例如,我們知道遊泳和跑步都是鍛煉的形式。新技術學習如何自行對這些活動進行分類。系統意識到不确定性,在确定時提供更具體的操作,在不确定時提供更通用的預測。

研究人員說,這項技術可以讓計算機更接近于能夠評估情況并做出細微的決定,而不是預先程式設計的動作。該論文的共同主要作者劉說,這是在人與計算機之間建立信任的關鍵一步。“信任來自機器人真正了解人的感覺,”他解釋道。“如果機器能夠了解和預測我們的行為,計算機将能夠無縫地協助人們進行日常活動。”

Vondrick 說,雖然新算法對基準任務的預測比以前的方法更準确,但接下來的步驟是驗證它在實驗室外是否有效。研究人員說,如果該系統可以在不同的環境中工作,那麼部署機器和機器人的可能性就會很大,這些機器和機器人可能會改善我們的安全、健康和保障。該小組計劃繼續使用更大的資料集和計算機以及其他形式的幾何來提高算法的性能。

“人類的行為往往令人驚訝,”馮德裡克評論道。“我們的算法使機器能夠更好地預測下一步要做什麼。”