天天看點

教人工智能以“我”的視角看世界

世界是多元的,生活中同樣的景物在不同的視角下會呈現出不同的形态。若要讓人工智能更像人類,就要讓其視角更接近人。從人類的角度觀察環境,人工智能或許會看到一個新的天地。

近日,由臉譜(Facebook)和9個國家的13所大學及實驗室組成的學術聯盟宣布,11月将開源讓人工智能擁有以第一人稱視角與世界進行互動能力的Ego4D(Egocentric 4D Perception)項目。這個項目包含超過3025小時的第一人稱視訊,涉及來自73個城市的700多名參與者的日常生活。這些視訊将有助于使人工智能認知世界的方式更加趨向于人類。

那麼,目前人工智能主要通過哪種視角認知世界,不同視角對于人工智能認知環境會産生哪些影響?人工智能感覺環境、認識世界主要通過哪些技術?想要認知世界的方式更像人類,人工智能還需突破哪些瓶頸?

人工智能通常采用第三人稱視角

“要令人工智能系統如同人類一樣與世界互動,人工智能領域需要發展出一種全新的第一人稱感覺範式。這意味着人工智能在實時運動、互動時,要以第一人稱視角了解日常活動。”臉譜首席研究科學家克裡斯汀·格勞曼曾言。

今天的計算機視覺系統大多是利用數百萬張以第三人稱視角拍攝的照片和視訊進行學習的。“為了建構新的感覺範式,我們需要教會人工智能像人類一樣,從第一人稱角度即‘我’的視角,沉浸式觀察了解世界,并與之互動,這種認知方式也可以稱為自我中心認知。”10月26日,遠望智庫人工智能事業部部長、圖靈機器人首席戰略官譚茗洲在接受科技日報記者采訪時指出。

如何了解人工智能的第一人稱和第三人稱視角?譚茗洲解釋道:“第一人稱視角代入感很強,比如在玩遊戲時,你如身臨其境,看到的遊戲畫面就是你真實世界看到的畫面。第三人稱視角又叫作上帝視角,仿佛你一直飄在角色身邊一樣,如影随形,可以看到角色本身及周圍的情況。例如,第三人稱視角下藏在掩體後可以看到掩體前面的情況;而在第一人稱視角下,囿于視角範圍,在掩體後則隻能看到掩體本身。”

“再如自動駕駛,其視覺系統如果隻從旁觀者的(如車的角度)收集資料,即便通過數十萬個基于旁觀視角看到的車輛行進圖像或視訊進行訓練,人工智能可能依然不知道如何去做,很難達到現在的自動駕駛水準。因為這種旁觀者的視角與坐在車内方向盤前的視角很不一樣,第一人稱視角下,真人駕駛員做出的反應還包括點刹、猛刹等行為,這些資料是從旁觀者視角無法搜集的。”譚茗洲進一步說。

“以前人工智能界很少以第一人稱視角收集資料集,這個項目彌補了人工智能視角體系的短闆。未來AR、VR的發展十分重要,如果人工智能可以從‘我’出發,以第一人稱視角來觀察了解世界,将開啟人類和人工智能沉浸式體驗的新時代。”譚茗洲指出。

克裡斯汀·格勞曼也表示:“下一代人工智能系統需要從一種完全不同的資料中學習,即從事件中心視覺而不是邊線視覺展示世界的視訊中學習。”

建立真實世界資料集

目前讓人工智能感覺環境、認識世界,建立類人化的認知體系主要通過什麼“抓手”展開?

業内專家指出,曆史證明,基準和資料集是人工智能行業創新的關鍵催化劑。今天,幾乎可以識别圖像中任何對象的計算機視覺系統都是建立在資料集和基準之上的,資料集和基準為研究人員提供了一個研究真實世界圖像的實驗台。

“臉譜日前釋出的這個項目,其實本身就是建立一個資料集,旨在訓練人工智能模型更像人類。其開發了5個圍繞第一人稱視覺體驗的基準挑戰,即把第一人稱視角拆解成5個目标,開展相應的訓練集競賽。”譚茗洲指出。

Ego4D的5個基準是:情景記憶,什麼時候發生?預測,我接下來可能會做什麼?手—物互動,我在做什麼?視聽日記,誰在什麼時候說了什麼?社互動動,誰在和誰互動?

譚茗洲強調,上述基準測試将促進開發人工智能助手所必需的構模組化塊的研究。人工智能助手不僅可以了解現實世界中的指令并與之互動,同時可以在元宇宙中實作對元宇宙中指令的了解和互動。

為了建立這個資料集,與臉譜合作的大學團隊向研究參與者分發了現成的頭戴式攝像頭和其他可穿戴傳感器,以便捕獲第一人稱的、未經編輯的日常生活視訊。項目的重點是參與者從日常場景中捕獲視訊,比如購物、烹饪、邊玩遊戲邊聊天,以及與家人和朋友進行其他團體活動等。

視訊采集了攝像頭佩戴者在特定環境中選擇注視的對象,以及攝像頭佩戴者如何從自我中心角度與人和物互動。到目前為止,攝像頭佩戴者已經執行了數百項活動,并與數百種不同的對象進行互動,項目的所有資料都是公開的。

“臉譜這項研究能夠更快地推動人工智能領域自我中心認知研究的進步。這将對我們未來的生活、工作和娛樂方式産生積極影響。”譚茗洲表示。

讓人工智能認知能力更像人

人工智能發展的終極目标是讓人類受益,讓我們能夠應對現實世界中日益複雜的挑戰。想象一下,通過AR裝置能夠在琴、棋、書、畫課堂中準确顯示如何彈琴、下棋、握筆和勾勒;形象生動地指導家庭主婦根據食譜烘焙燒烤、烹饪菜肴;健忘的老人借以眼前全息圖的幫助回憶過去……

臉譜強調,希望通過Ego4D項目為學術界和行業專家開辟一條全新的道路,幫助建構更智能、更靈活和更具互動性的計算機視覺系統。随着人工智能越加深入了解人類的日常生活方式,相信将這個項目能以前所未有的方式對人工智能的體驗進行情境化和個性化。然而,目前的研究還隻是觸及自我中心認知的皮毛。

如何才能讓人工智能的認知能力更像人類?“首先是注意力,人工智能的注意力機制更接近直覺,而人類的注意力是有選擇性的。目前來說,大部分人工智能注意力機制,是在訓練過程中重複告訴人工智能應該注意哪些地方,哪些東西是有關聯的。未來也許可以讓參與試驗的人戴上特殊的可以捕捉眼球關注點的裝置,來進一步收集相關資料。”譚茗洲指出。

“第二,還需要以事件和行為的關聯為研究中心,定義人工智能的行為。一件事情的發生包括多個行為,要用人類回報的方式訓練人工智能系統,使人工智能的行為與我們的意圖一緻。”譚茗洲進一步表示。

譚茗洲強調:“此外,聽覺和視覺、語言和行為等之間還需要配合、響應、關聯,這就要建構多模态互動模型,縱深研究視角為何會聚焦投向并與意圖識别相結合,形成與行為之間關聯的機制等。”

華 淩

來源: 科技日報

繼續閱讀