天天看點

【越好奇,越強大】伯克利研究人員使用内在激勵,教AI學會好奇

你可能不記得第一次玩“超級馬裡奧兄弟”是什麼感覺,但試着想像一下:藍色的天空,棋盤石的地面,還有一個蹲着的紅色男人在靜靜等待。他面向右方,你把他推到那個方向。再多走幾步,就會看到一排磚塊在頭頂盤旋,看起來像是一個憤怒的蘑菇。這個人跳起來,他的四像素拳頭指向天空。

對于20世紀80年代長大的人來說,這個場景聽起來很熟悉,但是你可以在Pulkit Agrawal的YouTube頻道上看到一個更年輕的玩家。 Agrawal是加利福尼亞大學伯克利分校的一位計算機科學研究人員,正在研究天生的好奇心如何使學習新内容更加高效,比如第一次玩超級馬裡奧兄弟。

然而,Agrawal視訊中的新手玩家并不是人類。像馬裡奧一樣,它隻是一個軟體。但這個軟體配備了Agrawal和同僚Deepak Pathak,Alexei A. Efros和Trevor Darrell在伯克利人工智能研究實驗室設計的一個實驗性的機器學習算法,這個算法有一個驚人的目的:讓機器具有好奇心。

【越好奇,越強大】伯克利研究人員使用内在激勵,教AI學會好奇

Agrawal說:“你可以把好奇心看作是内部産生的一種獎勵,以便更多地探索它的世界。”這種内部産生的獎勵信号在認知心理學中被稱為“内在激勵”。

人類也會回應外在激勵。計算機科學家應用強化學習來訓練算法:軟體在執行所需任務時獲得“分數”,而懲罰遵循不想要的行為。

但是這種“胡蘿蔔加大棒”式的機器學習方法有其局限性,AI研究人員開始将内在激勵視為軟體代理的一個重要組成部分,使機器更像人類和動物,可以高效而靈活地學習。這種在人工智能中使用内在激勵的方法,靈感源于心理學和神經生物學。

雖然代理程式現在僅僅在視訊遊戲上接受訓練,但是“開發有好奇心的AI”這件事意義非常重大。“選擇你最喜歡的應用領域,我會給你一個例子,”伯克利人工智能實驗室的聯合主任Darrell說。“在家裡,我們想讓機器做家務。我們需要能夠在複雜路況中自動駕駛的車輛,以及可以探索建築物的救援機器人,并找到需要救援的人員。在所有這些情況下,我們試圖弄清楚這個非常困難的問題:如何制造一台可以弄清楚自己任務的機器?

獎勵機制的問題

強化學習是幫助Google的AlphaGo擊敗頂尖人類棋手的重要技術。在特定領域使用強化學習的細節很複雜,但總體思路很簡單:給予一個學習算法(或“代理”)一個獎勵函數,即一個數學定義的信号來尋找和最大化。然後把它放在一個環境中,真實或虛拟環境皆可。當代理在環境中運作時,增加獎勵函數價值的行為将得到加強。重複多次後,算法學會了使獎勵功能最大化的行為模式。理想情況下,這些模式将使算法達到理想的最終狀态(如“在圍棋中取勝”),程式員或工程師不必手動編碼代理程式需要采取的每一步。

換句話說,獎勵功能就是把強化學習驅動的代理鎖定在目标上的引導系統。目标的定義越清楚,代理人的表現就越好。這就是為什麼他們當中的很多人目前都是在老的視訊遊戲上進行測試,而這些視訊遊戲通常會提供基于積分的簡單的外在獎勵計劃。 塊狀的二維圖形也很有用:因為遊戲相對比較簡單,研究人員可以快速運作和重複實驗。

然而“在現實世界中,這沒有任何意義,” Agrawal說。計算機科學家希望讓他們的創作能夠探索新的環境,而不是預先加載可量化的目标。

此外,如果環境不能快速和規律地提供外部獎勵,“算法就不知道是否做對或錯,”Houthooft說。

而且,即使精心定義的外在獎勵功能可以指導算法展示出令人印象深刻的智能行為,如果不經過大規模的修改,也無法輕易推廣到其他領域。

研究人員想要創造的是有内在自我驅動能力的AI,而不是依賴人類指令的僞智能。Agrawal說,“人類有一個内在的自我獎勵機制。世界上并不存在一個神靈告訴你,做這個就會‘加一分’,做那個就‘減一分’。”

【越好奇,越強大】伯克利研究人員使用内在激勵,教AI學會好奇

加州大學伯克利分校的計算機科學家Pulkit Agrawal。

好奇心至關重要

伯克利人工智能實驗室的研究人員Pathak認為,“好奇心這個詞隻不過是說‘一種能夠引導代理在噪聲環境中高效探索環境的模型’”。

但在2016年,Pathak曾對強化學習的稀疏獎勵問題感興趣。以強化學習技術為基礎的深度學習最近在玩簡單的得分驅動的Atari遊戲(例如Space Invaders和Breakout)方面取得了重大進展。但像超級馬裡奧兄弟等稍微複雜一些的遊戲,仍然超出了AI的能力範圍。

【越好奇,越強大】伯克利研究人員使用内在激勵,教AI學會好奇

加州大學伯克利分校的計算機科學家Deepak Pathak

Pathak、Agrawal、Darrell、Efros四人合作,給學習代理配備了他們所稱的内在好奇子產品( intrinsic curiosity module ICM),這一子產品的設計意圖是在代理沒有失去控制的情況下推進遊戲。畢竟,算法完全不了解如何玩超級馬裡奧兄弟遊戲。

事實上,Agrawal和Pathak分别從伯克利和麻省理工學院的發展心理學家Alison Gopnik和Laura Schulz的作品中得到了靈感,他們表明,嬰幼兒自然而然地被吸引到最令他們驚訝的物體上,而不是用于實作某些外在目标的對象。 Agrawal說:“解釋這種對兒童的好奇心的一種方式就是,兒童建立了他們對世界了解的模型,然後進行實驗,以更多地了解他們不知道的東西。”

在Pathak和Agrawal的例子中(這種由驚訝驅動的機器的好奇心),AI首先用數學方法表示目前超級馬裡奧兄弟的視訊架構。然後AI預測遊戲看起來有幾個架構。目前深度學習可以做到這樣。但是Pathak和Agrawal的ICM做了更多的事情。它産生了一個内在的獎勵信号,這個信号是去證明預測模型的錯誤。錯誤率越高,(或者說,越驚訝),其内在獎勵函數的值越高。換句話說,“驚訝”等同于“注意到事情沒有如預期般發生” ,那麼就是錯了,Pathak和Agrawal的系統會因驚訝而獲得獎勵。

這個内部産生的信号将代理引向遊戲中未開發的狀态,它對尚未知道的東西感到好奇。而且,随着代理不斷學習,預測模型的錯誤率越來越低,ICM的獎勵信号就會減少。這時代理就會通過探索别的令它吃驚的情況,來使收到的獎勵信号最大化。Pathak說:“這使探索的效率加快。”

這個回報回路還可以讓AI快速引導自己脫離幾乎空白的無知狀态。起初,代理對螢幕上的任何基本動作感到好奇。然而,不斷的提高,會産生各種不可預測的影響:有時候馬裡奧會直線上升,有時他短暫跳,其他時間跳遠。所有這些結果在代理的預測模型中都記錄為錯誤,進而收到來自ICM的獎勵信号,這使得代理不斷嘗試該行為。向右移動具有類似的好奇吸引效果。在Agrawal的示範視訊中可以清楚地看到向上和向右移動的沖動:在幾秒鐘内,由AI控制的Mario開始像一個多動的幼兒一樣向右跳躍,導緻越來越不可預知的效果(如碰到懸停的磚塊,不小心壓扁了一個蘑菇),所有這一切都推動了進一步的學習。

避免新奇性陷阱 

自20世紀90年代初以來,好奇心一直是人工智能研究的主題。一種程式化定義好奇心的方式是:代理程式被程式設計為探索環境中不熟悉的狀态。這個廣義的定義似乎對好奇心的經驗有一個直覺的了解,但在實踐中,它可能導緻代理陷入滿足其内在激勵的狀态,但阻止任何進一步的探索。

例如,想象一個電視螢幕上隻顯示靜态的東西。這會很快引起一個純粹尋求新奇的代理的好奇心,因為從定義上來說,一個随機閃爍的視覺噪聲的方塊從一個時刻到另一個時刻是完全不可預測的。由于每種靜态模式對代理來說都是完全新穎的,是以它的内在獎勵功能将確定它永遠不會停止關注環境中這一單一無用的特征。它被困住了。

事實證明,這種毫無意義的新奇事物在虛拟或實體的豐富特色環境中無處不在 ,人工智能必須學會應對,才能變得真正有用。

Agrawal 和Pathak 不得不想出一個方法來保持代理好奇,但不能太好奇。使用深度學習和計算機視覺對代理的視野進行全面的時間整體模組化使得它很難過濾潛在幹擾。計算成本也很昂貴。

是以,伯克利的研究人員将代理設計為從原始像素的視覺輸入轉化為現實的抽象版本。這種抽象隻包含可能影響代理(或代理可以影響)的環境特征。實質上,如果代理人不能與某個事物互動,那麼它就不會被首先感覺到。使用這個精簡的“特征空間”(相對于未處理的“像素空間”而言)不僅簡化了代理的學習過程,而且巧妙地避開了新奇性陷阱。

人造好奇心的局限性

Darrell 承認,這種好奇心模式并不完美。他說:“這個系統知道什麼是相關的,但是不能保證它總能正确地做到。”事實上,代理程式在達到局部最佳狀态之前,隻能通過超級馬裡奧兄弟的第一級。Agrawal說:“代理必須跨越一個巨大的間隙,這需要以特定順序執行15或16個連續的行動。因為它永遠無法跳過這個縫隙,每次去那裡都會死亡。而且,當它學會準确地預測這個結果時,就不會再有好奇心繼續在遊戲中前進了。” 

【越好奇,越強大】伯克利研究人員使用内在激勵,教AI學會好奇

伯克利人工智能研究實驗室的聯合主任Trevor Darrell。

人造好奇心的問題在于,即使是研究内在激勵多年的研究人員仍然無法精确定義好奇心是什麼。上司明尼蘇達大學計算機認知與行動實驗室的神經科學家保羅·施拉特(Paul Schrater)表示,伯克利模型“是短期内讓代理自動學習新環境的最明智之舉”,但他認為與“運動的學習和控制”相比,“直覺的好奇心”更少。他說:“它控制着認知之下的東西,更多的是控制身體的細節。”

法國Inria公司研究總監Pierre-Yves Oudeyer表示,好奇心也許還需要代理至少在環境中有一定的展現才能具備真正的意義。 Oudeyer十多年來一直在創造好奇心的計算模型。他指出,世界是如此之大而豐富,以至于代理可以在任何地方找到驚喜。但是這不夠。 Oudeyer說:“如果你有一個無實體的代理利用好奇心去探索一個大的特征空間,那麼它的行為最終會看起來像随機探索,因為它沒有任何行動上的限制。”

但是并不是所有實體化的代理都需要内在激勵,正如工業機器人的曆史所表明的那樣。對于更簡單的任務,比方說,使用機器人将貨物從一個地方送到另一個地方 ,增加好奇并不是明智之舉。

原文釋出時間為:2017-11-20

本文作者:Cecilia

本文來自雲栖社群合作夥伴新智元,了解相關資訊可以關注“AI_era”微信公衆号

繼續閱讀