編輯：David

【新智元導讀】MIT強化學習新算法，根據監督稀疏程度自動調整AI智能體「好奇心」，高低難度任務通吃。

人人都遇見過一個古老的難題。

周五晚上，你正試圖挑選一家餐廳吃飯，但沒有預定。你應該去你最愛的那家人滿為患的餐廳排隊等位，還是嘗試一家新餐廳，希望能發現一些更好吃的驚喜？

後者确實有可能帶來驚喜，但這種好奇心驅動的行為是有風險的：你去嘗試的那家新餐廳的東西可能會更難吃。

好奇心作為AI探索世界的驅動力，執行個體已經不勝枚舉了——自主導航、機器人決策、優化檢測結果等等。

在某些情況下，機器使用「強化學習」來完成一個目标，在這一過程中，AI智能體從被獎勵的好行為和被懲罰的壞行為中反複學習。

就像人類在選擇餐廳時面臨的困境一樣，這些智能體也在努力平衡發現更好的行動（探索）的時間和采取過去導緻高回報的行動（利用）的時間。

太強的好奇心會分散智能體的注意力，無法做出有利的決定，而好奇心太弱，則意味着智能體永遠無法發現有利的決定。

為了追求使AI智能體具有「恰到好處」的好奇心，來自麻省理工學院計算機科學與AI實驗室（CSAIL）的研究人員創造了一種算法，克服了AI過于「好奇」和被手頭的任務分散注意力的問題。

他們研究出的算法會在需要時自動增加好奇心，如果智能體從環境中得到足夠的監督，已經知道該怎麼做，則降低好奇心。

論文連結：https://williamd4112.github.io/pubs/neurips22_eipo.pdf

經過60多個視訊遊戲的測試，該算法能夠在不同難度的探索任務中取得成功，而以前的算法隻能單獨解決簡單或困難難度。這意味着AI智能體可以使用更少的資料來學習決策規則，達到激勵最大化。

「如果你很好地掌握了探索-開發之間權衡，就能更快地學習正确的決策規則，而任何不足之處都需要大量的資料，這可能意味着産生的結果是非最優的醫療方案，網站的利潤下降，以及機器人沒有學會做正确的事情。」

該研究帶頭人之一、麻省理工學院教授兼Improbable AI實驗室主任Pulkit Agrawal說。

好奇心，不隻害死貓！

我們似乎很難從心理學角度解釋好奇心的心理基礎，對于這種尋求挑戰的行為的潛在神經學原理，我們一直沒有深入了解。

有了強化學習，這個過程在情感上被「修剪」了，将這個問題剝離至最基本的層面，但在技術實作上卻相當複雜。

從本質上講，智能體隻應該在沒有足夠的監督來嘗試不同的事情時才會有好奇心，如果有監督，它必須調整好奇心，降低好奇心。

在測試遊戲任務中，很大一部分是小智能體在環境中跑來跑去尋找獎勵，并執行一長串的行動來實作一些目标，這似乎是研究人員算法的邏輯測試平台。

在《馬裡奧賽車》和《蒙特祖瑪的複仇》等遊戲實驗中，研究人員将上述遊戲分為兩個不同類别：

一種監督稀疏的環境，智能體獲得的指導較少，也就是「困難」的探索遊戲；另一種是監督更密集的環境，即「簡單」的探索遊戲。

假設在《馬裡奧賽車》中，隻删除所有的獎勵，你不知道什麼時候敵人殺了你。當你收集一個硬币或跳過管道時，不會得到任何獎勵。智能體隻有在最後才被告知其表現如何。這就屬于稀疏監督環境，也就是困難任務。在這種任務中，激勵好奇心的算法表現非常好。

而如果智能體處于密集監督環境，也就是說，跳過管道、收集硬币和殺死敵人都有獎勵，那麼，表現最好的就是完全沒有好奇心的算法，因為經常得到獎勵，隻要照着走流程就行了，不需要額外探索就能收獲頗豐。

這裡如果使用激勵好奇心的算法，學習速度會很慢。

因為好奇心強的智能體，可能會試圖以不同的方式快速奔跑，到處亂逛，走遍遊戲的每一個角落。這些事情都很有趣，但并不能幫助智能體在遊戲中取得成功，獲得獎勵。

如前文所言，在強化學習中，一般用激勵好奇心和抑制好奇心的算法，來分别對應監督稀疏（困難）和監督密集（簡單）任務，不能混用。

這一次，MIT團隊的新算法始終表現良好，無論是在什麼環境中。

未來的工作可能涉及回到多年來令心理學家高興和困擾的探索：好奇心的适當衡量标準--沒有人真正知道從數學上定義好奇心的正确方法。

MIT CSAIL博士生Zhang Weihong說：

通過改進探索算法，為你感興趣的問題調整算法。我們需要好奇心來解決極具挑戰性的問題，但在某些問題上，好奇心會降低性能。我們的算法消除了調整「探索和利用」的平衡負擔問題。

以前要花一個星期來解決的問題，新算法可以在幾個小時内就得到滿意的結果。

他與麻省理工學院CSAIL工程碩士、22歲的Eric Chen是關于這項工作的新論文的共同作者。

卡内基梅隆大學的教師Deepak Pathak說：

「像好奇心這樣的内在獎勵機制，是引導智能體發現有用的多樣化行為的基礎，但這不應該以在給定的任務中做得好為代價。這是AI中的一個重要問題，這篇論文提供了一種平衡這種權衡的方法。看看這種方法如何從遊戲擴充到現實世界的機器人智能體上，将是很有趣的一件事。」

加州大學伯克利分校心理學特聘教授和哲學副教授Alison Gopnik指出，目前AI和認知科學的最大挑戰之一，就是如何平衡「探索和利用」，前者是對資訊的搜尋，後者是對獎勵的搜尋。

「這篇論文使用了令人印象深刻的新技術來自動完成這一工作，設計了一個能夠系統地平衡對世界的好奇心和對獎勵的渴望的智能體，讓AI智能體朝着像真正的兒童一樣聰明的方向，邁出了重要一步。」他說。

參考資料：

https://techxplore.com/news/2022-11-bad-ai-curious.html

https://www.csail.mit.edu/news/ensuring-ai-works-right-dose-curiosity

AI好奇心，不隻害死貓！MIT強化學習新算法，智能體這回難易通吃

【新智元導讀】MIT強化學習新算法，根據監督稀疏程度自動調整AI智能體「好奇心」，高低難度任務通吃。

繼續閱讀

THE WISDOM OF THE CROWD: RELIABLE DEEP REINFORCEMENT LEARNING THROUGH ENSEMBLES OF Q--FUNCTIONS

THE BODY IS NOT A GIVEN: JOINT AGENT POLICY LEARNING AND MORPHOLOGY EVOLUTION

Temporal Difference Variational Auto-Encoder文章動機：

TARMAC: TARGETED MULTI-AGENT COMMUNICATION（TARMAC：目标多代理通信）

今天來給大家介紹一下基于強化學習的時間行為檢測自适應模型

利用DQN解決Gym庫的CartPole問題

作業系統筆記（一）計算機系統概述一、作業系統的基本概念二、作業系統的發展與分類三、作業系統的運作環境和體系結構四、異常和中斷五、系統調用

AlphaGo Zero是如何工作的？——AlphaGo Zero背後的強化學習算法原理

考證大全 | 證券從業資格考試

敲黑闆！2021年證券從業考試考點預測

2021年銀行從業考試考情介紹,果斷收藏!

證券從業合格證書什麼時候列印？有哪些注意事項？

【幹貨滿滿】初級銀行從業考試《個人理财》重點梳理

2020年經濟師考試，難嗎？

MBA提前面試純幹貨分享

MBA值得學麼