天天看點

Neuron 2020 | 深度強化學習和神經科學

今天給大家介紹DeepMind人工智能研究團隊負責人Matthew Botvinick在Neuron上發表的文章“Deep Reinforcement Learning and Its Neuroscientific Implications”。作者在文章中提供了深度強化學習(RL)的高層次介紹,讨論了深度RL在神經科學中的應用,并調查了它對大腦和行為研究的更廣泛的影響。

Neuron 2020 | 深度強化學習和神經科學

1

研究背景

機器學習和人工智能的進展為深度學習提供了更強大的計算功能,允許人們将有監督的深度學習擴充到更有多的資料集和任務中,這恢複了人們對深度學習的興趣。在最近幾年,人們利用深度學習對視覺、導航和認知控制等大腦功能進行模組化,然而人們對人工智能研究中更新穎的發展方向——深度RL的關注較少,深度RL将深度學習與已經對神經科學研究産生了重大影響RL計算架構結合在一起,但是這種結合也帶來了各種在深度學習或RL中都不會出現的計算問題,其中許多以有趣的方式與大腦功能的關鍵方面建立了聯系,為神經科學研究提供了一系列迄今為止很少探索的機會,該綜述旨在呼籲人們給予對神經科學有重要意義的深度強化學習更多的關注。

2

深度強化學習

RL問題的解決方案的基礎都是如何表示環境狀态,為了實作表示的跨狀态泛化,人們使用函數逼近。由于RL産生智能、類人行為所需的是某種形式的非線性函數逼近,RL研究緻力于尋找可行的非線性函數逼近方法,希望使用深層神經網絡執行自适應非線性函數逼近。RL的結構如圖1A所示。

“深度學習”是指在深度神經網絡中調整連接配接權值以建立所需的輸入輸出映射的問題,最有效和最廣泛使用的是解決方法是反向傳播,深度學習的結構如圖1B所示。直到最近,反向傳播才幾乎隻用于有監督學習或無監督學習,但RL不同于大多數傳統的有監督和無監督學習問題,RL的目标行為或輸出涉及多步決策過程而不是單個輸入-輸出映射問題,是以将深度學習應用于RL一直是一個難以處理的問題。

深度RL通常使用深度神經網絡來計算從感覺輸入到動作值或動作機率的非線性映射,以及通過反向傳播來更新該網絡權重的RL信号。深度RL結構如圖1C所示,經典的TD-Gammon系統将神經網絡與RL結合在一起,學習如何與頂級人類玩家競争性地玩步步高,但其方法在其他領域卻産生了結果卻不夠好,主要問題是不穩定。後來Deep Q Network(DQN)的出現使得深度RL的工作以驚人的速度發展和擴充。下文将更詳細地回顧其中的一些進展,讨論深度RL對神經科學可能産生的影響。

Neuron 2020 | 深度強化學習和神經科學

圖1  RL、深度學習和深度RL結構

3

深度RL與神經科學

深度神經網絡已被證明是一種出色的神經表示模型,然而它大多采用了監督訓練,這對了解動機、目标導向行為的大圖景問題幾乎沒有直接的影響;另外,RL為學習和決策的神經機制提供了強有力的理論,但RL本身在思考表示問題方面很少為神經科學提供指導。深度RL通過展示RL和深度學習如何融合在一起,為神經科學提供了新的東西。深度學習着重于如何學習表示法,而RL着重于了解獎勵如何指導學習,當深度學習和RL內建在一起時,産生一些新的計算現象。綜合架構的新方面又可轉化為神經科學的解釋原則、假設和可用模型。下一部分将探讨一些迄今為止已經利用深層RL進行的神經科學研究,然後再轉向考慮深度RL為神經科學研究提出的一些更廣泛的問題。

4

先進研究

目前很少有研究将深度RL模型直接應用于神經科學資料。在少數情況下,研究人員以類似于監督深度學習和RL先前應用程式的方式部署了深度RL。Banino等人的工作結合了有監督的深度學習和深度RL方法,以展示類似于在内嗅皮層中看到的網格狀表示如何增強目标導向的導航性能。最近的研究集中在新興神經科學意義上,Wang等人研究了循環深度RL系統的行為,并描述了一種新穎的meta-RL效果,展示了這種meta-RL效應如何可用于解釋多巴胺和前額葉皮層功能的神經科學研究中廣泛的令人費解的發現。Dabney等人利用了分布式RL進行了此類研究,将RPE擴充為向量,這種修改可以顯着提高RL在各種任務中的速度和結果,并且在深層RL中觀察到某些線上性RL等簡單形式中觀察不到的東西。

5

下一步研究的主題

這節将概述深度RL可能為神經科學研究提供影響的六個領域,幫助研究人員了解未來的主要機遇是什麼。

5.1 表示學習

表示問題是神經科學的中心問題,深度RL提供了通過獎勵方式和任務需求來塑造表示的模型。深度RL系統的出現讓人們意識到RL塑造的表示形式的兩個嚴重缺陷:(1)與任務相關的獎勵通常很少;(2)第二個問題是過拟合。為了解決這些問題,實踐中通常會在無監督學習或自監督學習的基礎上補充深度RL,這種方式産生的表示形式有可能支援轉移到其他任務,這與現有的神經科學工作相一緻。深度RL中的另一個問題涉及歸納偏差在塑造表示學習中的作用,最近開發的體系結構在将視覺輸入表示為包括具有重複成對關系的離散對象集時引入偏差。這些想法讓人們意識到通過将環境分解為對象來更有效地探索和學習的可能性。

5.2  基于模型的RL

RL算法的一種重要分類是“無模型”算法和“基于模型”算法,有影響力的研究重點在于兩種學習形式如何互相取舍。Deep RL為無模型與基于模型的RL之間的關系開辟了一個新的優勢,在神經科學和心理學中已經研究了兩種系統之間的相關互相作用。在某些情況下,類似于基于模型的RL的過程可能會在使用無模型RL算法訓練的系統中自發出現,在基于RL的系統中也看到了基于模型的行為,這一點值得進一步研究。

5.3 記憶

記憶是神經科學中最重要的話題之一,深度RL提供了一種計算環境,在其中可以研究記憶如何支援基于獎勵的學習和決策,這是神經科學領域日益引起人們關注的主題。為模拟人類大腦的不均勻重播,人們嘗試将非均勻性作為強化學習的一種方式。另外,大腦中的記憶維護和檢索也用于線上決策,在深度RL中,兩種記憶系統具有此功能:(1)episodic讀寫長期存儲插槽,允許相對容易地分析每個時間步長存儲和檢索的資訊,進而與神經資料進行比較;(2)循環神經網絡以類似于神經科學中稱為工作記憶維護的方式,在激活中存儲資訊。其它記憶機制包括對記憶中的資訊進行注意力和關系處理的系統以及結合并協調工作和情節性記憶的系統,這屬于深度RL和神經科學之間的交流中最可行和最有前途的主題領域之一。

5.4 探索

探索是将RL與其他标準學習問題區分開的特征之一。RL要求有必要主動尋求資訊,測試新的行為并将其與已建立的知識進行平衡,以協商探索與利用之間的權衡,在此,深度RL提供了新的計算視角和一組特定的算法思想。由于深層RL通常處理高維感覺觀察,很少會出現完全相同的觀察,是以,出現了如何量化新穎性的問題,并且提出了一系列創新技術來解決該問題。有的研究工作允許代理根據任務經驗學習或發展自己的内在動機。Meta-RL為探索提供了另一個有趣而新穎的觀點,它的結構可以适應系統所訓練的各種問題,是以探索非常有效。最後,深層RL的一些研究提出通過在分層行為空間中随機采樣來解決探索問題,這引起了一種有向、時間擴充和随機探索的形式,與動物覓食模型有着緊密聯系。

5.5認知控制和行為層次

認知神經科學很早就提出了一系列功能,統稱為“認知控制”。随着深度RL研究的發展,人們已經開始解決在多個任務或技能之間獲得能力和轉換的問題,并開發了許多與認知控制的神經科學模型有關的計算技術。另外,深度RL研究以多種方式采用了分層方案,低級系統可以自主運作,而上級系統隻能以構成RL目标一部分的損失進行幹預,這種安排與神經科學理念相呼應,自上而下控制低水準習慣的概念也已應用于運動控制任務和與經典神經科學模型進行分層控制産生共鳴的體系結構中。

5.6 社會認知

神經科學研究的一個新興領域正在研究社會認知的神經基礎。在過去的兩年中,深度RL進入了這個領域,開發了在多主體場景中并行訓練多個主體的方法。行為科學對這種情況進行了長期的研究,而多智能體深度學習RL在這一研究領域提供了新的計算杠杆作用,包括了他人心理模型或“心理理論”的神經機制。

6

挑戰與注意事項

深度RL是一個活躍的新領域,并且動物和人類行為的許多方面尚未被成功捕獲,從神經科學的角度來看,這些局限性确實指向了神經科學促進使AI研究。

深度RL中學習存在以下幾個問題:(1)緩慢性,即對大量資料的需求。深度RL系統尚未被證明能夠根據結構化推論靈活地适應人類并利用強大的背景知識,它能否彌補這一差距是一個開放問題。(2)學習如何發生的更多細節。對于深度RL系統而言這仍然是一個挑戰,在這一領域與神經科學進行對話可能對兩個領域都有利。(3)深度RL研究中普遍使用的學習算法是反向傳播,存在着關于如何在生物神經系統中實施反向傳播的問題,在面對新學習的情況下,與保持舊學習結果相關的反向傳播存在固有的困難,在某些情況下神經科學啟發新的研究。

深度RL研究與神經科學具有一緻性,也存在一些失配的方面。在深度RL研究中使用的許多技術從根本上不同于可以在生物系統中合理實施的任何技術。同時,在神經科學中很重要的許多問題并沒有在面向AI的深度RL研究中作為自然問題出現。在确定神經科學與當代深度RL研究之間進行交流的潛力時,也需要意識到潛在的差異來源。

7

總結

人工智能的最新發展為神經科學提供了許多新機會,其中深度RL對神經科學具有特别豐富的意義,但其中大多數尚未得到深入探讨。深度RL提供了一個基于代理的架構,用于研究獎勵塑造表示的方式,以及表示又如何塑造學習和決策的能力,這兩個問題共同構成了神經科學最核心的内容。人們可以通過深度RL研究增加對神經科學的投入,另外,神經科學研究也有機會影響深度RL。

繼續閱讀