天天看點

Deepmind "預測地圖"論文背後:神經科學或将助力深度學習迎來新突破

對人類神經網絡的了解越來越在左右人工智能的未來研究,連Deepmind也不例外。

2017年10月2日,《NATURE NEUROSCIENCE》發表了Deepmind的一篇《The hippocampus as a predictive map》的論文。這篇論文中,Deepmind通過對主管人類長期記憶行為的“海馬體”(hippocampus)神經元活動的研究,進一步提出了可以轉化為神經網絡架構的“預測圖”理論。

在部落格中,Deepmind這樣寫到:

“傳統觀點認為海馬體隻表示動物的現狀,尤其在執行走迷宮之類的空間任務中。這種觀點在發現齧齒動物的海馬體中的“位置細胞”後被廣泛傳播,當動物處于特定位置時,它們會選擇性地放電。雖然這個理論解釋了許多神經生理學發現,但并不完全解釋為什麼海馬體也參與其他功能,包括記憶,關系推理和決策等。 我們認為,海馬體用它們預測到的未來狀态來展示代表每一種情況。例如,如果你要下班回家(你目前的狀态),你的海馬體可能會預測你很可能很快會通勤回家,到學校接孩子,或者更長遠一點——到家了。海馬體預測這些後期狀态來表現出目前的狀态,進而傳達了對未來事件的摘要表達,也就是我們正式說的“後續表征”(Sucessor Representation)。我們認為,這種具體形式的預測圖可以讓大腦在獎勵不斷變化的環境中快速适應,而無需運作代價昂貴的未來模拟。 這一理論啟發我們在新算法中結合了基于模型的算法的靈活性和無模型算法中的高效性,由于計算隻是簡單的權重相加,是以該算法的計算效率與無模型算法相當,同時,通過分離獎勵期望與期望狀态(預測地圖),該算法可以通過簡單的更新獎勵期望值并保持狀态期望值不變,進而快速适應獎勵變化。”

(老鼠在探索方形房間時記錄下來的海馬體每個位置細胞的活動及放電率的變化)

這并不是Deepmind的第一篇神經科學用于人工智能的論文,在此之前Deepmind就表過至少兩篇創始人Hassabis為作者的神經科學論文(參見雷鋒網之前文章:《DeepMind眼中的神經科學研究:人工智能進步的另一個重要支點》),這篇文章作者中雖然不包括Hassabis,但相對于前兩篇論文更加具體,對未來的研究也更具有指導意義。

人工智能的發展與神經系統有着千絲萬縷的聯系。在1943年,Warren McCulloch和Walter Pitts的《 神經活動内在想法的邏輯演算 》第一次提出了如何讓人造神經元網絡實作邏輯功能,這也奠定了神經網絡最早的數學基礎和開啟了人們模拟人腦神經系統開發人工智能(雖然當時還沒有這個詞)的早期嘗試。

模仿人類神經系統的問題是:人類大腦神經系統實在太複雜了。在人類大腦神經系統中包含10^11(10的11次方)的神經元,即便現在也難以模拟。在1958年,Frank Rosenblatt通過解剖大鼠的大腦釋出了一個模仿神經元的感覺機,當時有研究者認為,隻要神經元足夠多、網絡連接配接足夠複雜,感覺機就至少可以模拟部分人類智力,但在1969年,Marvin Minsky和Seymour Papert證明了感覺機隻能解決線性問題,還揭露了關于多層感覺器的缺陷,這使得人工神經網絡研究在人工智能領域很快就陷入了低谷,被基于規則和邏輯推理的專家系統所取代。

1974年,一位叫Geffory Hinton的年輕研究者發現,把多個感覺機連接配接成一個分層的網絡,即可以解決Minsky的問題。這帶動了80年代連接配接主義的興起,這個階段的連接配接理論最初被稱為分布式并行處理PDP (parallel distributed processing),他們以人工神經網絡為工具方法,引領着神經科學和人工智能領域的發展,與行為學派和符号學派三足鼎立。

随之而來的問題是,如果要模拟人類大腦數量如此龐大的神經元,可能需要對幾百甚至上千個參數進行調節,如何對這樣複雜的網絡進行訓練呢?Hinton等人的發現是,通過反向傳播算法可以解決多層網絡的訓練問題。這一算法是用來訓練人工神經網絡的常見方法,該方法計算對網絡中所有權重計算損失函數的梯度。這個梯度會回報給最優化方法,用來更新權值以最小化損失函數。

神經網絡的現代分類器的各個方面也受到了我們所了解的大腦的視覺系統的啟發。這方面研究的先驅包括Geoffrey Hinton、Yann LeCun、Yoshua Bengio等人,1998年,Yann LeCun提出了卷積神經網絡(CNN),2006年,Hinton提出了深度學習的概念并在其經典論文《A fast learning alforithm for deep belief nets》中提出了深度信念網絡,帶來了深度學習直到今天的黃金時代;2009年,Yoshua Bengio提出了深度學習的常用模型堆疊自動編碼器(Stacked Auto-Encoder,SAE),基于神經網絡的研究得到進一步發揚光大。

然而人工智能專家基于神經系統的研究和思考并沒有停止。如腦科學的研究結果表明,大腦中神經元的信号處理機制和連接配接學習方式是不同的,尤其是大腦的無意識感覺和自我意識功能并不需要有監督的學習,在大腦神經系統中,非監督學習和自主學習同樣占有重要的地位,相應地,對于無監督學習和遷移學習的研究也成為人工智能的熱點之一。

而随着深度學習和神經科學的發展,之前對深度學習的一些基礎理論也在面臨着更新。例如在深度學習領域,神經元是最底層的單元;而在神經科學領域,神經元并不是最底層的機關。目前的深度神經網絡主要是三種結構,即 DNN(全連接配接的)、CNN(卷積)和 RNN(循環),而目前的研究表明,人類神經網絡可能比較類似上述三種結構的組合,層内更像DNN, 層間和CNN 很類似,在時間上展開就是RNN。這種結構上的差異也導緻了深度學習研究的複雜性。

來源: Neocortical layer 6, a review & 知乎

深度學習正在面臨一個拐點——一方面,基于我們最初基于人腦結構認識的理論研究已經到了一個平台期,而另一方面,如Hinton等最尖端的深度學習專家也在借助神經科學的最新發現,對之前對提出的理論進行反思,這也是近日Hinton就提出“深度學習需要推倒重來”,并表示可能要徹底放棄反向傳播的由來(參見雷鋒網文章:《Geffory Hinton:深度學習進入平台期?不,深度學習需要的是“推倒重來”》)。

在與OReilly的一次訪談中,Hinton曾經承認我們對人類神經系統的了解并不足夠。“我們真不知道為什麼神經元要發脈沖。一個理論是它們想要噪聲,以便正則化,因為我們的參數超過資料量。”Hinton在訪談中說道。“這個理論已經出現有50多年了,但沒人知道它是否正确。”

神經科學和對人腦的模仿在人工智能中曾經起着重要的作用,而對于模仿人類大腦,是否能制造出最強大的人工智能,在不同人工智能學家眼裡可能會有不同的答案。一個時常被提起的例子是,我們之是以能造出飛機,是因為空氣動力學的發展而并非模仿鳥類飛行的動作,但雷鋒網(公衆号:雷鋒網)認為,這種從仿生到理論的循環可能是一種螺旋式的上升過程,新的神經系統發現和研究可能會推翻之前的人工智能經典理論,并随之模拟出新的人工智能網絡和産生新的理論,進而推動人工智能的研究突破瓶頸得到進一步發展。

本文作者:岑大師

繼續閱讀