【DeepMind最新Nature論文】探索人類行為中的強化學習機制

deepmind與來自普林斯頓、nyu、達特茅斯學院、ucl和哈佛大學的研究人員合作，探索了人類行為中的強化學習，為開發智能體強化學習提供了新的政策。研究人員具體探讨了一種存在于無模型和基于模型的學習算法之間的方法，基于後繼表示（successor representation，sr），将長期狀态預測存入緩存中。作者預計，這些發現将為計算科學、電生理學和神經影像學研究開辟新的途徑去研究評估機制的神經基礎。相關論文《the successor representation in human reinforcement learning》日前在nature子刊《自然-人類行為》上發表。

人類和其他動物在不斷變化的環境中适時适機進行決策，這底層的算法是什麼？發現其中的機制對于完成序列決策（比如國際象棋和迷宮導航）尤其重要。

過去20年，大部分緻力于解決多步驟問題的研究，都關注強化學習（rl）的兩類算法，即無模型（mf）和基于模型的（mb）算法。

mf和bm都将決策形式化為長期獎勵預期與不同的候選行動之間的關系，但在表示（representation）和計算方面卻不盡相同。

突1：無模型、基于模型和基于後繼表示的學習算法在表示、計算和行為上的特點對比。來源：論文

mf vs. mb兩者的對立使人産生了這樣一種觀點，那就是在決策的速度和準确性之間有明顯的tradeoff：mf将預計算長期行動值直接存儲起來，而mb算法則更加靈活，會通過對短期環境的模組化來重估行動值，但這樣對計算力有更大需求。

長期以來，由于這種速度和精度之間的tradeoff，人們一直以為要實作自主化、仔細思考（deliberation）和控制，需要消耗很多計算資源。同時，mf也被視為适應不良習慣和強迫行為（比如吸毒）的原因。

盡管有實驗證明人類和其他動物在某些情況下的決策能夠徹底打敗mf選擇，但極少有證據表明人類大腦是如何進行mb重計算的，甚至人類大腦究竟有沒有進行mb重計算。

實際上，在mf和mb之間完全可以有其他的計算路徑（shotcut）來合了解釋很多現有的實驗結果。

為此，普林斯頓、nyu、達特茅斯學院、deepmind兼ucl以及哈佛大學的研究人員，設計了兩項實驗，探索了大腦決策時是否使用了存在于mf和mb之間的算法，以及這種算法與mf、mb之間的異同。相關論文《the successor representation in human reinforcement learning》日前在nature子刊《自然-人類行為》上發表。

研究人員發現，人類決策時确實會用到mf和mb之間的中間算法。他們在論文中具體研究了其中的一類重要算法，基于後繼表示（successor representation，sr），将長期狀态預測存入緩存中。作者預計，這些發現将為計算科學、電生理學和神經影像學研究開辟新的途徑去研究評估機制的神經基礎。

具體說，研究人員通過實驗設計，區分使用sr和mb的計算，重點關注人類是否存儲了有關未來狀态的長期預期。結果發現，mf政策不存儲狀态的任何表示，并且在決策時也不計算狀态表示（參見圖1和圖2）。另一方面，mb政策存儲并且會檢索一步表示（one-step representations），是以決策時間的計算需求會更高。然而，sr緩存了一個多步驟轉換的“粗略映射”到智能體以後期望通路的狀态。在決策時使用這些緩存的表示，sr在獎勵重估中做出了比mf更好的決策，但不能解決轉移重估，而mb在所有重新估值方面都做得一樣好。另一種可能性是将sr與其他政策相結合，也即論文中所說的“混合sr政策”。混合sr政策可以将半計算的軌迹粗略表示與mb表示或重放相結合。

圖2.在獎勵和轉換重估測試中，模型預測和檢索到表示的原理圖

所有混合sr政策将比轉換重估的純sr政策更好（但比mb差）。具體來說，相比預測過渡重估，混合sr政策在預測獎勵重估時準确性更高，反應時間更快。mf或mb都的預測性能都沒有展現出這樣的不對稱性。

作者通過兩項研究實驗測試并确認了他們的猜測，為人類行為中的強化學習裡的sr提供了第一個直接證據。

摘要

神經科學中強化學習的理論側重于兩個算法族。無模型算法将行動值存入緩存，這樣做雖然便宜但不靈活：是以，無模型算法是自适應習慣和适應不良習慣的候選機制。另一方面，基于模型的算法通過從環境模型中重建行動值來實作計算成本的靈活性。我們研究了一類中間算法，後繼表示（successor representation，sr），緩存長期狀态預期，将無模型的效率和基于模型的靈活性相結合。雖然以前關于獎勵重估的研究将無模型算法與基于模型的學習算法區分開來，但這種設計不能區分基于模型和基于sr的算法，後兩種都預測了獎勵重估的敏感度。然而，改變過渡結構（“過渡重估”）應該有選擇性地損害sr的重估。在兩項研究中，我們提供的證據表明，人類對獎勵重估與過渡重估的差異敏感度與sr預測一緻。這些結果為一種新的靈活選擇神經計算（neuro-computational）機制提供了支撐，同時為習慣引入了更細微，更認知的看法。

很學術的論文，但推薦閱讀：

原文釋出時間為：2017-09-04

作者：趙以文

本文來自雲栖社群合作夥伴新智元，了解相關資訊可以關注“ai_era”微信公衆号

【DeepMind最新Nature論文】探索人類行為中的強化學習機制

繼續閱讀

Codeforces 1417 D. Make Them Equal(思維+構造)

查找算法之二分查找查找算法之二分查找

查找算法學習之二分查找（Python版本）——BinarySearch

CQ V1.0分詞bates(基于雙數組tire樹)—應該是目前最快的中文分詞算法

Command Network(POJ 3164)---定根最小樹形圖模闆題題目描述輸入格式輸出格式輸入樣例輸出樣例分析源程式

開源低帶寬語音編解碼器

241 Different Ways to Add Parentheses（C代碼版）

【趨高機器視覺】機器視覺技術原了解析及解決方案

CSMA/CD1． CSMA/CD的概述2． CSMA 的工作原理3． CSMA/CD控制規程及特點4． CSMA/CD協定5． CSMA/CD的優點6．結束語

極大似然法(ML)與最大期望法(EM)

C++ 第十五周報告1--《冒泡法排序》

筆試面試題目：滑動視窗(二)

資料結構與算法（27）——排序（二）

Dijkstra--簡易版（最短路徑）

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

hdu7108哈希