文章目錄
- 1. 本章内容概要
- 2. 預測和控制
- 3. classical conditioning
-
- 3.1 阻塞和高階的條件反射
- 3.2 Rescorla–Wagner模型
- 3.3 TD模型
- 3.4 TD模型仿真
- 4. 工具條件反射
- 5. 延遲的強化
- 6. 認知映射
- 7. 習慣和目标引導的行為
- 8. 總結
- 參考文獻
1. 本章内容概要
在之前的章節中,我們研究了僅僅基于計算的各種算法思想,這一章,我們則從另一個角度看待這些算法,也就是心理學的角度以及其對動物學習方式的研究。本章的目标是:首先,研究RL的思想和算法與心理學家發現的動物學習過程的關聯;第二,介紹RL對動物學習研究的影響。
RL架構綜合了任務、回報、和算法,在處理實驗資料、指導新的實驗、指出影響操作和測量的關鍵因素等方面非常有效。優化長期回報的思想是RL的核心,這也對研究動物學習和行為中的困擾有所指導。
RL和心理學理論之間的關聯并不讓人驚訝,因為RL的在發展過程中本來就受到了心理學習理論的很多啟發。然而,正如我們在本書中所研究的,RL是從人工智能研究者/工程師角度對理想情形的探索,目的是為了利用算法解決計算問題,而不是解釋動物如何學習的。但是我們能找到這兩個領域中一些思想的密切聯系,這些關聯很有意義。
本章的大部分内容會研究RL與動物(老鼠,鴿子等)學習理論的關聯。随着心理學的發展,它變得更重視認知方面,也就是如思考、推理等心理過程,而動物學習實驗則逐漸在心理學中不那麼重要了。但是這些實驗揭示了動物界學習的法則,在AI中不應該忽視這些成果。此外,一些認知處理過程也和RL中的計算視角有自然的關聯。
本章最後的部分還會探索RL中的術語和心理學中的術語之間的對應關系,其實RL中很多術語都是從動物學習理論借鑒過來的,但是含義可能有所不同。
2. 預測和控制
本書中介紹的算法包含兩個大類:預測算法和控制算法。這兩類方法在RL中是很自然的出現的。和心理學相對照,則對應心理學中一些研究很深入的類别:classical(Pavlovian) conditioning和 instrumental(operant) conditioning。這些關聯是不意外的,因為心理學本來就對RL的發展有很大影響,但是仍然很讓人激動,因為這把不同領域的思想連接配接了起來。
本書中的預測算法是用來估計agent環境的特征未來展開之期望的值(這話怪怪的…),我們一般着眼于估計累積折扣回報的期望。從這個角度,預測算法也就是政策評估算法,是政策提升所必需的工作。但是預測算法并不局限于預測未來的回報,也能預測環境的任何特征。預測算法和classical conditioning的關聯主要在于它們都預測即将來臨的刺激(回報/懲罰)。
而對于instrumental conditioning的實驗則不太一樣,在實驗裝置中設定動物喜歡(reward)和讨厭(penalty)的要素,動物則學習增加其産生回報行為的趨勢,降低産生懲罰行為的趨勢,而在classical conditioning中并不是這樣操作的。在instrumental conditioning中控制是這個學習過程的核心,對應着RL中的政策提升過程。
classical conditioning針對預測,instrumental conditioning針對控制,這是将RL的計算觀點和動物學習相關聯的起點,但是在實際中情況會更複雜一些。classical conditioning比預測的内涵要多,它還包含動作,這實際上是一種模式的控制,有時叫做Pavlovian control。此外,classical和instrumental之間還有有意思的關聯。無論如何,将classical/instrumental和預測/控制聯系是一個友善的辦法。
在心理學中,術語**增強(reinforcement)**既用來描述classical中的學習,也用來描述instrumental中的學習。實際上最初隻用來描述某種行為模式的增強,也常用來描述行為模式的減弱。導緻行為改變的刺激叫做增強子(reinforcer),無論這是否取決于動物以前的行為。本章最後,我們會更深入讨論這個術語,以及它和ML中術語的關聯。
3. classical conditioning
當研究消化系統的活動時,著名的俄羅斯心理學家Ivan Pavlov發現,動物對特定刺激的本能反應,也可以被與這先天刺激完全無關的其它刺激激發。他的實驗主要用狗完成,對其進行輕微手術使之唾液反射系統能被準确測量,在他描述的一個例子中,在一般情況下狗不産生唾液,但是如果給它看食物,則會在5s後産生6滴唾液。然後他多次重複在給狗看食物前給它先聽節拍器的聲音這個組合動作,最後發現隻要給節拍器的聲音也會觸發狗流唾液。
針對這個重要實驗,Ivan Pavlov總結到:
很明顯的,在自然條件下,動物不僅僅會對帶來立即好處/傷害的刺激産生反應,也會對那些預示着這些刺激的信号産生反應(實體或化學的,如聲波、光波等),雖然并不是獵物的光和聲信号帶來吃飽的結果,而是動物自己的牙齒和爪子。
——Pavlov
将新的刺激和固有的本能反應通過這種方式連接配接起來,就叫做classical(Pavlovian) conditioning,可翻譯成經典條件反射。Pavlov把這種先天的反應叫做無條件反應URs(如看到食物流口水),它們自然的觸發性刺激叫做無條件刺激USs(如食物),把受到新的觸發刺激進而産生的反應叫做條件反應CRs(如節拍器導緻流口水)。一個原本中性的刺激,意味着它本來不會導緻很強的反應(如節拍器的聲音),當動物學習到它意味着US即将到來且會産生一個CR作為反應,中性的刺激就變成了條件刺激CS。這些術語目前還在用于描述經典條件實驗,其中US也叫做增強子(reinforcer),因為它加強了CR的産生作為CS的反應。
經典條件實驗中,刺激的設定通常有兩種類型,如下圖所示:

在延遲條件反射(Delay Conditioning)中,CS覆寫ISI,也就是在CS開始點和US開始點之間的部分;在追蹤條件反射(Trace Conditioning)中,US在CS結束之後過一段時間再開始,在CS結尾與US起始之間的區間叫做跟蹤間隔(trace interval)。
Pavlov的狗聽到節拍器流口水的實驗隻是經典條件反射的一個例子,已經得到了很深入廣泛的研究了。URs通常是準備性的,例如Pavlov的狗的口水;或者通過是保護性的,就如吓唬要傷害眼睛導緻眨眼,或者看到捕食者之後就呆住不動。經驗上,CS-US的在一系列反複試驗中的預測性關系導緻動物學到用CS預測US,以至動物可以用CR響應CS,實際上是動物對預測的US做出的準備或者自我保護。一些CRs和UR是相似的,但是在某些方面有小的差別,例如提早發生等時間上的變化。例如,在一個研究很深入的實驗類型中,一個CS(聲音)能可靠地預測吹向兔子眼睛的風(US),觸發眨眼這個UR。在多次實驗後,這個聲音就能在實際吹風之前觸發CR(眨眼),且保證風實際到來時恰好眨眼到完全關閉眼睛(進而帶來最低的傷害)。這個CR最初是用來降低吹向眼睛的風的傷害的,但是添加了CS後,可以使兔子提前閉眼,進而得到更好的保護。這種通過學習刺激之間的預測性關系進而能在預測到重要事情時動作的能力是很有益的,因而在動物界中非常普遍。
3.1 阻塞和高階的條件反射
經典條件反射在實驗中被觀察到了很多有趣的特性。在經典條件反射模型的發展過程中,有兩個被廣泛觀察到的性質發揮了重要作用:阻塞和高階條件反射(blocking and higher-order conditioning)。某個CS已被證明可以引起動物的某個CR,在訓練好這個CS後,引入另一個CS和這個CS一起使用繼續訓練,發現新的CS無法單獨引起這個CR,這就叫做阻塞。例如,在涉及兔子眨眼條件反射阻塞實驗的第一階段,兔子首先被給出一個聲音的CS和向眼睛吹氣的US,進而導緻利用聲音預測接下來的吹氣進而眨眼保護這個CR;這個實驗的第二階段中,則在給出聲音的同時額外加入第二個刺激,例如光,然後看經過試驗後,能否用這個新加入的刺激導緻CR,結果發現是不行的,對光這個刺激的響應被先前的聲音這個刺激阻塞了。這種阻塞的效果挑戰了認為條件反射隻依賴時間相近度的想法(US緊跟CS就能使CS引發CR),在下個小小節,我們介紹Rescorla–Wagner模型,該模型給出了阻塞條件反射的一個很有影響的解釋。
把一個先前的已經訓練好的引發響應的CS作為US,利用它使另外一個中性的刺激産生同樣的UR,此種現象叫做高階(級聯?)條件反射。Pavlov描述的一個實驗中,他的助手首先讓狗對節拍器的聲音産生條件反射,然後再把節拍器的聲音作為US,試圖讓狗對一個黑色方塊也産生條件反射(此過程即先給狗看黑色方塊,然後馬上給節拍器的聲音,而不給食物)。僅僅經過十次訓練後,黑色方塊就能引發狗流口水了,這個過程中節拍器的聲音起到了US的作用。這就是二階條件反射,依次類推,還可以産生三階乃至更高階的反射。高階反射的訓練是很難的,因為高階的增強子失去了原始增強子的那種根本價值。但在适當的條件下,高階反射是也是能訓練出來的。經典條件反射的TD模型使用了bootstrapping思想,這也是Rescorla–Wagner模型的核心,可以同時解釋阻塞與高階條件反射。
高階工具性條件反射也會發生。在這個情形中,一個用來預測主要增強的刺激本身變成了增強子(就是US)。這個預測的刺激變成了二階增強子,或者更一般的,變成了高階或條件增強子,後面這個叫法則是當預測的增強刺激本身是二階甚至高階增強子時更恰當的術語。一個條件增強子傳送了條件增強:條件回報或者條件懲罰。條件增強像主要增強一樣,增加了動物産生導向條件回報的行為的趨勢,降低了動物産生導向條件懲罰的行為的趨勢。
條件增強是解釋一些現象的關鍵,例如,我們努力工作掙錢,而錢實際上是條件增強子,其價值源于擁有錢後所能買到的東西。在actor-critic方法中,critic使用TD方法評估actor的政策,它的值估計向actor提供了條件增強,使得actor能提高自己的政策。這種對高階工具性條件反射的模拟可以幫助我們解決回報指派的問題,因為critic實際上給的是實時的增強,而原始回報信号是延遲的。
3.2 Rescorla–Wagner模型
Rescorla和Wagner主要針對阻塞反射建立了他們的模型。其核心思想是,動物隻有在事情與期望偏離時才進行學習。接下來,我們首先使用他們的術語介紹Rescorla-Wagner模型,然後我們再切換到TD中的術語。
Rescorla和Wagner描述:模型調整複合CS中每個成員刺激的連結強度(associative strength),該連結強度代表這個成員對US的預測強度或可靠度。當一個複合CS包含多個成員刺激時,每個成員刺激的連結強度依賴于複合刺激整體的連結強度而變化,而不是僅僅依賴每個成員自身的連結強度,這個整體連結強度叫做聚合連結強度(aggregate associative strength)。
Rescorla和Wagner考慮,對于一個包含成員刺激A和X的複合CS AX,其中A刺激動物已經經曆過了,但是刺激X的新的。令 V A , V X , V_{\mathrm{A}}, V_{\mathrm{X}}, VA,VX, 和 V A X V_{\mathrm{AX}} VAX分别表示刺激A、X和複合AX各自的連結強度。假設在一次實驗中,複合CS AX後緊跟着US,這個US用标記Y表示,那麼,每個成員刺激的連結強度按照如下公式變化:
Δ V A = α A β Y ( R Y − V A X ) \Delta V_{\mathrm{A}}=\alpha_{\mathrm{A}} \beta_{\mathrm{Y}}\left(R_{\mathrm{Y}}-V_{\mathrm{AX}}\right) ΔVA=αAβY(RY−VAX)
Δ V X = α X β Y ( R Y − V A X ) \Delta V_{\mathrm{X}}=\alpha_{\mathrm{X}} \beta_{\mathrm{Y}}\left(R_{\mathrm{Y}}-V_{\mathrm{AX}}\right) ΔVX=αXβY(RY−VAX)
其中, α A β Y \alpha_{\mathrm{A}} \beta_{\mathrm{Y}} αAβY 和 α X β Y \alpha_\mathrm{X} \beta_{\mathrm{Y}} αXβY是步長因子,依賴CS成員和US的性質, R Y R_{\mathrm{Y}} RY則是US Y能提供的連結強度的漸進水準(實際上,Rescorla和Wagner在這裡使用的是 λ \lambda λ而不是 R R R,而本書中 λ \lambda λ用于表示RL的折扣因子)。這個模型的關鍵假設是,聚合連結強度 V A X V_{\mathrm{AX}} VAX等于 V A + V X V_{\mathrm{A}}+V_{\mathrm{X}} VA+VX,這些連結強度變化 Δ s \Delta s Δs,并成為下輪試驗中的連結強度。
為了完整性,模型還需要響應生成機制,也就是把CRs映射為值Vs,由于這個映射依賴試驗情景的細節,Rescorla和Wagner并沒有指定具體的映射原則,隻是假設更大的Vs能産生更強的或更多的CRs,負的值則意味着沒有CRs。
Rescorla-Wagner模型以解釋阻塞反射的方式解釋了CRs收益。隻要聚合連結強度 V A X V_{\mathrm{AX}} VAX(複合刺激)低于連結強度的漸進水準 R Y R_Y RY(US Y能支撐的),那麼預測誤差 R Y − V A X R_{\mathrm{Y}}-V_{\mathrm{AX}} RY−VAX就是正的,這意味着經過連續的試驗後成員刺激的連結強度 V A V_A VA和 V X V_X VX就會增加,直到聚合連結強度 V A X V_{\mathrm{AX}} VAX等于 R Y R_Y RY,此後成員連結強度就不再變化了(除非US發生變化)。當一個新的成員加入到複合刺激CS中(該複合刺激動物已經形成條件反射),由于誤差已經下降到零或者很小的值,因而這個更複雜的條件試驗隻會導緻這個新加入的成員刺激的連結強度發生很小的變化或者根本不發生變化。US的出現已經被預測得很好了,因而新加入的CS成員隻能帶來很少或者幾乎沒有預測效果,這樣之前的CS就阻塞了新加入的CS成員。
為了将Rescorla-Wagner模型轉換到經典條件反射的TD模型(之後簡稱TD模型),我們首先使用本書中一直用的術語重構這個模型。特别地,我們把基于線性拟合器的學習中用到的概念進行比對,并把條件反射過程當作在一次基于複合CS的試驗中預測US幅度的一次學習,其中US Y的幅值就是如上介紹的Rescorla-Wagner模型中的 R Y R_Y RY。我們也引入狀态的概念,因為Rescorla-Wagner模型是訓練層次的模型,意味着它處理的是在一次次試驗中連結強度是如何變化的,而不考慮在試驗之間或者試驗内部的任何細節,直到我們在下個小節介紹完整的TD模型之前,我們都不必考慮在試驗過程中狀态如何發生變化。此外,我們簡單地認為狀态是試驗中CSs成員集合的标簽。
是以,假設訓練類型(狀态) s s s用一個實數向量描述, x ( s ) = ( x 1 ( s ) , x 2 ( s ) , … , x d ( s ) ) ⊤ \mathbf{x}(s)=\left(x_{1}(s), x_{2}(s), \ldots, x_{d}(s)\right)^{\top} x(s)=(x1(s),x2(s),…,xd(s))⊤,其中在試驗中刺激 C S i CS_i CSi被使用了,那麼對應的向量元素 x i ( s ) = 1 x_{i}(s)=1 xi(s)=1,否則向量元素就是0。那麼,如果連結強度的d維向量是 w \boldsymbol{w} w,則該試驗類型的聚合連結強度就是:
v ^ ( s , w ) = w ⊤ x ( s ) \hat{v}(s, \mathbf{w})=\mathbf{w}^{\top} \mathbf{x}(s) v^(s,w)=w⊤x(s)
這和RL中的值估計相關,我們把它當作US預測。
用t表示完整試驗的次數,注意這裡不表示時間步,并假設 S t S_{t} St是和訓練t相關聯的狀态,條件反射訓練t按照如下公式更新連結強度向量:
w t + 1 = w t + α δ t x ( S t ) \mathbf{w}_{t+1}=\mathbf{w}_{t}+\alpha \delta_{t} \mathbf{x}\left(S_{t}\right) wt+1=wt+αδtx(St)
其中 α \alpha α是步長因子,并且,因為這裡我們描述的是Rescorla-Wagner模型, δ t \delta_{t} δt是以是預測誤差:
δ t = R t − v ^ ( S t , w t ) \delta_{t}=R_{t}-\hat{v}\left(S_{t}, \mathbf{w}_{t}\right) δt=Rt−v^(St,wt)
其中 R t R_t Rt是試驗t中的預測目标,也就是US的幅值,或稱為在試驗中US能支援的連結強度。注意因子 x ( S t ) \mathrm{x}\left(S_{t}\right) x(St),也就是隻有該次試驗中CS成員的連結強度得到調整。我們可以認為預測誤差是surprise程度的度量,而作為動物期望的聚合連結強度則在不能比對目标US幅度的時候發生沖突。
從ML的視角看,Rescorla-Wagner模型是一個誤差更正監督學習的法則,這本質上和LMS(或者Widrow-Hoff)學習法則是一樣的,他們的目标是尋找使得所有誤差的平方均值最小的權重(這裡則是連結強度)。實際上就是曲線拟合,或者說是回歸算法,這在工程和科學實踐中應用很廣泛。
Rescorla-Wagner模型在動物學習理論的曆史上非常有影響力,因為它給出了能解釋阻塞現象的理論機理,而沒有動用複雜的認知理論(例如當出現新的刺激組分時,動物認知機制會回溯掃描短期記憶,重新評估涉及US的預測關系)。Rescorla-Wagner模型展示了傳統的條件反射臨近理論(時間上的鄰近性是學習的必要充分條件)面對阻塞現象如何通過簡單的調整而加以解釋。
Rescorla-Wagner模型給出了阻塞和其他一些經典條件反射特性的簡單解釋,但是并不完美和完備。還有很多其他想法用來解釋其他觀察到的效應,目前在了解經典條件反射的很多微妙之處上還在推進。我們馬上就要介紹的TD模型,雖然針對經典條件反射也不完美和完備,但是它擴充了Rescorla-Wagner模型,解釋了試驗之間和試驗内部刺激的時間關系對學習的影響,并解釋了高階條件反射是如何産生的。
3.3 TD模型
TD模型是實時的模型,而不是Rescorla-Wagner模型那種試驗級别的模型。在Rescorla-Wagner模型中,單個時間步t表示了整個條件反射試驗,這個模型沒有考慮在試驗過程中或者試驗之間所發生事情的細節。在每個試驗之中,一個動物可能經曆多種刺激,這些刺激的開端發生在特定的時刻,并有特定的持續時間。這些時間關系對學習影響很大,Rescorla-Wagner模型也沒有囊括對高階條件反射的機制,而對于TD模型,高階條件反射不過是bootstrapping思想的自然結果。
為了描述TD模型,我們從上述Rescorla-Wagner模型的公式開始,但是這裡t的含義回到RL中的時間步。我們認為t到t+1之間的時間間隔很短,例如說0.01秒,并把試驗當作狀态的序列,每個狀态與一個時間步相關聯,時間步t的狀态那麼就表示刺激在該時刻如何出現的細節,而不僅僅是一個CS成分出現的标簽。實際上,我們這裡可以完全抛棄試驗的概念,從動物的視角出發,一次試驗不過是其與時間連續性互動的一個片段罷了。考慮我們一直以來agent與環境互動的視角,想象動物經曆無窮無盡的狀态s序列,每個狀态都用向量 x ( s ) \mathbf{x}({s}) x(s)表示。在這裡,試驗不過表示刺激重複模式的時間片段。
狀态特征不局限在描述動物經曆的外部刺激;我們用狀态描述外部刺激在動物大腦中産生的神經活動模式,這些模式可以是依賴曆史的,意味着它們可以是外部刺激序列引起的持續模式。當然,我們并不确切知道這些神經活動模式是什麼,但是一個像TD一樣的實時模型允許我們在不同的關于外部刺激的内部表征的假設下探索學習的結果。出于這些原因,TD模型并不局限于任何特定的狀态表征。此外,TD模型包含了折扣和資格迹(分布在刺激的時間間隔上)。
以後我們會給出一些TD模型中的狀态表征以及它們的内涵,但是這裡我們先假設每個狀态s都由一個特征向量 x ( s ) = ( x 1 ( s ) , x 2 ( s ) , … , x n ( s ) ) ⊤ \mathbf{x}(s)=\left(x_{1}(s), x_{2}(s), \ldots, x_{n}(s)\right)^{\top} x(s)=(x1(s),x2(s),…,xn(s))⊤表征。之後,與狀态相關聯的聚合連結強度則由之前提到過線性形式給出:
v ^ ( s , w ) = w ⊤ x ( s ) \hat{v}(s, \mathbf{w})=\mathbf{w}^{\top} \mathbf{x}(s) v^(s,w)=w⊤x(s)
雖然這個式子和Rescorla-Wagner模型中的一樣,但是TD提供了不同的權重更新機制,其更新公式為:
w t + 1 = w t + α δ t z t \mathbf{w}_{t+1}=\mathbf{w}_{t}+\alpha \delta_{t} \mathbf{z}_{t} wt+1=wt+αδtzt
也就是用資格迹 z t \mathbf{z}_{t} zt替換了Rescorla-Wagner模型中 x t \mathbf{x}_{t} xt, δ t \delta_t δt也替換為TD誤差的形式:
δ t = R t + 1 + γ v ^ ( S t + 1 , w t ) − v ^ ( S t , w t ) \delta_{t}=R_{t+1}+\gamma \hat{v}\left(S_{t+1}, \mathbf{w}_{t}\right)-\hat{v}\left(S_{t}, \mathbf{w}_{t}\right) δt=Rt+1+γv^(St+1,wt)−v^(St,wt)
其中, γ \gamma γ是折扣因子, R t R_t Rt則是時刻t的預測目标, v ^ ( S t + 1 , w t ) \hat{v}\left(S_{t+1}, \mathbf{w}_{t}\right) v^(St+1,wt)和 v ^ ( S t , w t ) \hat{v}\left(S_{t}, \mathbf{w}_{t}\right) v^(St,wt)是聚合連結強度。
資格迹 z t \mathbf{z}_{t} zt中的第i個元素根據狀态特征的第i個元素 x i ( S t ) x_{i}\left(S_{t}\right) xi(St)增加或者降低,否則就按照 γ λ \gamma \lambda γλ衰減:
z t + 1 = γ λ z t + x ( S t ) \mathbf{z}_{t+1}=\gamma \lambda \mathbf{z}_{t}+\mathbf{x}\left(S_{t}\right) zt+1=γλzt+x(St)
這裡, λ \lambda λ是資格迹衰減因子。
注意,如果 γ = 0 \gamma=0 γ=0,那麼TD模型就退化為Rescorla–Wagner模型,除了t的含義不同,以及TD中存在一個單時間步的預測目标R。TD模型等價于backward view的帶有線性拟合器的半梯度 T D ( λ ) \mathrm{TD}(\lambda) TD(λ)算法。
3.4 TD模型仿真
實時條件反射模型(例如TD模型)很有意思,因為它們能對很廣泛的難以被試驗級别的模型表征的情形做出預測。這些情形包括條件刺激的起始時刻和持續時間,這些刺激的開始時刻與US的開始時刻之間的關系,CRs的開始時刻及其形狀等。例如,US必須在條件反射的中性刺激的開始之後開始,而學習率和效率則依賴于刺激之間的間隔,以及CS和US起始時刻之間的間隔(ISI)。而CRs通常在US的出現之後啟動。在帶有複合CSs的條件反射中,成員刺激可能并不在同一時刻開始和結束,有時會形成稱之為序列複合的情形,也就是所有的成員刺激依時間序列而出現。對時間上的考慮使得考慮刺激如何出現、出現過程如何随着時間展開、在試驗中刺激如何與折扣和資格迹互動變得很重要。
下圖展示了在探索TD模型的行為過程中用到的三個刺激表征:完全序列複合CSC、微刺激MS以及存在presence。這些表征的差別之處在于對臨近時刻點的泛化程度。
這些表征中最簡單的情形如上圖右側所示,也就是presence表征。這個表征對每個成員CS隻有單個特征(标量),隻有在特征出現的時候是1,其它時候則是0。presence表征并不是存在于動物大腦中的切合實際的假設,但是正如我們下面描述的,使用這種表征的TD模型能表現出很多經典條件反射中的時間性現象。
對于CSC表征,外部刺激發生後,引發産生一系列内部刺激序列,各個波形的起始時刻是确定的,且持續時間都很短,直到外部刺激結束,内部刺激序列方才終止。這就像假設動物的神經系統中有一個時鐘,準确地在外部刺激出現期間跟蹤時間;這也就是工程師稱為抽頭延遲線(tapped delay line)的東西。和presence表征類似,CSC表征也是不真實的假設,但是它卻能揭示當相對不受刺激表征限制時TD模型工作方式的細節。CSC表征也在大腦内多巴胺産生神經元的TD模型中使用,這我們會在下一章中讨論。
對于MS表征,則和CSC表征相似,每個外部刺激會激發一個内部刺激序列,但是此時内部刺激則是微刺激,不怎麼受限制且允許重疊。刺激發生後,随着時間進行,不同集合的微刺激變得更多或更少的活躍,且每個後續微刺激變得更加寬,同時其最大值降低。當然,根據微刺激的性質不同,可以有很多種類的MS,在文獻中已經研究過很多種類的MS了,其中有些研究針對的就是動物大腦的實際情況。MS表征比presence和CSC更真實,允許TD模型的行為切合更多的在動物試驗中觀測到的現象。特别地,通過假設被USs和CSs激發的微刺激的級聯,并通過研究微刺激之間互動、資格迹、折扣對學習的重要影響,TD模型幫助我們解釋了很多經典條件反射中的微妙現象,并解釋了動物大腦是如何産生它們的。我們在第十五章中會更深入地讨論這個問題。
即使隻是用最簡單的presence表征,TD模型也能産生出經典條件反射中(Rescorla–Wagner模型能解釋的)所有基本特性,還能解釋超出試驗級别模型範圍的一些特征。例如,我們之前提到,經典條件反射中的一個顯著特征是US通常必須在中性刺激的發生之後開始,且在條件出現後,CR(例如提前眨眼)要在US的出現之前。換言之,條件反射通常需要正的ISI,而CR則通常預測US。條件反射的強度(或者CS引發的CRs的機率)依賴ISI的變化,無論對于任何物種或者反應系統都成立,但是它通常具有如下性質:0或者很小的ISI是可以忽略的(例如US的開端比CS的開端早或者與之同步);對于一個正的ISI當條件效力最大時,連接配接強度增加到最大值;這之後它會衰減到0,而衰減的時間随着響應系統變化很大。TD模型的這種依賴的精确形狀依賴它的參數以及刺激表征的細節,但是這些對ISI之依賴的基本特征是TD模型的核心。
當帶有序列複合條件時會出現一個理論上的問題,也就是,組分按時間序列出現的複合CS的條件反射關心的是遠端聯系的促進。人們已經發現,如果第一個CS(CSA)和US之間空的迹間隔填充進第二個CS(CSB)以形成序列複合刺激,那麼CSA的條件反射就得到了促進。如下圖所示,其為使用presence表征的TD模型的行為,與實驗結果一緻的是,模型顯示出由于第二個CS的存在,第一個CS條件發生的機率以及漸進水準都得到了促進。
一個條件反射刺激之間的時間關系效果實驗(Egger 與 Miller)廣為人知,它包含兩個延遲的且重疊的CSs(下圖)。雖然CSB與US的在時間軸上更貼近,但是CSA的存在極大降低了CSB的條件反射。下圖還展示其結果。
TD模型認為阻塞現象是因為誤差糾正的學習規則(例如escorla–Wagner模型)。除了解釋了基本的阻塞結果,TD模型還預測了如果被阻塞的刺激向前移動使得它的起始發生在阻塞刺激的起始之前,則阻塞會出現翻轉。如下圖上部分所示(是不是畫錯了…):
TD模型行為的這個特征值得關注,因為在這個模型建立之前該現象是沒被觀察到過的。回憶下在阻塞現象中,如果一個動物已經學習了一個CS對US的預測,那麼學習一個新加入的CS對US的預測效果則會大大減弱,也就是阻塞了。但是如果先加入的第二個CS在預訓練的CS起始之前起始,那麼根據TD模型,學習新的刺激就不會被阻塞。實際上,随着試驗進行,新加入的CS加強了連結強度,而預訓練的CS則降低了連結強度。在這些情形下的TD模型的行為如上圖下部分所示。本實驗和 Egger 與 Miller 的實驗不同之處在于,位于後面的更短的CS要進行預訓練直到它能完全預測US。這個讓人吃驚的發現啟發了兔子眨眼實驗,其結果證明了這個預測,且前人已經分析,非TD的模型難以解釋這個現象。
使用TD模型,在前面的預測性刺激是優先于後面的預測性刺激的,因為如本書中介紹的所有預測方法一樣,TD模型是基于backing-up或者說bootstrapping思想的,在某個狀态更新其連結強度時,會向後續狀态的強度移動。bootstrapping的另一個效果是,TD模型提供了對高階條件反射的解釋,而高階條件反射是經典條件反射中的一個特性,這個特性是無法在Rescoral-Wagner的架構下解釋的。正如我們上面描述的,高階條件反射是當一個先前的CS對另一個中性刺激扮演US時出現的現象,下圖給出了TD模型在高階條件反射實驗中的行為(二階)。在第一象限(圖中沒畫),CSB通過訓練來預測US,因而其連結強度得到了增強;在第二象限,CSA則在US缺失的情形下與CSB配對,如下圖中上側的時序圖所示。通過連續的訓練,CSA的連結強度達到高峰并開始下降,這是因為CSB的連結強度也下降了(其增強效果也跟着下降了)。CSB的連結強度下降是因為US在高階條件反射訓練中消失了,因而這些訓練對于CSB來說是“消失訓練”,因為它與US的預測關系被破壞了。在動物實驗中這個現象也可以觀察到,高階試驗中條件增強的消退使得示範高階條件反射很困難,除非初始的預測性關系通過間歇地插入一階訓練到高階訓練中不斷重新整理。
TD模型能産生二階甚至高階的條件反射,這是因為TD誤差中 γ v ^ ( S t + 1 , w t ) − v ^ ( S t , w t ) \gamma \hat{v}\left(S_{t+1}, \mathbf{w}_{t}\right)-\hat{v}\left(S_{t}, \mathbf{w}_{t}\right) γv^(St+1,wt)−v^(St,wt)的緣故。這意味着作為之前學習的結果, γ v ^ ( S t + 1 , w t ) \gamma \hat{v}\left(S_{t+1}, \mathbf{w}_{t}\right) γv^(St+1,wt)與 v ^ ( S t , w t ) \hat{v}\left(S_{t}, \mathbf{w}_{t}\right) v^(St,wt)就有了一定的差别,使得 δ t \delta_{t} δt非零了。實際上,這個TD算法的特征是其得到發展的主要原因,這一點我們通過其與動态規劃算法的聯系就能了解。bootstrapping值是和二階以及高階條件反射緊密聯系的。
在上述TD模型之行為這個例子中,我們隻檢查了CS組分的連結強度的變化,我們還沒研究模型對于動物條件反射響應CRs的性質的預測即,CRs的時間性質、形狀、以及如何發展。這些性質依賴于具體的物種、被觀察的響應系統、以及條件反射訓練參數,但是在很多具有不同的動物以及不同的響應系統的實驗中,CR的幅值,或者說CR的出現機率,則與US的期望出現時間相關。例如,在兔子眨眼響應的經典條件反射中,從CS到開始閉眼這個時間間隔随着試驗的進行而之間降低,期望的閉眼的幅度逐漸增加,直到在US的期望發生時刻達到最大。CR的時刻和形狀對于它的自适應重要性而言是非常重要的,閉眼過早的話會阻塞視覺功能,閉眼過晚則會導緻保護價值降低。抓住這樣的CR特征對于經典條件反射來說是很具有挑戰性的。
TD模型并不包括任何把US預測的時序(這裡指的是不同時刻t的值函數大小之變化) v ^ ( S t , w t ) \hat{v}\left(S_{t}, \mathbf{w}_{t}\right) v^(St,wt)轉換到能和動物CR相比之描述的機制。最簡單的選擇是,讓仿真的CR的時序等于US預測的時序,在這個情形下,仿真的CRs的特征以及它們如何随着試驗變化隻依賴于刺激表征的選擇以及模型參數: α , γ , \alpha, \gamma, α,γ, 和 λ \lambda λ。
下圖給出了使用三種表征的學習過程中在不同點上US預測的時序,對于這些仿真,在CS的起始後25個時間步加入US,并設定參數 α = . 05 , λ = . 95 \alpha=.05, \lambda=.95 α=.05,λ=.95 和 γ = . 97 \gamma=.97 γ=.97。對于CSC表征,TD模型中的US預測按照指數增加,直到達到最大,也就是US出現的時刻;這種指數級别的增加是TD模型中學習法則中折扣的結果;對于presence表征,US預測則幾乎是常數,因為對于每個刺激隻有一個權重能被學習,最後導緻采用presence表征的TD模型無法再建CR時間的很多特征;對于MS表征,TD模型中的US預測則進展得更加複雜,在200個試驗之後,預測的輪廓就成為了CSC表征的拟合了。
圖中的US預測曲線并不是像在特定的動物實驗中發展的那樣刻意地精确比對,但是他們展示了刺激表征對TD模型驅動的預測的巨大影響。進一步地,刺激表征如何與折扣和資格迹互動也是決定TD模型産生的US預測輪廓的重要性質。另一個次元則是不同的将US預測轉換到CR輪廓的響應生成機制的影響,上圖中的輪廓是原始的US預測輪廓。上圖中關于CSC及MS表征也會随着US靠近而增加,并在US的發生時刻達到最大,在很多動物實驗中也是這樣的。
TD模型,與特定的刺激表征及響應生成機制結合後,就能解釋在動物經典條件反射試驗中觀察到的很多現象,但是這距離一個完美的模型還是有很大的距離。為了生成其他經典條件反射中的細節,模型需要進行擴充,也許可以通過增加基于模型的元素和機制以自适應地改變參數。另外一些對經典條件反射模組化的方法則與Rescorla–Wagner風格的誤差糾正過程差别很大,例如貝葉斯模型,就是在機率的架構下工作的,利用經驗來更新機率估計。所有這些模型都對我們了解經典條件反射做出了貢獻。
也許TD模型最引人注目的特征是它是基于一個關于動物在經曆條件反射時,其神經系統嘗試做的事情的解釋的理論:它嘗試形成長期的準确預測,并與刺激表征的限制以及神經系統如何工作保持了一緻性。換言之,它給出了一個經典條件反射長期的規範解釋,而不是基于立即預測。
經典條件反射TD模型的發展是有明确目标的執行個體:即對動物學習行為中的一些細節模組化。它是一個算法,TD學習也是生物學習方面的基礎。正如我們在第十五章中将要讨論的,TD學習也恰巧是産生多巴胺(與回報過程關系密切的哺乳動物大腦内的化學活動)的活動神經元的模型的基礎。這些是RL與動物行為和神經系統密切相關的執行個體。
我們後面開始考慮RL與動物工具性條件反射之間的關聯。
4. 工具條件反射
在工具性條件反射(instrumental conditioning)實驗中,學習依賴于行為的結果:增強性刺激的傳遞依動物所做的事情而變化。相反地,在經典條件反射實驗中,增強性刺激US的傳遞是獨立于動物的行為的。工具性條件反射通常被認為與操作性條件反射(operant conditioning)是一樣的,operant conditioning則是B. F. Skinner為依行為而變的增強實驗而引入的。我們使用工具性條件反射這個術語來表示增強依行為而變的實驗(注意增強可以了解為最終的回報),其起源于美國心理學家Edward Thorndike一百多年前做的實驗。
Thorndike在實驗中觀察了放入帶有逃出開關的盒子的貓,如下圖所示。逃出的動作可根據需要設定,例如貓可以通過執行包含三個動作的序列打開盒子:壓下盒子後面的平台、用爪子拉一個繩子、把門闩從水準狀态調整到豎直狀态。第一個次放入盒子時,在盒子的外面放置能看到的食物,隻有一小部分Thorndike的貓表現出了“不舒服的明顯表現”以及“特别活躍的試圖逃出盒子的活動”。
在使用不同的貓以及具有不同逃出機制的實驗中,Thorndike記錄下了每隻貓在多次實驗中逃出去所需要的時間。他觀察到,成功逃出的經驗能導緻貓明顯地縮短之後的逃出時間(300s到6~7s)。他這樣描述盒子中貓的行為:
貓會在盒子中不斷地用爪子四處亂抓,會偶然地碰到設定的繩子、環和按鈕。逐漸的,所有對那些不成功位置的抓的動作就會減少,而成功的那些則會增加。最後,經過多次訓練後,隻要一把貓放入盒子中,它就能立刻去執行設定好的逃出動作。
這些實驗使得Thorndike總結出了一系列學習的規律,最有影響力的當屬“效果法則(Law of Effect)”,這個法則描述了反複試驗的中的學習過程。
效果法則描述了RL算法特征與動物學習特征之間的本質關聯。首先,RL算法是選擇性的,在多個選項中,通過比較各個動作的結果進行選擇;第二,RL算法是與一些條件聯合的(associative),動作的選擇與特定的情形(狀态)相關。正如效果法則描述的學習一樣,RL不僅僅是找到産生很多回報的過程,也将動作選擇與情形結合了起來,Thorndike使用了“通過選擇和連接配接學習”來描述。進化中的自然選擇也是選擇性過程的一個例子,但是它并不是associative的,而監督學習是associative的,但它不是選擇性的,監督學習是直接依賴于标簽的。
在計算術語中,效果法則描述了将搜尋和存儲結合的基本方法:在每個情形下嘗試各種動作以找到最好的動作,并記錄下情形對最佳動作的映射關系。搜尋和存儲是所有RL算法中必需的組分,其中存儲又可以表現為政策、值函數,或者環境模型等形式。
一個RL算法對搜尋的需求意味着它必須要進行探索。動物也是會探索的,并且早期的動物學習研究者不同意像Thorndike的盒子試驗中選擇動作時動物所使用引導的程度(起始就是探索和利用的權衡問題)。這些動作是絕對随機的結果嗎?或者還是有先前學習、推理、或其他東西一定程度的導引?雖然一些研究者(包括Thorndike)選取了第一種态度,另外一些學者則更傾向于後者。RL算法允許調整智能體在選擇動作中的導引程度。本書各個算法中各種探索的形式,例如 ϵ \epsilon ϵ-greedy方法和UCB方法。還可以使用更成熟的方法,實際上隻要方法能保證一定的探索性即可。
我們對待RL的特性使得可行動作集合能在任何時候根據環境而變化,這與Thorndike在他的實驗中觀察到的相呼應。小貓的可選動作是與其目前所處的位置有關的。當第一次放到盒子中時,小貓會立刻抓撓、撕咬,這是小貓發現自己被囚禁的立即反應。成功的動作是從可選動作集合中選擇的,這和我們在RL中各個狀态的可選動作集合 A ( s ) A(s) A(s)是類似的。确定可選動作集合在RL中是很重要的,因為其可以極大地簡化學習。
著名的動物學習研究者Clark Hull和B. F. Skinner也受到了效果法則的影響。這項研究的核心即基于結果的行為選擇思想。RL與Hull的理論具有共同的特征,包括資格迹機制和用來解釋在動作和其強化刺激之間存在較長時間間隔的學習能力的二階增強。随機性在Hull的理論中也存在,他稱之為行為震蕩,這用來引入探索性行為。
Skinner并不完全采取了效果法則中的記憶方面的内容。他反對associative的思想,而是強調從自發性發射(spontaneously emitted)行為中的選擇。他引入了operant這個術語用來強調動物環境中動作選擇所扮演的關鍵角色。不像Thorndike和其他人的實驗包含分離的試驗的序列,Skinner的操作性條件反射實驗允許動物不受打斷地行動更多的時間。他發明了操作性條件反射腔,現在叫做Skinner盒,其中包含一個按鈕,動物可以按下它獲得回報(水或者食物),回報按照良好定義的規則給出,這個叫做強化程式。通過記錄按鈕被按下的累計次數,并把它當作時間的函數,Skinner和他的同僚們能夠基于動物按壓的頻率研究不同強化程式的效果。
Skinner的另一個貢獻是他對于通過強化期望行為的連續拟合在訓練動物中的有效性的研究,他把這個過程叫做shaping。他和同僚嘗試通過訓練鴿子用嘴拍打木球來投球。在等待很久都沒發現增強擊打現象後,他們決定增強任何與擊打有一些相似的響應,首先是僅僅看着這個球,然後是選擇和最終形式更相似一些的響應。結果讓人很吃驚,鴿子能夠很好的打球了。鴿子不僅僅學會了對其非常不尋常的行為,它還通過互相作用過程快速學習了變化的行為和強化事件的是相應的。Skinner把強化的變化過程比作雕刻家把粘土塑成期望形狀的工作。塑形是計算性RL系統中強有力的技巧。當對于一個智能體接收非零的回報信号有困難時(要麼是由于回報的稀疏性,要麼是由于難解的初始行為),從一個簡單的問題開始,逐漸增加其難度會顯得很有效甚至是不可缺少的政策。
在心理學中,動機(motivation)這個概念是與工具性條件反射很相關的,它涉及到影響行為的方向和強度(活力)的過程。例如,Thorndike的貓實驗的動機是逃出盒子,因為它們想要的食物在盒子外面。獲得食物是對它們的回報,加強了讓它們逃跑的動作的願望。把動機的概念(涉及很多元度)與RL的計算視角精準地聯系起來是困難的,但是在其中一些次元上卻有明确的關聯。
在某種意義上,RL智能體的回報信号是其動機的根本:智能體的動機是最大化累計回報。是以動機的一個關鍵方面就是什麼才能使得智能體得到回報。在RL中,回報信号依賴RL智能體環境的狀态以及智能體的動作。進一步地,正如我們在第一章中指出的,智能體環境的狀态不僅僅包含對于機器而言外部的資訊,也包括機器的内部資訊。有些内部狀态成分對應着心理學家所說的動物動機性狀态,其影響着對動物的回報。例如,動物在饑餓的時候進食會得到更多的回報。狀态依賴的概念很寬泛,能含納很多對回報信号産生的起調制作用的類型。
值函數則提供了與心理學上動機概念進一步的連接配接。如果對動作選擇最基本的動機是獲得盡可能多的回報,那麼對于一個使用值函數選擇動作的RL智能體而言,一個很類似的動機就是沿着值函數梯度方向提高其值,使得選擇的動作能夠導向具有最高值的下個狀态。對于這些智能體,值函數是決定其行為方向的主要驅動力。
動機的另一個次元是,一個動物的動機性狀态不僅僅影響學習,也影響學習過後動物行為的強度(活力)。例如,學會在迷宮中找到食物後,一個饑餓的小鼠會比不餓的小鼠更快地跑向食物。動機的這個方面與我們所介紹過的RL架構沒有很明确的聯系。
我們接下來讨論US的起始在CS的結束之後的情形。RL算法中使用延遲的信号學習的算法,例如資格迹和TD方法,和心理學家關于動物在這種情形下之學習的假設有密切聯系。
5. 延遲的強化
效果法則需要連結的反向作用,一些早期的對效果法則的批判就無法搞清目前是如何對過去造成影響的。而在動作和其引發的回報/懲罰之間具有相當的間隔時仍能學習的事實則放大了這一點。類似的,在經典條件反射中,US的起始在CS的結束之後仍是能學習的,我們把這個問題叫做延遲的強化,這和Minsky所說的學習系統的信用配置設定問題是相關的:如何對多個可能涉及到的引發成功的決策配置設定信用呢?本書中所介紹的RL算法包含兩個解決這個問題的基本機制。第一個是使用資格迹,第二個就是使用TD方法學習值函數,進而提供對動作幾乎立刻的回報或者提供立即的預測目标。這些方法都和動物學習理論中一些相似的機制有關聯。
Pavlov指出,每個刺激都會在神經系統中留下軌迹,而這些軌迹在刺激消失後也會持續一段時間,他還提出在CS結束和US開始之間存在時間間隔時,刺激軌迹使得學習成為可能。到今天為止,這些條件下的條件反射被稱為軌迹條件反射。假設當US到達時,CS的軌迹還沒消失,那麼就能産生學習作用了。我們在下一章會讨論關于軌迹機制的觀點。
刺激軌迹也作為工具性條件反射中連結動作及其在一定時間間隔後的回報/懲罰的一種手段提出,例如在Hull影響性學習理論中,他用品質相關刺激軌迹解釋他所稱的動物目标梯度,也就是一個工具性條件反應的最大強度是如何随着動作與最後給出的回報之間的延遲時間的增加而衰減的。Hull假設,當動物采取行動後,其間隔刺激的軌迹按照時間的指數級衰減。仔細研究在這個時候可得到的動物學習資料,他假設軌迹的的影響在30~40秒後就衰減到0了。
本書中介紹的算法所使用的資格迹就像Hull的軌迹一樣:它們是過去所通路狀态或者狀态動作對的随時間衰減的軌迹,資格迹是Klopf在其神經學理論中引入的,Klopf的資格迹是過去神經元之間突觸活動随時間衰減的過程。Klopf的軌迹比指數衰減資格迹要更加複雜,我們之後再進一步讨論。
本書中介紹的算法既使用了資格迹,也使用了值函數,以使得在延遲的強化下還能夠學習,進而與Hull的關于動物如何在這些條件下學習的假設關聯起來。actor-critic架構清晰地表明了這種關聯。critic使用TD算法來學習與系統目前行為相關的值函數,也就是預測目前政策的return。而actor則基于critic的預測更新目前的政策,也就是依賴于預測的變化。critic産生的TD誤差則作為條件增強信号對actor發揮作用,提供了對性能的立即評估。估計動作值的算法,例如Q-learning或者Sarsa,也類似地使用TD學習法則使在延遲的增強下能夠學習。
6. 認知映射
基于模型的RL使用環境模型,這與心理學家所說的認知映射有很多共同之處。回憶下第八章中我們介紹的規劃和學習,環境模型就是任何能讓智能體預測環境對動作的響應的東西(包含狀态轉移和回報),而規劃則是從環境模型中計算政策的任何過程。環境模型包含兩個部分:狀态轉移部分和回報值部分,它們編碼了某狀态下執行某動作所引發的狀态轉移和回報信号的知識。基于模型的算法也是用于指導動作選擇的,它會預測可能的動作軌迹的所引發的未來狀态序列和回報序列,然後基于此決策,最簡單的做法就是預測一系列可能的動作軌迹的效果并進行比較,選擇出最好的那個。
動物是否利用環境模型?如果利用的話這些模型是什麼樣的?它們是怎麼被學到的?在動物學習研究的曆史中,這些問題是很有影響的。研究者提出了潛在學習(latent learning)的觀點,這對學習和行為的刺激-響應(S-R)觀點(政策學習的最簡單的model-free視角)構成了挑戰。在最早的潛在學習研究中,人們研究了在迷宮中奔跑的兩組小鼠,對于實驗組,最初是沒有任何回報(食物)的(第一階段),但是到了第二階段則突然把食物放到目标盒子中;對于控制組,食物則在兩個階段都在盒子中。問題是,實驗組中的小鼠在第一階段(沒有回報的)能學習到一些東西嗎?結果表明,雖然實驗組小鼠在第一階段看起來沒學到什麼,但是進入第二階段後其表現會迅速追上控制組,也就是說,在無回報階段,小鼠進行了潛在學習,這些學習在有必要的時候就會發揮作用。
心理學家Edward Tolman認為上述小鼠迷宮實驗或類似實驗表明,動物能在沒有回報和懲罰時學習“環境的認知映射”,當動物收到激勵去前往目标時,它們就可以利用這些認知映射。認知映射甚至能讓小鼠規劃一條與最初探索階段不同的路線。關于這個結果的解釋引發了心理學中行為學與認知學兩個角度的長期争議。在現代術語中,認知映射不局限于時空布局的模型上,也指更一般的環境模型,或者說動物的任務空間。認知模型對潛在學習的解釋就好像是說動物也使用基于模型的算法一樣,且即使在沒有明顯的回報和懲罰時,該模型仍然能得到學習,而一旦出現回報和懲罰,則動物就能利用模型進行規劃。
Tolman對動物學習認知映射的解釋也就是:動物學習了刺激-刺激(S-S),通過在探索環境過程中經曆連續的刺激産生刺激之間的關聯。在心理學中,這叫做預期理論:給定S-S關聯,刺激的出現則産生了對下個刺激的預期。這很像控制工程師所說的系統辨識,在最簡單離散時間情形下,訓練樣本就是S-S’對,S是狀态,而下個狀态S’則是标簽。當S被觀察到後,模型會産生對下個狀态S’的預期。在包含動作時,模型對規劃是更有幫助的,記為SA-S’,在狀态S下執行動作A,預測下個狀态S’。學習環境是如何産生回報的也是很有意義的,此時則記為S-R或者SA-R。這些是監督學習的所有形式,智能體無論是否收到回報信号都能學習類似認知映射的知識。
7. 習慣和目标引導的行為
model-free和model-based RL算法的差別對應着心理學家所謂的學到的行為模式的習慣控制和目标導引控制的差別。習慣就是受到适當的刺激激發且接下來能或多或少地自動執行的行為模式;目标導引行為,則是受到目标價值與行動及其結果之關系的知識控制的。有時候習慣也被稱為受到以前的刺激所控制;目标導引行為則被稱為受其結果的控制。 目标導引控制是有優勢的,當環境改變了對動物動作的回應時它能快速地改變動物地行為;而習慣行為則對環境的響應很快,但是無法對環境的變化快速調整。目标導向行為控制的發展可能是動物智力進化的一大進步。
在小鼠迷宮任務中,小鼠需要在有不同目标盒子的迷宮中穿行,每個目标盒子都有不同程度的回報。下圖示意了實驗場景的設定以及model-free和model-based決策政策的差别。從狀态 S 1 S_1 S1出發,小鼠可選的動作為左或者右,然後到達狀态 S 2 S_2 S2或者 S 3 S_3 S3,在新狀态上再次選擇動作,最終得到不同程度的回報,得到回報後該episode就結束了。model-free政策依賴于存儲的狀态-動作對的值,這些動作值表示小鼠在該狀态執行某動作後能得到的最大回報的期望,是通過多次嘗試得到的。當值變得足夠好的時候,小鼠就可以不探索了,直接在每個狀态下選擇最大值的那個動作就可以了;model-free也可以直接存儲一個政策(政策梯度思想)。但是無論哪種model-free方法,都是不依賴環境模型的,沒必要去咨詢一個狀态轉移模型,也不需要學習目标盒子的特征與其能帶來的回報之間的關聯。
而對于model-based的政策,則使用包含狀态轉移與回報兩個模型的環境模型。狀态轉移模型是一個決策樹,而回報模型則将目标盒子與其能帶來的回報值相關聯。基于模型的智能體可以在其目前狀态下利用模型對未來進行模拟,進而找到能通向最高回報的路徑。直接比較最終的回報值是planning中很簡單的一種方法。
當model-free智能體的環境對其動作的反應發生變化時,智能體就必須在改變後的環境中擷取新的經驗,進而更新自己的政策或者值函數。例如,如果改變上述小鼠實驗中一個目标盒子中的回報,那麼小鼠就不得不重新周遊這個迷宮多次以發現這個變化,然後據此修正其政策或者值函數。也就是,對于model-free的智能體來說,如果要改變政策中某個狀态/動作的值,它必須去通路那個狀态/狀态動作對,進而得到改變行為之後的值。
而model-based智能體則好很多,能容忍環境的變化。模型的變化會自動地改變政策。規劃能确定出環境變化導緻地後果,而與智能體自身地經驗沒有關聯。例如,對于上述小鼠實驗,如果我們把 S 2 S_2 S2右側的回報值改為1,那麼由于在之前的模型中這個值是最好的,小鼠還是會前往這個位置,但是會立刻發現這個值變化了,進而更新了回報模型,并在下一輪中會基于新的模型改變自身行動。
以上邏輯是動物的結果貶值實驗(outcome-devaluation experiments)的基礎。這些實驗的結果從側面解釋了動物到底是基于目标導引控制學習的還是僅僅學習了一個習慣。結果貶值實驗就像潛在學習實驗一樣,都是在實驗階段變化的時候使回報也變化。
最早由Adams和Dickinson做了這個類型的實驗,他們通過工具性條件反射訓練小鼠,直到小鼠能積極地按壓獲得糖丸的訓練腔中的按鈕。然後把按鈕去掉并放置非偶然性的食物,使得糖丸與小鼠的動作脫鈎。在15分鐘後,将小鼠分成兩組,對其中一組注射使之惡心的氯化锂。以上過程重複三輪,發現,被注射的小鼠不再去吃非偶然性的食物了,這意味着糖丸的回報值降低了。下一階段則在一天後進行,再次把小鼠放到腔中,并進行一次消失性訓練:把按鈕放回去,但是按下按鈕不再出現食物。結果表明,被注射過的小鼠的反應降低了很多。注意,雖然小鼠被注射過,但是其并不是針對按下按鍵獲得食物這個情形進行的,但是仍然造成了影響。
Adams和Dickinson總結到,被注射的小鼠把按下按鍵與頭暈結合了起來,即通過認知映射把按下按鈕和糖丸聯系,再把糖丸和頭暈聯系。是以,在消失實驗中,小鼠能夠意識到按下按鈕會出現不希望發生的事情。這其中的要點是,小鼠并沒有直接經曆按下按鈕導緻惡心的經驗!小鼠看起來是能夠把行為性選擇導緻結果的知識和結果引發的回報的知識結合起來,并能是以改變自身的行為。不是每個心理學家都同意這種實驗的認知角度的解釋,這也不是解釋這個現象的唯一方式,但是model-based的規劃解釋已經被廣泛接受了。
可以同時使用model-free和model-based算法。我們直到,如果有足夠的重複,目标導向的行為就會趨向于轉變為習慣。實驗表明,這對于小鼠也會出現。Adams做了一個實驗,以研究長期的訓練是否會把目标導引的行為轉變為習慣性行為。Adams在對小鼠進行結果貶值實驗的第一個階段對小鼠進行不同時間的訓練,如果訓練時間更長的小鼠的結果衰減效果與其他相比差,那麼就說明了确實有轉換為習慣性行為的趨勢。結果表明,在注射氯化锂使之惡心階段,兩組小鼠都降低了糖丸的回報值;在消失實驗中,則過訓練的小鼠明顯地減弱了衰減效果,實際上他們雖然曾注射氯化锂,但是仍然會去按鍵。這個結果表明,沒有過訓練的小鼠是受目标導引驅動的,而過訓練的小鼠則是受習慣導引的。
從計算的視角看待這個現象以及其他類似的結果很有啟發性,例如為什麼有時候希望動物受習慣驅動,有時候又希望其受目标驅動呢?為什麼通過更長時間的學習會導緻驅動方式發生變化呢?盡管動物不可能真的使用本書所介紹的那些算法,但是我們能從很多RL算法中的權衡折中過程得到關于動物行為的啟發。計算神經科學家Daw, Niv, 和Dayan提出,動物實際上是同時使用model-free和model-based過程的。每個過程都給出一個動作,然後根據兩個過程的置信度确定到底使用哪個。在學習的早期,model-based的規劃過程更可信,因為它實際上是将一系列短期預測串了起來,而短期預測隻需要很少的經驗資訊就能很準确;但是随着繼續訓練,model-free過程則變得越來越可信,這是因為規劃過程依賴模型,而模型總是有誤差的,并且模型也會因剪枝作用被簡化,以便于高速的規劃。根據這個思想,随着訓練加深,指導動物行為的則會從目标導引過度為習慣導引。目前關于這一點的研究還在繼續。
model-free和model-based算法的差異在研究中是很有用,研究RL中這些算法,分析器優點和局限,可以指導未來心理學家關于行為性和目标導引性實驗的開展。
8. 總結
本章的目标是讨論RL和心理學中動物學習的實驗研究之間的關系,但是我們必須清楚,本書中介紹的RL算法并不試圖對動物行為的細節模組化。RL是用于探索理想情形抽象計算架構,是源于人工智能和工程視角的。但是很多基本的RL算法都受到了心理學理論的啟發,在一些情形下,RL算法還對新的動物學習模型做出了貢獻。本章介紹了這些關聯中最顯著的部分。
RL中的預測算法與控制算法的差異對應着動物學習理論中經典條件反射與工具性條件反射之間的差異。經典條件反射與工具性條件反射之間的主要差别在于,前者面向動物行為的增強性刺激是偶發的,而後者則不是。通過TD算法學習去預測對應着經典條件反射,并且我們把經典條件反射中的TD模型描述為了RL原則解釋動物學習的一些細節的執行個體。這個模型通過引入單個試驗中事件影響學習的時間次元泛化了影響深遠的Rescorla–Wagner模型,并且解釋了二階條件反射(增強性刺激變成了增強本身)。這也是對大腦中多巴胺神經元之活動的最有影響力的觀點的基礎。
通過反複試驗學習是RL中控制過程的基礎。我們介紹了一些Thorndike的貓及其它動物實驗的一些細節,引出了他的效果法則(Law of Effect)。我們指出,在RL中,不必把探索局限于“盲目的搜尋”,完全可以通過基于本能和已經學到的知識的一些成熟方法生成試驗,隻要帶有一定的探索性就行。我們介紹了B. F. Skinner稱為shaping的訓練方法,也就是逐漸改變回報以訓練動物逐漸接近期望的行為。對于動物訓練而言,shaping不僅僅是不可或缺的,也是訓練RL智能體的有效工具。這也和動物的動機性狀态的想法有關。
本書介紹的RL算法包含兩個基本的解決延遲強化的機制:資格迹和通過TD算法學到的值函數。這兩個機制都在動物學習理論中有類似的理論。資格迹與刺激迹的早期理論相似,值函數則與幾乎能提供立即評估回報的二階強化有關。
下一個關聯之處就是RL中的環境模型與心理學中的認知映射。二十世紀中葉的實驗表明,動物能把學習到的認知映射作為後續狀态-動作關聯的備選,并最終用其指導行為,尤其是當環境意外變化的時候。RL中的環境模型就像認知映射,可以通過監督學習方法得到且不需要回報信号,而學到的模型可以用來規劃。
RL中model-free與model-based算法之間的差異對應着心理學中習慣性行為和目标導引行為之間的差異。model-free算法通過存儲的政策或者值函數資訊決策,而model-based方法則使用智能體環境的模型進行規劃,根據規劃的結果決策。結果貶值實驗告訴我們動物行為到底是由習慣導引還是由目标導引。RL理論幫助理清了這些想法。
動物學習告訴我們,RL作為一種機器學習類别,應該向着設計和了解高效的學習算法發展,而不是向着重複或解釋動物行為的方向發展。我們聚焦于動物學習中與解決預測和控制問題的方法有清晰關聯的方面,凸顯出RL和心理學兩個流派中思想的流動,而不去過多關注心理學中的行為性細節和那些争議。未來,RL理論和算法的發展可能會更多地利用動物學習中那些能作為計算性工具特性。
很多RL與心理學領域及其它行為科學的關聯超出了本章的内容,我們極大地省略了關于心理學中決策的讨論,而決策則是在學習之後如何去選擇動作的過程。我們也沒有讨論行為的生态和進化方面,也就是動物與動物之間,動物與實體世界之間是如何相聯系的?他們的行為是如何對進化适應性做出貢獻的?優化、MDPs和DP是這個領域中最重要的角色,我們對智能體和動态環境之間的互動與對智能體在複雜生态下行為的研究密切關聯。多智能體RL在本書中沒有涉及,與這種"生态"是有關聯的。但是,強化學習絕不應被解釋為無視進化觀點,強化學習并不意味着學習和行為的白闆。實際上,經驗和工程應用對于RL就如進化對于動物是一樣的。
參考文獻
[1].Sutton書。