天天看點

【強化學習】個人總結02——馬爾科夫決策過程前言1. 馬爾可夫過程 (Markov Process,MP)2. 馬爾可夫獎勵過程 (Markov Reward Processes,MRP)3. 馬爾可夫決策過程 (Markov Decision Process,MDP)總結

文章目錄

  • 前言
  • 1. 馬爾可夫過程 (Markov Process,MP)
    • 1.1 基本概念
  • 2. 馬爾可夫獎勵過程 (Markov Reward Processes,MRP)
    • 2.1 基本概念
  • 3. 馬爾可夫決策過程 (Markov Decision Process,MDP)
    • 3.1 基本概念
  • 總結

前言

馬爾可夫過程和馬爾可夫獎勵過程是馬爾可夫決策過程的基礎,是以先介紹前兩個過程,最後再講本文的核心馬爾可夫決策過程。

1. 馬爾可夫過程 (Markov Process,MP)

1.1 基本概念

馬爾科夫性 (Markov Property):在一個時序過程中,如果 t+1 時刻的狀态僅取決于 t 時刻的狀态 St 而與 t 時刻之前的任何狀态都無關時,則認為 t 時刻的狀态 St 具有馬爾科夫性。也就是說,一個狀态的下一個狀态隻取決于它目前狀态,而跟它目前狀态之前的狀态都沒有關系。

馬爾科夫過程 (Markov Process):若上述過程中的每一個狀态都具有馬爾科夫性,則這個過程具備馬爾科夫性。具備了馬爾科夫性的随機過程稱為馬爾科夫過程,又稱馬爾科夫鍊 (Markov Chain)。

狀态轉移矩陣 (State Transition Matrix, P):描述一個馬爾科夫過程的核心,該矩陣定義了從任意一個狀态 s 到它所有後繼狀态 s′ 的狀态轉移機率。矩陣 P 中每一行的資料表示從某一個狀态到所有 n 個狀态的轉移機率值,每一行的這些值加起來的和應該為 1。

采樣 (sample):從符合馬爾科夫過程給定的狀态轉移矩陣中生成一個狀态序列的過程。也就是在一個馬爾科夫鍊中選取有限個狀态組成一個序列。

狀态序列 (episode):采樣得到的一系列狀态轉換過程。當狀态序列的最後一個狀态是終止狀态時,該狀态序列稱為完整的狀态序列 (complete episode)。

2. 馬爾可夫獎勵過程 (Markov Reward Processes,MRP)

2.1 基本概念

獎勵函數 (reward function, R):獎勵 (reward) 的期望函數,當 agent 到達某一個狀态時就可以獲得多少獎勵。而獎勵值是由環境決定的。

衰減系數 (discount factor, γ):取值範圍在 [0, 1] 之間,作用是使後續某一個狀态 s′ 對目前狀态 s 的收獲的貢獻要小于該狀态 s′ 的獎勵。引入該系數可以避免計算收獲時陷入循環而無法求解(有些馬爾科夫過程是帶環的,并沒有終結),還反映了遠期獎勵對于目前狀态具有一定的不确定性(我們對未來的評估不一定是準确的),是以需要折扣計算收獲。

收獲 (return, G):在一個馬爾科夫獎勵過程中,從某一個狀态 St 開始采樣直到終止狀态時所有獎勵的有衰減的總和,也稱為回報。也就是說,收獲這個概念是對一個完整狀态序列的第一個狀态來定義的,計算了從該狀态開始到結束獲得的有折扣的累積獎勵。

可以認為,收獲間接地給狀态序列中的每一個狀态設定了一個資料标簽,反映了某狀态的重要程度。

狀态價值函數 (state value function, v(s)):價值 (value) 是 MRP 中某一狀态收獲的期望。也就是說,從該狀态開始依據 P 采樣生成一系列的狀态序列,分别對每一個狀态序列計算該狀态的收獲,然後對該狀态的所有收獲計算平均值得到一個平均收獲。當采樣生成的狀态序列越多,計算得到的平均收獲就越接近該狀态的價值,是以價值可以準确地反映某一狀态的重要程度。

如果存在一個函數,給定一個狀态能得到該狀态對應的價值,那麼該函數就被稱為價值函數 (value function)。價值函數建立了從狀态到價值的映射。

貝爾曼方程 (Bellman Equation):一個狀态的價值由該狀态的獎勵以及後續狀态價值按機率分布求和按一定的衰減比例聯合組成。也就是說,某一個狀态的價值是由兩部分組成的,一是當下狀态的即時獎勵 (immediate reward),二是未來獎勵的折扣總和 (discounted sum of future reward)。

3. 馬爾可夫決策過程 (Markov Decision Process,MDP)

3.1 基本概念

政策 (policy, π):在馬爾科夫決策過程中,agent 在給定狀态下從行為集中選擇一個行為的依據。政策 π 是某一狀态下基于行為集合的一個機率分布,也就是說,如果将某一狀态帶入政策函數,就可以得到下一個動作的機率,即在所有可能的動作裡怎樣采取行動。

狀态價值函數 (state value function, vπ(s)):在馬爾科夫決策過程下基于政策 π 的狀态價值函數,表示從狀态 s 開始,遵循目前政策 π 時所獲得的收獲的期望。

行為價值函數 (action value function, qπ(s, a)):在遵循政策 π 時,對目前狀态 s 執行某一具體行為 a 時所獲得的收獲的期望。也稱為 Q 函數 (Q-function)。

狀态價值和行為價值的聯系:一個狀态的價值可以用該狀态下所有行為價值來表示,一個行為的價值也可以用該行為所能到達的後續狀态的價值來表示。也就是說,二者可以利用彼此求出各自的期望。

最優狀态價值函數 (optimal value function, v∗):所有政策下産生的衆多狀态價值函數中的最大者。

最優行為價值函數 (optimal action-value function, q∗(s, a)):所有政策下産生的衆多行為價值函數中的最大者。

總結

馬爾科夫決策過程是強化學習問題的基石之一,這是因為無論環境狀态是否完全可觀測,我們都可以通過建構 MDP 來描述整個強化學習問題。是以,正确了解 MDP 中的一些概念和關系對于了解強化學習問題非常重要。

本文主要是對 MP, MRP, MDP 的基本概念做了較為細緻的梳理,這對我了解這些概念與關系有很大的幫助,比如說我對學習資料中出現的公式和圖例不再陌生了,看到一條公式能明白每個符号的含義以及整個公式的意義。還有,我明白了如何從最基礎的 MP 概念到較為複雜的 MDP 概念。

但由于該編輯器的公式編輯功能我還未掌握,是以該總結還是不太全面。後續會考慮在此基礎上繼續更新我的個人總結。