DQN(Deep Reiforcement Learning) 發展曆程(一)

2019-02-26 11:14:00

目錄

馬爾可夫理論
- 馬爾可夫性質
- 馬爾可夫過程(MP)
- 馬爾可夫獎勵過程(MRP)
  - 值函數（value function）
  - MRP求解
- 馬爾可夫決策過程（MDP）
  - 效用函數
  - 優化的值函數
  - 貝爾曼等式
參考

DQN發展曆程(一)

DQN發展曆程(二)

DQN發展曆程(三)

DQN發展曆程(四)

DQN發展曆程(五)

P[St+1 | St] = P[St+1 | S1,...,St]
給定目前狀态 St ，過去的狀态可以不用考慮
目前狀态 St 可以代表過去的所有狀态
給定目前狀态的條件下，未來的狀态和過去的狀态互相獨立。

形式化地描述了強化學習的環境。
包括二進制組(S,P)
根據給定的轉移機率矩陣P，從目前狀态St轉移到下一狀态St+1，
基于模型的（Model-based）：事先給出了轉移機率矩陣P

和馬爾可夫過程相比,加入了獎勵r，加入了折扣因子gamma，gamma在0～1之間。
馬爾可夫獎勵過程是一個四元組⟨S, P, R, γ⟩
需要折扣因子的原因是
- 使未來累積獎勵在數學上易于計算
- 由于可能經過某些重複狀态，避免累積獎勵的計算成死循環
- 用于表示未來的不确定性
- gamma越大表示越看中未來的獎勵

引入了值函數（value function），給每一個狀态一個值V，以從目前狀态St到評估未來的目标G的累積折扣獎勵的大小

DQN(Deep Reiforcement Learning) 發展曆程(一)

DQN(Deep Reiforcement Learning) 發展曆程(一)

v = R + γPv （矩陣形式）
直接解出上述方程時間複雜度O(n^3), 隻适用于一些小規模問題

加入了一個動作因素a，用于每個狀态的決策
MDP是一個五元組⟨S, A, P, R, γ⟩
政策policy是從S到A的一個映射

相比于值函數，加入了一個動作因素

DQN(Deep Reiforcement Learning) 發展曆程(一)

為了求最佳政策，在值函數求解時，選擇一個最大的v來更新目前狀态對應的v

DQN(Deep Reiforcement Learning) 發展曆程(一)

和值函數的求解方法相比，不需要從目前狀态到目标求解，隻需要從目前狀态到下一狀态即可（根據遞推公式）

DQN(Deep Reiforcement Learning) 發展曆程(一)

david siver 課程

https://home.cnblogs.com/u/pinard/

上一篇: 2019寒假訓練營第一次作業

下一篇: UIO,大頁記憶體,CPU親和性,NUMA機制等