天天看點

DL--Markov decision process(MDP)(馬爾可夫決策過程)

wiki:​​https://en.wikipedia.org/wiki/Markov_decision_process​​

馬爾可夫決策過程(MDP)是一個離散時間随機控制過程。它提供了一個數學架構,用于在結果部分随機、部分受決策者控制的情況下模組化決策。MDPs有助于研究動态規劃和強化學習所解決的優化問題。MDPs至少早在20世紀50年代就已為人所知;[1]Markov決策過程的一個核心研究機構源于Ronald Howard 1960年的著作《動态規劃和Markov過程》。[2]它們被應用于許多學科,包括機器人學、自動控制、經濟學和制造業。MDPs的名字來自俄羅斯數學家Andrey Markov,因為它們是Markov鍊的一個擴充。

在每個時間步驟中,程序都處于某些狀态s,決策者可以選擇狀态s中可用的任何操作a。在下一個時間步驟中,該程序通過随機進入新狀态s′,并給予決策者相應的獎勵R a(s,s′)。程序進入新狀态s’的機率受所選操作的影響。具體地說,它是由狀态轉換函數P a(s,s′)給出的。是以,下一個狀态s'取決于目前狀态s和決策者的操作a。但是,給定s和a,它在條件上獨立于所有先前的狀态和操作;換句話說,MDP的狀态轉換滿足Markov屬性。

馬爾可夫決策過程是馬爾可夫鍊的延伸,差別在于行動(允許選擇)和獎勵(給予動機)的相加。相反,如果每個狀态隻存在一個動作(例如“等待”),并且所有獎勵都是相同的(例如“零”),則馬爾可夫決策過程減少到馬爾可夫鍊。

繼續閱讀