天天看點

Reinforcement Learning學習總結

強化學習是需要建立一個存在大量表征學習參數的世界模拟器(World Simulator),模拟真實世界的邏輯和原理,它的目的和作用是:讓機器(Agent)能夠了解并且預測世界的規律,通過預測和規劃,具備理性的邏輯分析能力。

Actor-Critic算法思想:對于一個系統,從狀态輸入到決策輸出之間,我們可以聯合Policy-based和Value-based兩種決策方式去改進成為新的決策方式。

Reinforcement Learning學習總結

繼續閱讀