天天看點

帶你從不同角度了解強化學習算法的分類

限時免費提供人臉人體、分割摳圖、OCR以及醫療分析等共計140+項AI能力的調用 【點此開通】

本文轉載自公衆号“讀芯術”(ID:AI_Discovery)。

本文将介紹強化學習算法的分類法,從多種不同角度學習幾種分類法。話不多說,大家深呼吸,一起來學習RL算法的分類吧!

帶你從不同角度了解強化學習算法的分類
無模型(Model-Free)VS基于模型(Model-Based)
帶你從不同角度了解強化學習算法的分類

無模型VS模型分類法 [圖源:作者,OpenAISpinning Up再創作]

RL算法的一種分類方法是詢問代理是否能通路環境模型。換言之,詢問環境會否響應代理的行為。基于這個觀點有兩個RL算法的分支:無模型和基于模型。

  • 模型RL算法根據環境的學習模型來選擇最佳政策。
  • 無模型RL算法通過代理反複測試選擇最佳政策。

兩種算法都各有優缺點,如下表所示:

帶你從不同角度了解強化學習算法的分類

基于價值VS 基于政策

RL算法的另一種分類方法是考慮算法優化了價值函數還是政策。在深入了解之前,我們先了解政策和價值功能。

(1) 政策

政策π是從狀态s到動作a的映射,其中π(a | s)是在狀态s時采取動作a的機率。政策可以是确定的,也可以是随機的。

假設我們在玩剪刀石頭布這個非常簡單的遊戲,兩個人通過同時執行三個動作(石頭/剪刀/布)中的一個來比輸赢。規則很簡單:

  • 剪刀克布
  • 石頭克剪刀
  • 布克石頭

把政策看作是疊代的剪刀石頭布

  • 确定性政策容易被利用-如果我意識到你出“石頭”較多,那麼我可以利用這一點,獲得更大赢面。
  • 統一的随機政策(uniform random policy)最佳—如果你的選擇完全随機,那我就不知道該采取什麼行動才能取勝。

(2) 價值函數

價值函數是根據對未來回報(傳回值)的預測來衡量狀态良好程度的函數。傳回值(Gt)基本等于“折扣”回報的總和(自t時起)。

帶你從不同角度了解強化學習算法的分類

γ ∈ [0,1]是折扣因數。折扣因數旨在抵扣未來的回報,有以下幾個原因:

  • 友善數學計算
  • 打破狀态變化圖中的無限循環
  • 未來回報的高度不确定性(比如股價變化)
  • 未來回報不能立時受益(比如人們更願意當下享樂而非十年後)

了解了傳回值的概念後,接下來定義價值函數的數學形式吧!

價值函數的數學形式有二:

帶你從不同角度了解強化學習算法的分類

狀态-動作價值函數(Q值)是t時狀态動作組合下的期望傳回值:

帶你從不同角度了解強化學習算法的分類

Q值和價值函數之間的差別是動作優勢函數(通常稱為A值):

帶你從不同角度了解強化學習算法的分類

現在知道了什麼是價值函數和動作-狀态價值函數。接下來學習有關RL算法另一個分支的更多資訊,該分支主要關注算法優化的元件。

帶你從不同角度了解強化學習算法的分類

價值算法與政策算法[圖源:作者,David Silver RL課程再創作]

  • 價值RL旨在學習價值/行動-價值函數,以生成最佳政策(即,隐式生成最佳政策);
  • 政策RL旨在使用參數化函數直接學習政策。
  • Actor-Critic RL旨在學習價值函數和政策。

下表列出了價值和政策算法的優缺點。

帶你從不同角度了解強化學習算法的分類
  • 價值算法必須選擇使動作-狀态價值函數最大的動作,如果動作空間非常高維或連續,成本就會很高,而政策算法是通過直接調整政策的參數來運作的,不需要進行最大化計算。
  • 如果操作不當 (收斂性質差/不穩定),價值算法會出現一系列問題,而政策算法更穩定,收斂性質更好,因為它們隻對政策梯度進行很少的增量更改。
  • 政策算法既可以學習确定性政策,也可以學習随機政策,而價值算法隻能學習确定性政策。
  • 與價值算法相比,原本的政策算法速度更慢,方差更大。價值算法試圖選擇使動作-狀态價值函數最大化的動作,這将優化政策 (運算更快、方差更小),政策算法隻需幾步,并且更新順暢、穩定,但同時效率較低,有時會導緻方差變大。
  • 政策算法通常收斂于局部最優而不是全局最優。

政策和非政策算法

還有一種RL算法分類方法是基于政策來源分類。

帶你從不同角度了解強化學習算法的分類

可以說政策算法是“邊做邊學”。也就是說該算法試着從π采樣的經驗中了解政策π。而非政策算法是通過“監視”的方式來工作。換句話說,該算法試圖從μ采樣的經驗中了解政策π。例如,機器人通過觀察人類的行為來學習如何操作。

原文連結:

https://www.toutiao.com/i6901251162683621896/

本文轉自今日頭條,本文一切觀點和機器智能技術圈子無關。

線上免費體驗百種AI能力:【點此跳轉】
帶你從不同角度了解強化學習算法的分類

繼續閱讀