帶你從不同角度了解強化學習算法的分類

限時免費提供人臉人體、分割摳圖、OCR以及醫療分析等共計140+項AI能力的調用【點此開通】

本文轉載自公衆号“讀芯術”(ID：AI_Discovery)。

本文将介紹強化學習算法的分類法，從多種不同角度學習幾種分類法。話不多說，大家深呼吸，一起來學習RL算法的分類吧!

無模型(Model-Free)VS基于模型(Model-Based)

無模型VS模型分類法 [圖源：作者，OpenAISpinning Up再創作]

RL算法的一種分類方法是詢問代理是否能通路環境模型。換言之，詢問環境會否響應代理的行為。基于這個觀點有兩個RL算法的分支：無模型和基于模型。

模型RL算法根據環境的學習模型來選擇最佳政策。
無模型RL算法通過代理反複測試選擇最佳政策。

兩種算法都各有優缺點，如下表所示：

基于價值VS 基于政策

RL算法的另一種分類方法是考慮算法優化了價值函數還是政策。在深入了解之前，我們先了解政策和價值功能。

(1) 政策

政策π是從狀态s到動作a的映射，其中π(a | s)是在狀态s時采取動作a的機率。政策可以是确定的，也可以是随機的。

假設我們在玩剪刀石頭布這個非常簡單的遊戲，兩個人通過同時執行三個動作(石頭/剪刀/布)中的一個來比輸赢。規則很簡單：

剪刀克布
石頭克剪刀
布克石頭

把政策看作是疊代的剪刀石頭布

确定性政策容易被利用-如果我意識到你出“石頭”較多，那麼我可以利用這一點，獲得更大赢面。
統一的随機政策(uniform random policy)最佳—如果你的選擇完全随機，那我就不知道該采取什麼行動才能取勝。

(2) 價值函數

價值函數是根據對未來回報(傳回值)的預測來衡量狀态良好程度的函數。傳回值(Gt)基本等于“折扣”回報的總和(自t時起)。

γ ∈ [0,1]是折扣因數。折扣因數旨在抵扣未來的回報，有以下幾個原因：

友善數學計算
打破狀态變化圖中的無限循環
未來回報的高度不确定性(比如股價變化)
未來回報不能立時受益(比如人們更願意當下享樂而非十年後)

了解了傳回值的概念後，接下來定義價值函數的數學形式吧!

價值函數的數學形式有二：

狀态-動作價值函數(Q值)是t時狀态動作組合下的期望傳回值：

Q值和價值函數之間的差別是動作優勢函數(通常稱為A值)：

現在知道了什麼是價值函數和動作-狀态價值函數。接下來學習有關RL算法另一個分支的更多資訊，該分支主要關注算法優化的元件。

價值算法與政策算法[圖源：作者，David Silver RL課程再創作]

價值RL旨在學習價值/行動-價值函數，以生成最佳政策(即，隐式生成最佳政策);
政策RL旨在使用參數化函數直接學習政策。
Actor-Critic RL旨在學習價值函數和政策。

下表列出了價值和政策算法的優缺點。

價值算法必須選擇使動作-狀态價值函數最大的動作，如果動作空間非常高維或連續，成本就會很高，而政策算法是通過直接調整政策的參數來運作的，不需要進行最大化計算。
如果操作不當 (收斂性質差/不穩定)，價值算法會出現一系列問題，而政策算法更穩定，收斂性質更好，因為它們隻對政策梯度進行很少的增量更改。
政策算法既可以學習确定性政策，也可以學習随機政策，而價值算法隻能學習确定性政策。
與價值算法相比，原本的政策算法速度更慢，方差更大。價值算法試圖選擇使動作-狀态價值函數最大化的動作，這将優化政策 (運算更快、方差更小)，政策算法隻需幾步，并且更新順暢、穩定，但同時效率較低，有時會導緻方差變大。
政策算法通常收斂于局部最優而不是全局最優。

政策和非政策算法

還有一種RL算法分類方法是基于政策來源分類。

可以說政策算法是“邊做邊學”。也就是說該算法試着從π采樣的經驗中了解政策π。而非政策算法是通過“監視”的方式來工作。換句話說，該算法試圖從μ采樣的經驗中了解政策π。例如，機器人通過觀察人類的行為來學習如何操作。

原文連結：

https://www.toutiao.com/i6901251162683621896/

本文轉自今日頭條，本文一切觀點和機器智能技術圈子無關。

線上免費體驗百種AI能力：【點此跳轉】

帶你從不同角度了解強化學習算法的分類

繼續閱讀

極大似然法(ML)與最大期望法(EM)

[HTML5]自定義屬性 data-* 和 jQuery.data 詳解

2021-2025年中國運動療法（KT）帶行業市場供需與戰略研究報告

C++ 第十五周報告1--《冒泡法排序》

2021年危險化學品經營機關安全管理人員考試題庫及危險化學品經營機關安全管理人員考試技巧

C++實作簡單順序表

筆試面試題目：滑動視窗(二)

資料結構與算法（27）——排序（二）

無人機--飛控科普

Dijkstra--簡易版（最短路徑）

C經典書籍筆記——C陷阱與缺陷②(文法陷阱之優先級)一、錯誤案列二、優先級規律

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

線性表之順序表的實作

C++判斷素數、求最大公約數代碼判斷一個數是否為素數求兩個數的最大公約數

SequoiaDB巨杉資料庫C++驅動概述

hdu7108哈希