Conservative Q-Learning for Offline Reinforcement Learning
- 要解決的問題
離線強化學習中資料集和學習政策之間的分布偏移導緻值高估問題,對大型靜态資料集學習效率低問題。
由于π被訓練為最大化q值,它可能會偏向具有錯誤的高q值的out- distribution (OOD)動作。在标準的RL中,這種錯誤可以通過在環境中嘗試一個動作并觀察它的實際值來糾正。然而,由于無法與環境互動,在離線RL中處理OOD動作的q值具有挑戰性。
- 中心思想:
Conservative是“保守”,之前的off-line會面臨over-estimate Q的問題,那我們加入正則項使得我們的Q estimator更加保守。
它旨在通過學習一個保守q函數來解決這些限制,使得政策在這個q函數得到的值是其真實值的下界。
- 具體方法
在實踐中,CQL用一個簡單的q值正則化器來增加标準的Bellman錯誤目标,這個正則化器可以直接在現有的深度q學習和actor- critical實作之上實作。

他猜的是Vπ????
算法流程:
SCA這個也是一種動作批判做法(還沒詳細看)。
(僅使用actor- critical)通過Gπ梯度提高政策πφ
SAC-style熵正則化的φ步驟:
µ(s, a)狀态-動作分布。
en µ(a|s)政策。
- 使用方法
實作細節。對于連續控制實驗,我們的算法隻需要在soft actor- critical (SAC)[21]的标準實作之上增加20行代碼,對于離散控制實驗,則需要在QR-DQN[9]的标準實作之上增加20行代碼。對于連續控制,權衡因子α通過拉格朗日雙梯度下降自動調整,對于離散控制,它固定在附錄F中描述的常數值。我們使用SAC的預設超參數,除了政策的學習速率被選擇為3e-5 (q函數的vs 3e-4或1e-4),感覺像那種即插即用的方法。
- 實際作用
總而言之,CQL優化了一個定義明确的、懲罰性的經驗RL目标,并對行為政策進行了高可信度的安全政策改進。改進的程度受到較高的抽樣誤差的負面影響,随着觀察到的樣本越多,抽樣誤差越小。
- 實驗證明
證明他的作用,即推測減去真實值變大了。
Gym
Atari
D4RL
政策是指的是智能體(agent)在不同的狀态(state)下選擇如何選擇動作(action)
我們這樣定義 - 評估動作的價值,我們稱為Q值:它代表了智能體選擇這個動作後,一直到最終狀态獎勵總和的期望; - 評估狀态的價值,我們稱為V值:它代表了智能體在這個狀态下,一直到最終狀态的獎勵總和的期望。
actor-critic algorithm