Policy-based Primal-Dual Methods for Concave CMDP with Variance Reduction

We study Concave Constrained Markov Decision Processes (Concave CMDPs) where both the objective and constraints are defined as concave functions of the state-action occupancy measure. We propose the Variance-Reduced Primal-Dual Policy Gradient Algorithm (VR-PDPG), which updates the primal variable v...

Celý popis

Uloženo v:
Podrobná bibliografie
Vydáno v:The Journal of artificial intelligence research Ročník 83
Hlavní autoři: Ying, Donghao, Guo, Mengzi Amy, Lee, Hyunin, Ding, Yuhao, Lavaei, Javad, Shen, Zuo-Jun Max
Médium: Journal Article
Jazyk:angličtina
Vydáno: 01.01.2025
ISSN:1076-9757, 1076-9757
On-line přístup:Získat plný text
Tagy: Přidat tag
Žádné tagy, Buďte první, kdo vytvoří štítek k tomuto záznamu!
Buďte první, kdo okomentuje tento záznam!
Nejprve se musíte přihlásit.