Policy-based Primal-Dual Methods for Concave CMDP with Variance Reduction
We study Concave Constrained Markov Decision Processes (Concave CMDPs) where both the objective and constraints are defined as concave functions of the state-action occupancy measure. We propose the Variance-Reduced Primal-Dual Policy Gradient Algorithm (VR-PDPG), which updates the primal variable v...
Uloženo v:
| Vydáno v: | The Journal of artificial intelligence research Ročník 83 |
|---|---|
| Hlavní autoři: | , , , , , |
| Médium: | Journal Article |
| Jazyk: | angličtina |
| Vydáno: |
01.01.2025
|
| ISSN: | 1076-9757, 1076-9757 |
| On-line přístup: | Získat plný text |
| Tagy: |
Přidat tag
Žádné tagy, Buďte první, kdo vytvoří štítek k tomuto záznamu!
|
Buďte první, kdo okomentuje tento záznam!