Faster algorithm and sharper analysis for constrained Markov decision process

The problem of constrained Markov decision process (CMDP) is investigated, where an agent aims to maximize the expected accumulated reward subject to constraints on its utilities/costs. We propose a new primal-dual approach with a novel integration of entropy regularization and Nesterov's accel...

Celý popis

Uložené v:
Podrobná bibliografia
Vydané v:Operations research letters Ročník 54; s. 107107
Hlavní autori: Li, Tianjiao, Guan, Ziwei, Zou, Shaofeng, Xu, Tengyu, Liang, Yingbin, Lan, Guanghui
Médium: Journal Article
Jazyk:English
Vydavateľské údaje: Elsevier B.V 01.05.2024
Predmet:
ISSN:0167-6377, 1872-7468
On-line prístup:Získať plný text
Tagy: Pridať tag
Žiadne tagy, Buďte prvý, kto otaguje tento záznam!
Buďte prvý, kto okomentuje tento záznam!
Najprv sa musíte prihlásiť.