Deterministic policy gradient algorithms for semi‐Markov decision processes

A large class of sequential decision‐making problems under uncertainty, with broad applications from preventive maintenance to event‐triggered control can be modeled in the framework of semi‐Markov decision processes (SMDPs). Unlike Markov decision processes (MDPs), SMDPs are underexplored in the on...

Celý popis

Uloženo v:

Podrobná bibliografie
Vydáno v:	International journal of intelligent systems Ročník 37; číslo 7; s. 4008 - 4019
Hlavní autoři:	Hosseinloo, Ashkan Haji, Dahleh, Munther A.
Médium:	Journal Article
Jazyk:	angličtina
Vydáno:	New York John Wiley & Sons, Inc 01.07.2022
Témata:	Algorithms average reward deterministic policy Intelligent systems Markov analysis Markov processes policy gradient theorem Preventive maintenance reinforcement learning SMDP Theorems
ISSN:	0884-8173, 1098-111X
On-line přístup:	Získat plný text
Tagy:	Přidat tag Žádné tagy, Buďte první, kdo vytvoří štítek k tomuto záznamu!

Buďte první, kdo okomentuje tento záznam!