Quasi-Stochastic Approximation and Off-Policy Reinforcement Learning

The Robbins-Monro stochastic approximation algorithm is a foundation of many algorithmic frameworks for reinforcement learning (RL), and often an efficient approach to solving (or approximating the solution to) complex optimal control problems. However, in many cases practitioners are unable to appl...

Celý popis

Uloženo v:
Podrobná bibliografie
Vydáno v:Proceedings of the IEEE Conference on Decision & Control s. 5244 - 5251
Hlavní autoři: Bernstein, Andrey, Chen, Yue, Colombino, Marcello, Dall'Anese, Emiliano, Mehta, Prashant, Meyn, Sean
Médium: Konferenční příspěvek
Jazyk:angličtina
Vydáno: IEEE 01.12.2019
Témata:
ISSN:2576-2370
On-line přístup:Získat plný text
Tagy: Přidat tag
Žádné tagy, Buďte první, kdo vytvoří štítek k tomuto záznamu!
Buďte první, kdo okomentuje tento záznam!
Nejprve se musíte přihlásit.