Quasi-Stochastic Approximation and Off-Policy Reinforcement Learning

The Robbins-Monro stochastic approximation algorithm is a foundation of many algorithmic frameworks for reinforcement learning (RL), and often an efficient approach to solving (or approximating the solution to) complex optimal control problems. However, in many cases practitioners are unable to appl...

Celý popis

Uložené v:
Podrobná bibliografia
Vydané v:Proceedings of the IEEE Conference on Decision & Control s. 5244 - 5251
Hlavní autori: Bernstein, Andrey, Chen, Yue, Colombino, Marcello, Dall'Anese, Emiliano, Mehta, Prashant, Meyn, Sean
Médium: Konferenčný príspevok..
Jazyk:English
Vydavateľské údaje: IEEE 01.12.2019
Predmet:
ISSN:2576-2370
On-line prístup:Získať plný text
Tagy: Pridať tag
Žiadne tagy, Buďte prvý, kto otaguje tento záznam!
Buďte prvý, kto okomentuje tento záznam!
Najprv sa musíte prihlásiť.