Quasi-Stochastic Approximation and Off-Policy Reinforcement Learning
The Robbins-Monro stochastic approximation algorithm is a foundation of many algorithmic frameworks for reinforcement learning (RL), and often an efficient approach to solving (or approximating the solution to) complex optimal control problems. However, in many cases practitioners are unable to appl...
Uložené v:
| Vydané v: | Proceedings of the IEEE Conference on Decision & Control s. 5244 - 5251 |
|---|---|
| Hlavní autori: | , , , , , |
| Médium: | Konferenčný príspevok.. |
| Jazyk: | English |
| Vydavateľské údaje: |
IEEE
01.12.2019
|
| Predmet: | |
| ISSN: | 2576-2370 |
| On-line prístup: | Získať plný text |
| Tagy: |
Pridať tag
Žiadne tagy, Buďte prvý, kto otaguje tento záznam!
|
Buďte prvý, kto okomentuje tento záznam!