Quasi-Stochastic Approximation and Off-Policy Reinforcement Learning
The Robbins-Monro stochastic approximation algorithm is a foundation of many algorithmic frameworks for reinforcement learning (RL), and often an efficient approach to solving (or approximating the solution to) complex optimal control problems. However, in many cases practitioners are unable to appl...
Gespeichert in:
| Veröffentlicht in: | Proceedings of the IEEE Conference on Decision & Control S. 5244 - 5251 |
|---|---|
| Hauptverfasser: | , , , , , |
| Format: | Tagungsbericht |
| Sprache: | Englisch |
| Veröffentlicht: |
IEEE
01.12.2019
|
| Schlagworte: | |
| ISSN: | 2576-2370 |
| Online-Zugang: | Volltext |
| Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Schreiben Sie den ersten Kommentar!