Low-complexity algorithm for restless bandits with imperfect observations
We consider a class of restless bandit problems that finds a broad application area in reinforcement learning and stochastic optimization. We consider N independent discrete-time Markov processes, each of which had two possible states: 1 and 0 (‘good’ and ‘bad’). Only if a process is both in state 1...
Gespeichert in:
| Veröffentlicht in: | Mathematical methods of operations research (Heidelberg, Germany) Jg. 100; H. 2; S. 467 - 508 |
|---|---|
| Hauptverfasser: | , , |
| Format: | Journal Article |
| Sprache: | Englisch |
| Veröffentlicht: |
Berlin/Heidelberg
Springer Berlin Heidelberg
01.10.2024
Springer Nature B.V |
| Schlagworte: | |
| ISSN: | 1432-2994, 1432-5217 |
| Online-Zugang: | Volltext |
| Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Schreiben Sie den ersten Kommentar!