Low-complexity algorithm for restless bandits with imperfect observations

We consider a class of restless bandit problems that finds a broad application area in reinforcement learning and stochastic optimization. We consider N independent discrete-time Markov processes, each of which had two possible states: 1 and 0 (‘good’ and ‘bad’). Only if a process is both in state 1...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Veröffentlicht in:Mathematical methods of operations research (Heidelberg, Germany) Jg. 100; H. 2; S. 467 - 508
Hauptverfasser: Liu, Keqin, Weber, Richard, Zhang, Chengzhong
Format: Journal Article
Sprache:Englisch
Veröffentlicht: Berlin/Heidelberg Springer Berlin Heidelberg 01.10.2024
Springer Nature B.V
Schlagworte:
ISSN:1432-2994, 1432-5217
Online-Zugang:Volltext
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!