Low-complexity algorithm for restless bandits with imperfect observations

We consider a class of restless bandit problems that finds a broad application area in reinforcement learning and stochastic optimization. We consider N independent discrete-time Markov processes, each of which had two possible states: 1 and 0 (‘good’ and ‘bad’). Only if a process is both in state 1...

Celý popis

Uloženo v:

Podrobná bibliografie
Vydáno v:	Mathematical methods of operations research (Heidelberg, Germany) Ročník 100; číslo 2; s. 467 - 508
Hlavní autoři:	Liu, Keqin, Weber, Richard, Zhang, Chengzhong
Médium:	Journal Article
Jazyk:	angličtina
Vydáno:	Berlin/Heidelberg Springer Berlin Heidelberg 01.10.2024 Springer Nature B.V
Témata:	Algorithms Business and Management Calculus of Variations and Optimal Control; Optimization Complexity Dynamic programming Markov processes Mathematics Mathematics and Statistics Multi-armed bandit problems Operations Research/Decision Theory Optimization Original Research 93E20 Continuous state space 90B36 93E35 Observation errors Restless bandits Index policy
ISSN:	1432-2994, 1432-5217
On-line přístup:	Získat plný text
Tagy:	Přidat tag Žádné tagy, Buďte první, kdo vytvoří štítek k tomuto záznamu!

Buďte první, kdo okomentuje tento záznam!