Low-complexity algorithm for restless bandits with imperfect observations

We consider a class of restless bandit problems that finds a broad application area in reinforcement learning and stochastic optimization. We consider N independent discrete-time Markov processes, each of which had two possible states: 1 and 0 (‘good’ and ‘bad’). Only if a process is both in state 1...

Celý popis

Uloženo v:
Podrobná bibliografie
Vydáno v:Mathematical methods of operations research (Heidelberg, Germany) Ročník 100; číslo 2; s. 467 - 508
Hlavní autoři: Liu, Keqin, Weber, Richard, Zhang, Chengzhong
Médium: Journal Article
Jazyk:angličtina
Vydáno: Berlin/Heidelberg Springer Berlin Heidelberg 01.10.2024
Springer Nature B.V
Témata:
ISSN:1432-2994, 1432-5217
On-line přístup:Získat plný text
Tagy: Přidat tag
Žádné tagy, Buďte první, kdo vytvoří štítek k tomuto záznamu!
Buďte první, kdo okomentuje tento záznam!
Nejprve se musíte přihlásit.