An Adaptive Sampling Algorithm for Solving Markov Decision Processes
Based on recent results for multiarmed bandit problems, we propose an adaptive sampling algorithm that approximates the optimal value of a finite-horizon Markov decision process (MDP) with finite state and action spaces. The algorithm adaptively chooses which action to sample as the sampling process...
Uloženo v:
| Vydáno v: | Operations research Ročník 53; číslo 1; s. 126 - 139 |
|---|---|
| Hlavní autoři: | , , , |
| Médium: | Journal Article |
| Jazyk: | angličtina |
| Vydáno: |
Linthicum, MD
INFORMS
01.01.2005
Institute for Operations Research and the Management Sciences |
| Témata: | |
| ISSN: | 0030-364X, 1526-5463 |
| On-line přístup: | Získat plný text |
| Tagy: |
Přidat tag
Žádné tagy, Buďte první, kdo vytvoří štítek k tomuto záznamu!
|
Buďte první, kdo okomentuje tento záznam!