An Adaptive Sampling Algorithm for Solving Markov Decision Processes

Based on recent results for multiarmed bandit problems, we propose an adaptive sampling algorithm that approximates the optimal value of a finite-horizon Markov decision process (MDP) with finite state and action spaces. The algorithm adaptively chooses which action to sample as the sampling process...

Celý popis

Uloženo v:

Podrobná bibliografie
Vydáno v:	Operations research Ročník 53; číslo 1; s. 126 - 139
Hlavní autoři:	Chang, Hyeong Soo, Fu, Michael C, Hu, Jiaqiao, Marcus, Steven I
Médium:	Journal Article
Jazyk:	angličtina
Vydáno:	Linthicum, MD INFORMS 01.01.2005 Institute for Operations Research and the Management Sciences
Témata:	Algorithms Applied sciences Business orders Decision making Dynamic programming dynamic programming/optimal control:Markov finite state Estimation bias Estimators Exact sciences and technology Inventory control Markov analysis Markov processes Mathematical programming Mathematics Methods Modeling Operational research and scientific management Operational research. Management science Optimal policy Probability and statistics Sampling Sampling bias Sampling theory, sample surveys Sciences and techniques of general use Statistical sampling Statistics Studies Unbiased estimators United States Markov process Finite horizon Stochastic model Markov decision Adaptive algorithm Optimal control Inventory control Dynamic programming Sampling dynamic programming/optimal control: Markov finite state
ISSN:	0030-364X, 1526-5463
On-line přístup:	Získat plný text
Tagy:	Přidat tag Žádné tagy, Buďte první, kdo vytvoří štítek k tomuto záznamu!

Buďte první, kdo okomentuje tento záznam!