Multiagent value iteration algorithms in dynamic programming and reinforcement learning

We consider infinite horizon dynamic programming problems, where the control at each stage consists of several distinct decisions, each one made by one of several agents. In an earlier work we introduced a policy iteration algorithm, where the policy improvement is done one-agent-at-a-time in a give...

Celý popis

Uloženo v:
Podrobná bibliografie
Vydáno v:Results in control and optimization Ročník 1; s. 100003
Hlavní autor: Bertsekas, Dimitri
Médium: Journal Article
Jazyk:angličtina
Vydáno: Elsevier B.V 01.12.2020
Elsevier
ISSN:2666-7207, 2666-7207
On-line přístup:Získat plný text
Tagy: Přidat tag
Žádné tagy, Buďte první, kdo vytvoří štítek k tomuto záznamu!
Buďte první, kdo okomentuje tento záznam!
Nejprve se musíte přihlásit.