Multiagent value iteration algorithms in dynamic programming and reinforcement learning

We consider infinite horizon dynamic programming problems, where the control at each stage consists of several distinct decisions, each one made by one of several agents. In an earlier work we introduced a policy iteration algorithm, where the policy improvement is done one-agent-at-a-time in a give...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Veröffentlicht in:Results in control and optimization Jg. 1; S. 100003
1. Verfasser: Bertsekas, Dimitri
Format: Journal Article
Sprache:Englisch
Veröffentlicht: Elsevier B.V 01.12.2020
Elsevier
ISSN:2666-7207, 2666-7207
Online-Zugang:Volltext
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!