Bandit algorithms for policy learning: methods, implementation, and welfare-performance

Static supervised learning—in which experimental data serves as a training sample for the estimation of an optimal treatment assignment policy—is a commonly assumed framework of policy learning. An arguably more realistic but challenging scenario is a dynamic setting in which the planner performs ex...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Veröffentlicht in:Japanese economic review (Oxford, England) Jg. 75; H. 3; S. 407 - 447
Hauptverfasser: Kitagawa, Toru, Rowley, Jeff
Format: Journal Article
Sprache:Englisch
Veröffentlicht: Singapore Springer Nature Singapore 01.07.2024
Springer Nature B.V
Schlagworte:
ISSN:1352-4739, 1468-5876
Online-Zugang:Volltext
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!