Bandit algorithms for policy learning: methods, implementation, and welfare-performance
Static supervised learning—in which experimental data serves as a training sample for the estimation of an optimal treatment assignment policy—is a commonly assumed framework of policy learning. An arguably more realistic but challenging scenario is a dynamic setting in which the planner performs ex...
Gespeichert in:
| Veröffentlicht in: | Japanese economic review (Oxford, England) Jg. 75; H. 3; S. 407 - 447 |
|---|---|
| Hauptverfasser: | , |
| Format: | Journal Article |
| Sprache: | Englisch |
| Veröffentlicht: |
Singapore
Springer Nature Singapore
01.07.2024
Springer Nature B.V |
| Schlagworte: | |
| ISSN: | 1352-4739, 1468-5876 |
| Online-Zugang: | Volltext |
| Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Schreiben Sie den ersten Kommentar!