Parallel and distributed asynchronous adaptive stochastic gradient methods
Stochastic gradient methods (SGMs) are the predominant approaches to train deep learning models. The adaptive versions (e.g., Adam and AMSGrad) have been extensively used in practice, partly because they achieve faster convergence than the non-adaptive versions while incurring little overhead. On th...
Gespeichert in:
| Veröffentlicht in: | Mathematical programming computation Jg. 15; H. 3; S. 471 - 508 |
|---|---|
| Hauptverfasser: | , , , , , |
| Format: | Journal Article |
| Sprache: | Englisch |
| Veröffentlicht: |
Berlin/Heidelberg
Springer Berlin Heidelberg
01.09.2023
Springer Nature B.V |
| Schlagworte: | |
| ISSN: | 1867-2949, 1867-2957 |
| Online-Zugang: | Volltext |
| Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Schreiben Sie den ersten Kommentar!