Stochastic Normalized Gradient Descent with Momentum for Large-Batch Training

Stochastic gradient descent~(SGD) and its variants have been the dominating optimization methods in machine learning. Compared to SGD with small-batch training, SGD with large-batch training can better utilize the computational power of current multi-core systems such as graphics processing units~(G...

Celý popis

Uložené v:

Podrobná bibliografia
Vydané v:	arXiv.org
Hlavní autori:	Shen-Yi, Zhao, Chang-Wei, Shi, Yin-Peng, Xie, Wu-Jun, Li
Médium:	Paper
Jazyk:	English
Vydavateľské údaje:	Ithaca Cornell University Library, arXiv.org 15.04.2024
Predmet:	Computation Machine learning Momentum Optimization Training
ISSN:	2331-8422
On-line prístup:	Získať plný text
Tagy:	Pridať tag Žiadne tagy, Buďte prvý, kto otaguje tento záznam!

Buďte prvý, kto okomentuje tento záznam!