Why Globally Re-shuffle? Revisiting Data Shuffling in Large Scale Deep Learning

Stochastic gradient descent (SGD) is the most prevalent algorithm for training Deep Neural Networks (DNN). SGD iterates the input data set in each training epoch processing data samples in a random access fashion. Because this puts enormous pressure on the I/O subsystem, the most common approach to...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Veröffentlicht in:Proceedings - IEEE International Parallel and Distributed Processing Symposium S. 1085 - 1096
Hauptverfasser: Nguyen, Truong Thao, Trahay, Francois, Domke, Jens, Drozd, Aleksandr, Vatai, Emil, Liao, Jianwei, Wahib, Mohamed, Gerofi, Balazs
Format: Tagungsbericht
Sprache:Englisch
Veröffentlicht: IEEE 01.05.2022
Schlagworte:
ISSN:1530-2075
Online-Zugang:Volltext
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!