Rationing bandwidth resources for mitigating network resource contention in distributed DNN training clusters

Distributed deep neural network (DDNN) training becomes increasingly compelling as the DNN model gets complex and the dataset grows large. Through an in-depth analysis of the latest Microsoft GPU cluster trace, we show that the co-located Parameter Server (PS) configuration is not uncommon in produc...

Celý popis

Uložené v:
Podrobná bibliografia
Vydané v:CCF transactions on high performance computing (Online) Ročník 3; číslo 2; s. 171 - 185
Hlavní autori: Qi, Qiang, Xu, Fei, Chen, Li, Zhou, Zhi
Médium: Journal Article
Jazyk:English
Vydavateľské údaje: Singapore Springer Singapore 01.06.2021
Springer Nature B.V
Predmet:
ISSN:2524-4922, 2524-4930
On-line prístup:Získať plný text
Tagy: Pridať tag
Žiadne tagy, Buďte prvý, kto otaguje tento záznam!
Buďte prvý, kto okomentuje tento záznam!
Najprv sa musíte prihlásiť.