Rationing bandwidth resources for mitigating network resource contention in distributed DNN training clusters
Distributed deep neural network (DDNN) training becomes increasingly compelling as the DNN model gets complex and the dataset grows large. Through an in-depth analysis of the latest Microsoft GPU cluster trace, we show that the co-located Parameter Server (PS) configuration is not uncommon in produc...
Uložené v:
| Vydané v: | CCF transactions on high performance computing (Online) Ročník 3; číslo 2; s. 171 - 185 |
|---|---|
| Hlavní autori: | , , , |
| Médium: | Journal Article |
| Jazyk: | English |
| Vydavateľské údaje: |
Singapore
Springer Singapore
01.06.2021
Springer Nature B.V |
| Predmet: | |
| ISSN: | 2524-4922, 2524-4930 |
| On-line prístup: | Získať plný text |
| Tagy: |
Pridať tag
Žiadne tagy, Buďte prvý, kto otaguje tento záznam!
|
Buďte prvý, kto okomentuje tento záznam!