Rationing bandwidth resources for mitigating network resource contention in distributed DNN training clusters
Distributed deep neural network (DDNN) training becomes increasingly compelling as the DNN model gets complex and the dataset grows large. Through an in-depth analysis of the latest Microsoft GPU cluster trace, we show that the co-located Parameter Server (PS) configuration is not uncommon in produc...
Uloženo v:
| Vydáno v: | CCF transactions on high performance computing (Online) Ročník 3; číslo 2; s. 171 - 185 |
|---|---|
| Hlavní autoři: | , , , |
| Médium: | Journal Article |
| Jazyk: | angličtina |
| Vydáno: |
Singapore
Springer Singapore
01.06.2021
Springer Nature B.V |
| Témata: | |
| ISSN: | 2524-4922, 2524-4930 |
| On-line přístup: | Získat plný text |
| Tagy: |
Přidat tag
Žádné tagy, Buďte první, kdo vytvoří štítek k tomuto záznamu!
|
Buďte první, kdo okomentuje tento záznam!