AdapCC: Making Collective Communication in Distributed Machine Learning Adaptive

As deep learning (DL) models continue to grow in size, there is a pressing need for distributed model learning using a large number of devices (e.g., G PU s) and servers. Collective communication among devices/servers (for gradient synchronization, intermediate data exchange, etc.) introduces signif...

Celý popis

Uloženo v:
Podrobná bibliografie
Vydáno v:Proceedings of the International Conference on Distributed Computing Systems s. 25 - 35
Hlavní autoři: Zhao, Xiaoyang, Zhang, Zhe, Wu, Chuan
Médium: Konferenční příspěvek
Jazyk:angličtina
Vydáno: IEEE 23.07.2024
Témata:
ISSN:2575-8411
On-line přístup:Získat plný text
Tagy: Přidat tag
Žádné tagy, Buďte první, kdo vytvoří štítek k tomuto záznamu!
Buďte první, kdo okomentuje tento záznam!
Nejprve se musíte přihlásit.