A Fault-Model-Relevant Classification of Consensus Mechanisms for MPI and HPC

Large-scale HPC systems experience failures arising from faults in hardware, software, and/or networking. Failure rates continue to grow as systems scale up and out. Crash fault tolerance has up to now been the focus when considering means to augment the Message Passing Interface (MPI) for fault-tol...

Celý popis

Uloženo v:
Podrobná bibliografie
Vydáno v:International journal of parallel programming Ročník 51; číslo 2-3; s. 128 - 149
Hlavní autoři: Nansamba, Grace, Altarawneh, Amani, Skjellum, Anthony
Médium: Journal Article
Jazyk:angličtina
Vydáno: New York Springer US 01.06.2023
Springer Nature B.V
Témata:
ISSN:0885-7458, 1573-7640
On-line přístup:Získat plný text
Tagy: Přidat tag
Žádné tagy, Buďte první, kdo vytvoří štítek k tomuto záznamu!
Buďte první, kdo okomentuje tento záznam!
Nejprve se musíte přihlásit.