Fault-Tolerant Protocol for Hybrid Task-Parallel Message-Passing Applications

We present a fault-tolerant protocol for task-parallel message-passing applications to mitigate transient errors. The protocol requires the restart only of the task that experienced the error and transparently handles any MPI calls inside the task. The protocol is implemented in Nanos -- a dataflow...

Celý popis

Uloženo v:
Podrobná bibliografie
Vydáno v:Proceedings / IEEE International Conference on Cluster Computing s. 563 - 570
Hlavní autoři: Martsinkevich, Tatiana, Subasi, Omer, Unsal, Osman, Cappello, Franck, Labarta, Jesus
Médium: Konferenční příspěvek
Jazyk:angličtina
Vydáno: IEEE 01.09.2015
Témata:
ISSN:1552-5244
On-line přístup:Získat plný text
Tagy: Přidat tag
Žádné tagy, Buďte první, kdo vytvoří štítek k tomuto záznamu!
Buďte první, kdo okomentuje tento záznam!
Nejprve se musíte přihlásit.