Fault-Tolerant Protocol for Hybrid Task-Parallel Message-Passing Applications

We present a fault-tolerant protocol for task-parallel message-passing applications to mitigate transient errors. The protocol requires the restart only of the task that experienced the error and transparently handles any MPI calls inside the task. The protocol is implemented in Nanos -- a dataflow...

Celý popis

Uložené v:
Podrobná bibliografia
Vydané v:Proceedings / IEEE International Conference on Cluster Computing s. 563 - 570
Hlavní autori: Martsinkevich, Tatiana, Subasi, Omer, Unsal, Osman, Cappello, Franck, Labarta, Jesus
Médium: Konferenčný príspevok..
Jazyk:English
Vydavateľské údaje: IEEE 01.09.2015
Predmet:
ISSN:1552-5244
On-line prístup:Získať plný text
Tagy: Pridať tag
Žiadne tagy, Buďte prvý, kto otaguje tento záznam!
Buďte prvý, kto okomentuje tento záznam!
Najprv sa musíte prihlásiť.