Fault-Tolerant Protocol for Hybrid Task-Parallel Message-Passing Applications

We present a fault-tolerant protocol for task-parallel message-passing applications to mitigate transient errors. The protocol requires the restart only of the task that experienced the error and transparently handles any MPI calls inside the task. The protocol is implemented in Nanos -- a dataflow...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Veröffentlicht in:Proceedings / IEEE International Conference on Cluster Computing S. 563 - 570
Hauptverfasser: Martsinkevich, Tatiana, Subasi, Omer, Unsal, Osman, Cappello, Franck, Labarta, Jesus
Format: Tagungsbericht
Sprache:Englisch
Veröffentlicht: IEEE 01.09.2015
Schlagworte:
ISSN:1552-5244
Online-Zugang:Volltext
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!