Checkpointing strategies for a fixed-length execution

This work considers checkpointing strategies for a parallel application executing on a large-scale platform whose nodes are subject to failures. The application executes for a fixed duration, namely the length of the reservation that it has been granted. We start with small examples that show the di...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Veröffentlicht in:SC24-W: Workshops of the International Conference for High Performance Computing, Networking, Storage and Analysis S. 508 - 518
Hauptverfasser: Benoit, Anne, Perotin, Lucas, Robert, Yves, Vivien, Frederic
Format: Tagungsbericht
Sprache:Englisch
Veröffentlicht: IEEE 17.11.2024
Schlagworte:
Online-Zugang:Volltext
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!