Coping with Silent Errors for Workflows of Moldable Tasks
Saved in:
| Title: | Coping with Silent Errors for Workflows of Moldable Tasks |
|---|---|
| Authors: | Gao, Qi, Han, Li, Hunold, Sascha, Robert, Yves, Vivien, Frédéric |
| Contributors: | Roma, Equipe |
| Publisher Information: | 2025. |
| Publication Year: | 2025 |
| Subject Terms: | Silent errors, moldable tasks, [INFO.INFO-DC] Computer Science [cs]/Distributed, Parallel, and Cluster Computing [cs.DC], checkpointing, workflows, verification |
| Description: | Nous étudions ici les stratégies de prise de points de sauvegarde pour les workflows composés de tâches modelables qui sont soumis à des pannes silencieuses. Nous partons de CPA13, un algorithme de placement et d’ordonnancement de graphes de tâches modelable à l’état de l’art, et nous l’étendons de différentes manières pour mitiger l’impact des erreurs silencieuses. Nous définissons de nouvelles stratégies d’allocation de ressources et de placement qui évitent de sauvegarder trop ou trop peu de tâches. Nous menons une vaste campagne de simulation et nous montrons que nous obtenons des gains significatifs par rapport à CkptCrossover, l’extension de CPA13 qui sert de référence, et à deux stratégies naturelles, CkptAll (toutes les tâches sont sauvegardées) et CkptNone (aucune tâche n’est sauvegardée).Notre approche a un taux de succès de 97.5% sur l’ensemble des scénarios considérés, quand CkptCrossover et CkptAll ont un taux autour de 80%, et CkptNone un taux inférieur à 20%. De plus, nous obtenons un gain moyen de 35% par rapport aux autres solutions quand elles réussis- sent à exécuter l’application dans le temps imparti. Tous ces résultats montrent la robustesse et l’efficacité de notre approche. This work considers checkpointing strategies for workflows composed of moldable tasks that are subject to silent errors. We build upon CPA13, a state-of-the-art scheduling and mapping algorithm for moldable task graphs in an error-free environment, and we extend it in several directions to mitigate the impact of silent errors. We design new allocation and mapping strategies that avoid checkpointing either too few or too many tasks. We run an extensive set of simulations and report important gains over CkptCrossover , the baseline extension of CPA13, and two natural competitor strategies, CkptAll (checkpoint all tasks) and CkptNone (checkpoint no task). Our approach achieves a success rate of 97.5% over all experimental scenarios, while CkptCrossover and CkptAll have a rate around 80%, and CkptNone less than 20%. In addition, we achieve an average gain of 35% over the competitors whenever these are not timed out. All these results demonstrate the robustness and efficiency of our new approach. |
| Document Type: | External research report |
| File Description: | application/pdf |
| Language: | English |
| Access URL: | https://inria.hal.science/hal-05116521v1 |
| Rights: | CC BY |
| Accession Number: | edsair.dedup.wf.002..e4b19aac8e29408b9f8210febd1ffde3 |
| Database: | OpenAIRE |
| Abstract: | Nous étudions ici les stratégies de prise de points de sauvegarde pour les workflows composés de tâches modelables qui sont soumis à des pannes silencieuses. Nous partons de CPA13, un algorithme de placement et d’ordonnancement de graphes de tâches modelable à l’état de l’art, et nous l’étendons de différentes manières pour mitiger l’impact des erreurs silencieuses. Nous définissons de nouvelles stratégies d’allocation de ressources et de placement qui évitent de sauvegarder trop ou trop peu de tâches. Nous menons une vaste campagne de simulation et nous montrons que nous obtenons des gains significatifs par rapport à CkptCrossover, l’extension de CPA13 qui sert de référence, et à deux stratégies naturelles, CkptAll (toutes les tâches sont sauvegardées) et CkptNone (aucune tâche n’est sauvegardée).Notre approche a un taux de succès de 97.5% sur l’ensemble des scénarios considérés, quand CkptCrossover et CkptAll ont un taux autour de 80%, et CkptNone un taux inférieur à 20%. De plus, nous obtenons un gain moyen de 35% par rapport aux autres solutions quand elles réussis- sent à exécuter l’application dans le temps imparti. Tous ces résultats montrent la robustesse et l’efficacité de notre approche.<br />This work considers checkpointing strategies for workflows composed of moldable tasks that are subject to silent errors. We build upon CPA13, a state-of-the-art scheduling and mapping algorithm for moldable task graphs in an error-free environment, and we extend it in several directions to mitigate the impact of silent errors. We design new allocation and mapping strategies that avoid checkpointing either too few or too many tasks. We run an extensive set of simulations and report important gains over CkptCrossover , the baseline extension of CPA13, and two natural competitor strategies, CkptAll (checkpoint all tasks) and CkptNone (checkpoint no task). Our approach achieves a success rate of 97.5% over all experimental scenarios, while CkptCrossover and CkptAll have a rate around 80%, and CkptNone less than 20%. In addition, we achieve an average gain of 35% over the competitors whenever these are not timed out. All these results demonstrate the robustness and efficiency of our new approach. |
|---|
Nájsť tento článok vo Web of Science