Understanding the Performance of Erasure Codes in Hadoop Distributed File System
Gespeichert in:
| Titel: | Understanding the Performance of Erasure Codes in Hadoop Distributed File System |
|---|---|
| Autoren: | Darrous, Jad, Ibrahim, Shadi |
| Weitere Verfasser: | Software Stack for Massively Geo-Distributed Infrastructures (STACK), Centre Inria de l'Université de Rennes, Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria)-Orange S.A.-Laboratoire des Sciences du Numérique de Nantes (LS2N), Institut National de Recherche en Informatique et en Automatique (Inria)-Centre National de la Recherche Scientifique (CNRS)-IMT Atlantique (IMT Atlantique), Institut Mines-Télécom Paris (IMT)-Institut Mines-Télécom Paris (IMT)-NANTES UNIVERSITÉ - École Centrale de Nantes (Nantes Univ - ECN), Nantes Université (Nantes Univ)-Nantes Université (Nantes Univ)-Nantes université - UFR des Sciences et des Techniques (Nantes univ - UFR ST), Nantes Université - pôle Sciences et technologie, Nantes Université (Nantes Univ)-Nantes Université (Nantes Univ)-Nantes Université - pôle Sciences et technologie, Nantes Université (Nantes Univ)-Centre National de la Recherche Scientifique (CNRS)-IMT Atlantique (IMT Atlantique), Nantes Université (Nantes Univ), Design and Implementation of Autonomous Distributed Systems (MYRIADS), Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria)-SYSTÈMES LARGE ÉCHELLE (IRISA-D1), Institut de Recherche en Informatique et Systèmes Aléatoires (IRISA), Université de Rennes (UR)-Institut National des Sciences Appliquées - Rennes (INSA Rennes), Institut National des Sciences Appliquées (INSA)-Institut National des Sciences Appliquées (INSA)-Université de Bretagne Sud (UBS)-École normale supérieure - Rennes (ENS Rennes)-Institut National de Recherche en Informatique et en Automatique (Inria)-CentraleSupélec-Centre National de la Recherche Scientifique (CNRS)-IMT Atlantique (IMT Atlantique), Institut Mines-Télécom Paris (IMT)-Institut Mines-Télécom Paris (IMT)-Université de Rennes (UR)-Institut National des Sciences Appliquées - Rennes (INSA Rennes), Institut Mines-Télécom Paris (IMT)-Institut Mines-Télécom Paris (IMT)-Institut de Recherche en Informatique et Systèmes Aléatoires (IRISA), Institut National des Sciences Appliquées (INSA)-Institut National des Sciences Appliquées (INSA)-Université de Bretagne Sud (UBS)-École normale supérieure - Rennes (ENS Rennes)-CentraleSupélec-Centre National de la Recherche Scientifique (CNRS)-IMT Atlantique (IMT Atlantique), Institut Mines-Télécom Paris (IMT)-Institut Mines-Télécom Paris (IMT), Grid'5000, ANR-16-CE25-0014,KerStream,Traitement de données massives: allons au-delà d'Hadoop!(2016) |
| Quelle: | CHEOPS 22 - Proceedings of the Workshop on Challenges and Opportunities of Efficient and Performant Storage Systems ; https://inria.hal.science/hal-03890398 ; CHEOPS 22 - Proceedings of the Workshop on Challenges and Opportunities of Efficient and Performant Storage Systems, Apr 2022, Rennes, France. pp.24-32, ⟨10.1145/3503646.3524296⟩ |
| Verlagsinformationen: | CCSD ACM |
| Publikationsjahr: | 2022 |
| Schlagwörter: | Erasure coding, HDFS, Performance evaluation systems, [SCCO.COMP]Cognitive science/Computer science |
| Geographisches Schlagwort: | Rennes, France |
| Beschreibung: | International audience ; Replication has been successfully employed and practiced to ensure high data availability in large-scale distributed storage systems. However, with the relentless growth of gen- erated and collected data, replication has become expensive not only in terms of storage cost but also in terms of network cost and hardware cost. Traditionally, erasure coding (EC) is employed as a cost-efficient alternative to replication when high access latency to the data can be tolerated. However, with the continuous reduction in its CPU overhead, EC is performed on the critical path of data access. For instance, EC has been integrated into the last major release of Hadoop Distributed File System (HDFS) which is the primary storage backend for data analytic frameworks (e.g., Hadoop, Spark, etc.). In this work, we measure and compare the performance of data accesses in HDFS under both replication and EC. Our analysis indicates that EC is a feasible solution for data- intensive applications and it can outperform replication in many scenarios. Furthermore, we demonstrate that it is the block placement algorithm in HDFS that mostly impacts the performance under EC. |
| Publikationsart: | conference object |
| Sprache: | English |
| DOI: | 10.1145/3503646.3524296 |
| Verfügbarkeit: | https://inria.hal.science/hal-03890398 https://inria.hal.science/hal-03890398v1/document https://inria.hal.science/hal-03890398v1/file/cheops-2022-CR.pdf https://doi.org/10.1145/3503646.3524296 |
| Rights: | http://creativecommons.org/licenses/by/ ; info:eu-repo/semantics/OpenAccess |
| Dokumentencode: | edsbas.729177A3 |
| Datenbank: | BASE |
Schreiben Sie den ersten Kommentar!
Nájsť tento článok vo Web of Science