Paralelizácia ETL procesov DW ČVUT s využitím nástroja Pentaho ; Parallelization of DW CTU ETL processes in the Pentaho tool
Saved in:
| Title: | Paralelizácia ETL procesov DW ČVUT s využitím nástroja Pentaho ; Parallelization of DW CTU ETL processes in the Pentaho tool |
|---|---|
| Authors: | Adam Marhefka |
| Contributors: | Valenta Michal, Karol Pavel |
| Publisher Information: | České vysoké učení technické v Praze. Vypočetní a informační centrum. Czech Technical University in Prague. Computing and Information Centre. |
| Publication Year: | 2023 |
| Collection: | Czech Technical University in Prague: Digital Library / České vysoké učení technické v Praze: Digitální knihovna ČVUT |
| Subject Terms: | aplikácia, dátový sklad, ETL, Java, Kettle API, paralelizácia, Pentaho Data Integration, POC, Spring, application, data warehouse, parallelization |
| Description: | Táto bakalárska práca sa zaoberá paralelizáciou ETL procesov Dátového skladu ČVUT. Cieľom je analyzovať možnosti aktuálne používaného nástroja Pentaho Data Integration z pohľadu splnenia požiadaviek a v prípade potreby rozšíriť prostriedky nástroja pomocou vlastnej aplikácie. Požiadavky sú definované spolu so súbežnou bakalárskou prácou, ktorá skúma riešenie pomocou iných nástrojov. V praktickej časti sa na základe analýzy využívajú vhodné funkcionality aktuálneho nástroja na dátovú paralelizáciu a taktiež správu logovania. Pre implementáciu úlohovej paralelizácie a ostatných požiadaviek je vytvorená aplikácia v jazyku Java s využitím Kettle Java API. Aplikácia ukladá komponenty potrebné k nahrávaniu vo forme orientovaného acyklického grafu, čím zaručuje správne poradie vykonávania ETL procesov. Na uloženie potrebných závislostí a informácií o komponentách či na správu metadát o nahrávaniach sú použité databázové tabuľky. Na interakciu s aplikáciou je poskytnuté API rozhranie. V závere práce je zhodnotený prínos realizovaného riešenia z pohľadu budúceho využitia pre správu ETL procesov Dátového skladu ČVUT. ; This bachelor thesis deals with the parallelization of ETL processes of the CTU Data Warehouse. the aim is to analyze the capabilities of the currently used Pentaho Data Integration tool from the point of view of meeting the requirements and, if necessary, to extend the tool's resources by means of a custom application. the requirements are defined together with a parallel bachelor thesis that explores the solution using other tools. In the practical part, based on the analysis, appropriate functionalities of the current tool for data parallelization and also log management are used. For the implementation of task parallelization and other requirements, a Java application is developed using the Kettle Java API. the application stores the components required to load the data warehouse in the form of a directed acyclic graph, thus guaranteeing the correct order of execution of ETL processes. To store the ... |
| Document Type: | bachelor thesis |
| File Description: | application/pdf |
| Language: | unknown |
| Relation: | http://hdl.handle.net/10467/109565 |
| Availability: | http://hdl.handle.net/10467/109565 |
| Rights: | A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.html ; Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html |
| Accession Number: | edsbas.75758747 |
| Database: | BASE |
| Abstract: | Táto bakalárska práca sa zaoberá paralelizáciou ETL procesov Dátového skladu ČVUT. Cieľom je analyzovať možnosti aktuálne používaného nástroja Pentaho Data Integration z pohľadu splnenia požiadaviek a v prípade potreby rozšíriť prostriedky nástroja pomocou vlastnej aplikácie. Požiadavky sú definované spolu so súbežnou bakalárskou prácou, ktorá skúma riešenie pomocou iných nástrojov. V praktickej časti sa na základe analýzy využívajú vhodné funkcionality aktuálneho nástroja na dátovú paralelizáciu a taktiež správu logovania. Pre implementáciu úlohovej paralelizácie a ostatných požiadaviek je vytvorená aplikácia v jazyku Java s využitím Kettle Java API. Aplikácia ukladá komponenty potrebné k nahrávaniu vo forme orientovaného acyklického grafu, čím zaručuje správne poradie vykonávania ETL procesov. Na uloženie potrebných závislostí a informácií o komponentách či na správu metadát o nahrávaniach sú použité databázové tabuľky. Na interakciu s aplikáciou je poskytnuté API rozhranie. V závere práce je zhodnotený prínos realizovaného riešenia z pohľadu budúceho využitia pre správu ETL procesov Dátového skladu ČVUT. ; This bachelor thesis deals with the parallelization of ETL processes of the CTU Data Warehouse. the aim is to analyze the capabilities of the currently used Pentaho Data Integration tool from the point of view of meeting the requirements and, if necessary, to extend the tool's resources by means of a custom application. the requirements are defined together with a parallel bachelor thesis that explores the solution using other tools. In the practical part, based on the analysis, appropriate functionalities of the current tool for data parallelization and also log management are used. For the implementation of task parallelization and other requirements, a Java application is developed using the Kettle Java API. the application stores the components required to load the data warehouse in the form of a directed acyclic graph, thus guaranteeing the correct order of execution of ETL processes. To store the ... |
|---|
Nájsť tento článok vo Web of Science