Evaluación de rendimiento de arquitecturas paralelas y de propósito específico para el aprendizaje por refuerzo en juegos ; Performance evaluation of parallel and specic-purpose architectures for reinforcement learning in games

Uloženo v:
Podrobná bibliografie
Název: Evaluación de rendimiento de arquitecturas paralelas y de propósito específico para el aprendizaje por refuerzo en juegos ; Performance evaluation of parallel and specic-purpose architectures for reinforcement learning in games
Autoři: Guzmán Muñoz, Javier
Přispěvatelé: Igual Peña, Francisco Daniel, Costero Valero, Luis Mª
Rok vydání: 2021
Sbírka: Universidad Complutense de Madrid (UCM): E-Prints Complutense
Témata: 004(043.3), Aprendizaje por refuerzo, Algoritmo PPO, Red neuronal de convoluci´on, Ray RLlib, Entornos Gym, TPU Google Coral, Aceleradores hardware, Reinforcement learning, PPO algorithm, Convolutional neural network, Gym environ- ments, Google Coral TPU, Hardware accelerators, Informática (Informática), 1203.17 Informática
Popis: Trabajo de Fin de Grado en Doble Grado en Ingeniería Informática - Matemáticas , Facultad de Informática UCM, Departamento de Arquitectura de Computadores y Automática, Curso 2020-21 ; Las aplicaciones de aprendizaje por refuerzo se usan en la actualidad para resolver problemas de todo tipo en campos muy diversos. Sin embargo, una de las principales desventajas que presentan es el elevado coste computacional del entrenamiento de los modelos necesarios. Con este trabajo de fin de grado se pretende mejorar este proceso mediante la paralelización de los algoritmos empleados y el uso de distintas arquitecturas hardware que variarán los tiempos requeridos. Los modelos entrenados pueden aplicarse para obtener la mejor secuencia de acciones que podemos realizar sobre un entorno y mejorar la recompensa obtenida. Este proceso, que se denomina inferencia, aunque tiene menor complejidad computacional, se realiza muchas más veces, por lo que se han desarrollado procesadores de propósito específico para llevar a cabo esta tarea. Por ello, también es conveniente evaluar su rendimiento en estos soportes y compararlos con otras unidades de procesamiento más generales. Tras definir el escenario en el que nos vamos a mover y los recursos necesarios para ello, se proponen una serie de experimentos de los procesos de entrenamiento e inferencia que nos permitirán evaluar el rendimiento en términos del tiempo empleado, de la utilización de los recursos disponibles y del consumo de energía de distintas arquitecturas hardware, viendo cuál es más conveniente usar en cada caso. ; Nowadays, reinforcement learning applications are used to solve all kinds of problems in a wide variety of fields. However, one of their main disadvantages is the high computational cost of training the necessary models. This Bachelor’s thesis aims at improving this process by parallelizing the involved algorithms and by using different hardware architectures, which will differ in the amount of time used. We can run previously trained models to obtain the best ...
Druh dokumentu: bachelor thesis
Popis souboru: application/pdf
Jazyk: Spanish; Castilian
Relation: https://hdl.handle.net/20.500.14352/10496
Dostupnost: https://hdl.handle.net/20.500.14352/10496
Rights: Atribución-NoComercial 3.0 España ; https://creativecommons.org/licenses/by-nc/3.0/es/ ; open access
Přístupové číslo: edsbas.813E1FB3
Databáze: BASE
Popis
Abstrakt:Trabajo de Fin de Grado en Doble Grado en Ingeniería Informática - Matemáticas , Facultad de Informática UCM, Departamento de Arquitectura de Computadores y Automática, Curso 2020-21 ; Las aplicaciones de aprendizaje por refuerzo se usan en la actualidad para resolver problemas de todo tipo en campos muy diversos. Sin embargo, una de las principales desventajas que presentan es el elevado coste computacional del entrenamiento de los modelos necesarios. Con este trabajo de fin de grado se pretende mejorar este proceso mediante la paralelización de los algoritmos empleados y el uso de distintas arquitecturas hardware que variarán los tiempos requeridos. Los modelos entrenados pueden aplicarse para obtener la mejor secuencia de acciones que podemos realizar sobre un entorno y mejorar la recompensa obtenida. Este proceso, que se denomina inferencia, aunque tiene menor complejidad computacional, se realiza muchas más veces, por lo que se han desarrollado procesadores de propósito específico para llevar a cabo esta tarea. Por ello, también es conveniente evaluar su rendimiento en estos soportes y compararlos con otras unidades de procesamiento más generales. Tras definir el escenario en el que nos vamos a mover y los recursos necesarios para ello, se proponen una serie de experimentos de los procesos de entrenamiento e inferencia que nos permitirán evaluar el rendimiento en términos del tiempo empleado, de la utilización de los recursos disponibles y del consumo de energía de distintas arquitecturas hardware, viendo cuál es más conveniente usar en cada caso. ; Nowadays, reinforcement learning applications are used to solve all kinds of problems in a wide variety of fields. However, one of their main disadvantages is the high computational cost of training the necessary models. This Bachelor’s thesis aims at improving this process by parallelizing the involved algorithms and by using different hardware architectures, which will differ in the amount of time used. We can run previously trained models to obtain the best ...