Control del confort térmico mediante aprendizaje por refuerzo en edificios
Saved in:
| Title: | Control del confort térmico mediante aprendizaje por refuerzo en edificios |
|---|---|
| Authors: | María Del Mar Castilla, Carmen Campoy-Iniesta, José Domingo Álvarez |
| Contributors: | Repositorio Institucional de la Universitat Politècnica de València Riunet |
| Source: | RiuNet. Repositorio Institucional de la Universitat Politécnica de Valéncia Universitat Politècnica de València (UPV) Revista Iberoamericana de Automática e Informática Industrial RIAI, Vol 22, Iss 2, Pp 146-155 (2025) |
| Publisher Information: | Universitat Politecnica de Valencia, 2025. |
| Publication Year: | 2025 |
| Subject Terms: | automatización en edificios, Automatización en edificios, aprendizaje por refuerzo, Control engineering systems. Automatic machinery (General), Knowledge-based control, Building automation, control basado en el conocimiento, Thermal comfort, Reinforcement Learning, Confort térmico, Machine Learning, Control basado en el conocimiento, TJ212-225, Aprendizaje por refuerzo, aprendizaje automático, Aprendizaje Automático, confort térmico |
| Description: | El confort t ́ermico se puede definir como la sensaci ́on que garantiza la satisfacci ́on de una persona con el ambiente t ́ermicoque le rodea. Por tanto, garantizar esa sensaci ́on de bienestar de forma eficiente es un factor clave desde el punto de vista delahorro de energ ́ıa, ya que, minimiza los costes y el impacto ambiental derivado de asegurar un ambiente confortable. En estetrabajo, se propone un controlador que utiliza aprendizaje por refuerzo para mantener el confort t ́ermico de los usuarios del centrode investigaci ́on CIESOL. Para ello, se ha hecho uso de un modelo lineal simplificado de la temperatura del aire interior de unahabitaci ́on que ha sido validado con datos reales del edificio. Adem ́as, se han entrenado dos agentes diferentes: un agente deGradiente de Pol ́ıtica Determinista Profunda (DDPG) y un agente de Gradiente de Pol ́ıtica Determinista Profunda de Doble Retardo(TD3). Los resultados obtenidos en simulaci ́on muestran c ́omo el controlador propuesto es capaz de mantener la temperatura interioren la referencia establecida, incluso ante la presencia de perturbaciones. Finalmente, el desempe ̃no del controlador propuesto se hacomparado con un cl ́asico controlador Proporcional-Integral-Derivativo (PID). |
| Document Type: | Article |
| File Description: | application/pdf |
| ISSN: | 1697-7920 1697-7912 |
| DOI: | 10.4995/riai.2025.21944 |
| Access URL: | https://riunet.upv.es/handle/10251/222697 https://doaj.org/article/a90e74dd296c4ba6a17c396a0f604b13 |
| Rights: | CC BY NC SA |
| Accession Number: | edsair.doi.dedup.....6940ef101e92ebd3d60b70be3fe4650e |
| Database: | OpenAIRE |
| Abstract: | El confort t ́ermico se puede definir como la sensaci ́on que garantiza la satisfacci ́on de una persona con el ambiente t ́ermicoque le rodea. Por tanto, garantizar esa sensaci ́on de bienestar de forma eficiente es un factor clave desde el punto de vista delahorro de energ ́ıa, ya que, minimiza los costes y el impacto ambiental derivado de asegurar un ambiente confortable. En estetrabajo, se propone un controlador que utiliza aprendizaje por refuerzo para mantener el confort t ́ermico de los usuarios del centrode investigaci ́on CIESOL. Para ello, se ha hecho uso de un modelo lineal simplificado de la temperatura del aire interior de unahabitaci ́on que ha sido validado con datos reales del edificio. Adem ́as, se han entrenado dos agentes diferentes: un agente deGradiente de Pol ́ıtica Determinista Profunda (DDPG) y un agente de Gradiente de Pol ́ıtica Determinista Profunda de Doble Retardo(TD3). Los resultados obtenidos en simulaci ́on muestran c ́omo el controlador propuesto es capaz de mantener la temperatura interioren la referencia establecida, incluso ante la presencia de perturbaciones. Finalmente, el desempe ̃no del controlador propuesto se hacomparado con un cl ́asico controlador Proporcional-Integral-Derivativo (PID). |
|---|---|
| ISSN: | 16977920 16977912 |
| DOI: | 10.4995/riai.2025.21944 |
Nájsť tento článok vo Web of Science