Spatial data science approaches to predict environmental and socioeconomic health determinants

Saved in:
Bibliographic Details
Title: Spatial data science approaches to predict environmental and socioeconomic health determinants
Authors: Milà Garcia, Carles
Thesis Advisors: Tonne, Cathryn, Basagaña Flores, Xavier
Source: TDX (Tesis Doctorals en Xarxa)
Publisher Information: Universitat Pompeu Fabra, 2025.
Publication Year: 2025
Physical Description: 135 p.
Subject Terms: Modelització espacial, Spatial modelling, Modelización espacial, Aprenentatge automàtic, Machine learning, Aprendizaje automático, Exposicions mediambientals, Environmental exposures, Exposiciones ambientales, Posició socioeconòmica, Socioeconomic position, Posición socioeconómica, Teledetecció, Remote Sensing, Teledetección
Description: Aquesta tesi, organitzada en tres articles, proposa avenços metodològics en els processos de predicció espacial utilitzats per a exposicions ambientals i socioeconòmiques. El primer estudi prediu la temperatura i quatre contaminants atmosfèrics a alta resolució espaciotemporal a Catalunya. Inclou innovacions com l’ús de dades de TROPOMI, l’estimació de la incertesa en les prediccions i mètodes d’explicabilitat per validar les associacions. El segon estudi investiga la inclusió de proxies espacials, com ara coordenades i distàncies, com a predictors en models random forest. En una simulació i dos casos pràctics, concloem que aquestes variables no són sempre beneficioses i identifiquem models alternatius. El tercer estudi prediu la posició socioeconòmica de les llars en zones semirurals de Moçambic, utilitzant un conjunt de dades multimodal format per imatges per satèl·lit i de les llars, i combinant mètodes d’aprenentatge profund i automàtic seguit d’anàlisis d’explicabilitat. Aquesta tesi contribueix a la literatura suggerint metodologies per obtenir estimacions d’exposició més precises, transparents, eficients i informatives.
Description (Translated): Esta tesis, organizada en tres artículos, propone avances metodológicos en los procesos de predicción espacial utilizados para exposiciones ambientales y socioeconómicas. El primer estudio predice la temperatura y cuatro contaminantes atmosféricos con alta resolución espaciotemporal en Cataluña. Incluye innovaciones como el uso de datos de TROPOMI, la estimación de la incertidumbre en las predicciones y métodos de explicabilidad para validar las asociaciones. El segundo estudio investiga la inclusión de proxies espaciales, como coordenadas y distancias, como predictores en modelos random forest. Mediante una simulación y dos casos prácticos, concluimos que estas variables no siempre son beneficiosas e identificamos modelos alternativos. El tercer estudio predice la posición socioeconómica de los hogares en zonas semirrurales de Mozambique, utilizando un conjunto de datos multimodal formado por imágenes satelitales y de los hogares, y combinando métodos de aprendizaje profundo y automático seguidos de análisis de explicabilidad. Esta tesis contribuye a la literatura sugiriendo metodologías para obtener estimaciones de exposición más precisas, transparentes, eficientes e informativas.
Spatial prediction workflows are key for assessing health determinants in epidemiology. This thesis, comprising three manuscripts, advances spatial prediction pipelines for environmental and socioeconomic exposures. The first study predicted temperature and four air pollutants in Catalonia using a multi-exposure framework. Innovations include the use of TROPOMI data, a remote sensing gap-filling evaluation, the estimation of prediction uncertainty, and explainable machine learning to verify associations. The second study investigated spatial proxies (e.g., coordinates and distances) in random forest models. Through simulations and case studies, we found that spatial proxies are not always beneficial, providing insights into their suitability and alternatives. The third study predicted household socioeconomic measures in semi-rural Mozambique using satellite and household imagery. A deep and machine learning pipeline, combined with explainability analyses, revealed clear socioeconomic patterns. This thesis enhances spatial predictions by proposing methodologies for more accurate, transparent, and informative exposure estimates.
Universitat Pompeu Fabra. Doctorat en Biomedicina
Document Type: Dissertation/Thesis
File Description: application/pdf
Language: English
Access URL: http://hdl.handle.net/10803/694800
Rights: L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-nd/4.0/
Accession Number: edstdx.10803.694800
Database: TDX
Description
Abstract:Aquesta tesi, organitzada en tres articles, proposa avenços metodològics en els processos de predicció espacial utilitzats per a exposicions ambientals i socioeconòmiques. El primer estudi prediu la temperatura i quatre contaminants atmosfèrics a alta resolució espaciotemporal a Catalunya. Inclou innovacions com l’ús de dades de TROPOMI, l’estimació de la incertesa en les prediccions i mètodes d’explicabilitat per validar les associacions. El segon estudi investiga la inclusió de proxies espacials, com ara coordenades i distàncies, com a predictors en models random forest. En una simulació i dos casos pràctics, concloem que aquestes variables no són sempre beneficioses i identifiquem models alternatius. El tercer estudi prediu la posició socioeconòmica de les llars en zones semirurals de Moçambic, utilitzant un conjunt de dades multimodal format per imatges per satèl·lit i de les llars, i combinant mètodes d’aprenentatge profund i automàtic seguit d’anàlisis d’explicabilitat. Aquesta tesi contribueix a la literatura suggerint metodologies per obtenir estimacions d’exposició més precises, transparents, eficients i informatives.