Explainable models for predicting house prices
Uložené v:
| Názov: | Explainable models for predicting house prices |
|---|---|
| Autori: | March Torras, Miquel |
| Prispievatelia: | Peña Pizarro, Víctor |
| Zdroj: | UPCommons. Portal del coneixement obert de la UPC Universitat Politècnica de Catalunya (UPC) |
| Informácie o vydavateľovi: | Universitat Politècnica de Catalunya, 2025. |
| Rok vydania: | 2025 |
| Predmety: | Neural networks (Computer science), Artificial intelligence, Àrees temàtiques de la UPC::Matemàtiques i estadística, Classificació AMS::68 Computer science::68T Artificial intelligence, Intel·ligència artificial, Housing — Prices, Xarxes neuronals (Informàtica), Classificació AMS::62 Statistics::62J Linear inference, regression, Habitatge — Preus |
| Popis: | This thesis develops explainable house-price models for the city of Barcelona. A bespoke micro-level dataset was first assembled by scraping three monthly snapshots from a large real-estate portal and merging them with socioeconomic indicators from Barcelona Open Data. The final table contains $\sim$14.000 listings with granular structural attributes, free-text descriptions and neighborhood-level context. Four predictive approaches are benchmarked on a common 80 / 20 train–test split and evaluated on the original euro scale. A linear regression serves as a transparent baseline, with a MAPE of 21\%. CatBoost, a gradient-boosted tree ensemble tuned through Bayesian optimization and RFE, cuts the test error to a MAPE of 17\%. Third, a text-only neural network converts the multilingual advert descriptions into sentence embeddings, reduces dimensionality with PCA and fits a regularized multilayer perceptron, achieving an MAPE of 21\%. It shows that narrative content contains pricing signal even in isolation. Finally a stacked ensemble linearly combines the three base predictions via leakage-free five-fold stacking. The blender assigns the highest weight to CatBoost, half of it to the neural model and a negligible share to the linear baseline, delivering the best overall accuracy, with a MAPE of 16\%. Interpretability is addressed at every stage. Classical coefficients quantify the direction and magnitude of linear effects, while TreeSHAP decomposes CatBoost forecasts into global importances, dependence curves and pairwise interaction values. The analysis confirms location as the dominant driver, uncovers non-monotonic floor and age effects, and highlights synergies such as \emph{lift × floor}. Waterfall plots translate these insights into listing-level explanations appropriate for stakeholders. Key limitations remain. Asking prices are a proxy for real transaction prices; log-to-linear retransformation and the squared-error loss induce shrinkage that under-prices ultr Aquesta tesi desenvolupa models explicables de predicció de preus d’habitatge a la ciutat de Barcelona. Primer es construeix un conjunt de dades micro: scraping en tres finestres mensuals d’un gran portal immobiliari es fusiona amb indicadors socioeconòmics de Barcelona Dades Obertes. La taula final conté 14.000 anuncis amb atributs estructurals detallats, descripcions en text i indicadors a escala de barri. Quatre models predictius s'avaluen sobre la mateixa partició 80 / 20 train–test i en l’escala original d’euros. Una regressió lineal actua com a línia base transparent, amb un MAPE del 21 \%. CatBoost, un gradient-boosted tree ensemble, ajustat mitjançant optimització bayesiana i RFE, redueix l’error fins a un MAPE del 17 \%. En tercer lloc, una xarxa neuronal basada només en text converteix les descripcions multilingües en sentence embeddings, en redueix la dimensionalitat amb PCA i ajusta una regressió amb xarxa neuronal; obté un MAPE també del 21 \%, mostrant que el text conté senyal de preu fins i tot de manera aïllada. Finalment, un ensemble combina linealment les tres prediccions base mitjançant stacking. El blender assigna el pes més alt a CatBoost, la meitat a la xarxa neuronal i una fracció negligible a la regressió lineal, assolint la millor precisió global amb un MAPE del 16 \%. La interpretabilitat s’aborda en cada etapa. Els coeficients clàssics quantifiquen la direcció i magnitud dels efectes lineals, mentre que TreeSHAP descompon les prediccions de CatBoost en importàncies globals, corbes de dependència i valors d’interacció. L’anàlisi confirma la ubicació com a factor dominant, demostra els efectes no monòtons de planta i antiguitat, i ressalta sinergies com \emph{ascensor × planta}. Els gràfics en cascada traslladen aquests resultats a explicacions a escala d’anunci. Algunes limitacions persisteixen: els preus de sortida són un \textit{proxy} dels de tancament; la retransformació log–lineal i la pèrdua quadràtica indueixen una contracció |
| Druh dokumentu: | Master thesis |
| Popis súboru: | application/pdf |
| Jazyk: | English |
| Prístupová URL adresa: | https://hdl.handle.net/2117/441557 |
| Prístupové číslo: | edsair.dedup.wf.002..4cd7f6b26d4caa0841d4bfef4fb48c86 |
| Databáza: | OpenAIRE |
| Abstrakt: | This thesis develops explainable house-price models for the city of Barcelona. A bespoke micro-level dataset was first assembled by scraping three monthly snapshots from a large real-estate portal and merging them with socioeconomic indicators from Barcelona Open Data. The final table contains $\sim$14.000 listings with granular structural attributes, free-text descriptions and neighborhood-level context. Four predictive approaches are benchmarked on a common 80 / 20 train–test split and evaluated on the original euro scale. A linear regression serves as a transparent baseline, with a MAPE of 21\%. CatBoost, a gradient-boosted tree ensemble tuned through Bayesian optimization and RFE, cuts the test error to a MAPE of 17\%. Third, a text-only neural network converts the multilingual advert descriptions into sentence embeddings, reduces dimensionality with PCA and fits a regularized multilayer perceptron, achieving an MAPE of 21\%. It shows that narrative content contains pricing signal even in isolation. Finally a stacked ensemble linearly combines the three base predictions via leakage-free five-fold stacking. The blender assigns the highest weight to CatBoost, half of it to the neural model and a negligible share to the linear baseline, delivering the best overall accuracy, with a MAPE of 16\%. Interpretability is addressed at every stage. Classical coefficients quantify the direction and magnitude of linear effects, while TreeSHAP decomposes CatBoost forecasts into global importances, dependence curves and pairwise interaction values. The analysis confirms location as the dominant driver, uncovers non-monotonic floor and age effects, and highlights synergies such as \emph{lift × floor}. Waterfall plots translate these insights into listing-level explanations appropriate for stakeholders. Key limitations remain. Asking prices are a proxy for real transaction prices; log-to-linear retransformation and the squared-error loss induce shrinkage that under-prices ultr<br />Aquesta tesi desenvolupa models explicables de predicció de preus d’habitatge a la ciutat de Barcelona. Primer es construeix un conjunt de dades micro: scraping en tres finestres mensuals d’un gran portal immobiliari es fusiona amb indicadors socioeconòmics de Barcelona Dades Obertes. La taula final conté 14.000 anuncis amb atributs estructurals detallats, descripcions en text i indicadors a escala de barri. Quatre models predictius s'avaluen sobre la mateixa partició 80 / 20 train–test i en l’escala original d’euros. Una regressió lineal actua com a línia base transparent, amb un MAPE del 21 \%. CatBoost, un gradient-boosted tree ensemble, ajustat mitjançant optimització bayesiana i RFE, redueix l’error fins a un MAPE del 17 \%. En tercer lloc, una xarxa neuronal basada només en text converteix les descripcions multilingües en sentence embeddings, en redueix la dimensionalitat amb PCA i ajusta una regressió amb xarxa neuronal; obté un MAPE també del 21 \%, mostrant que el text conté senyal de preu fins i tot de manera aïllada. Finalment, un ensemble combina linealment les tres prediccions base mitjançant stacking. El blender assigna el pes més alt a CatBoost, la meitat a la xarxa neuronal i una fracció negligible a la regressió lineal, assolint la millor precisió global amb un MAPE del 16 \%. La interpretabilitat s’aborda en cada etapa. Els coeficients clàssics quantifiquen la direcció i magnitud dels efectes lineals, mentre que TreeSHAP descompon les prediccions de CatBoost en importàncies globals, corbes de dependència i valors d’interacció. L’anàlisi confirma la ubicació com a factor dominant, demostra els efectes no monòtons de planta i antiguitat, i ressalta sinergies com \emph{ascensor × planta}. Els gràfics en cascada traslladen aquests resultats a explicacions a escala d’anunci. Algunes limitacions persisteixen: els preus de sortida són un \textit{proxy} dels de tancament; la retransformació log–lineal i la pèrdua quadràtica indueixen una contracció |
|---|
Nájsť tento článok vo Web of Science