This thesis embarks on a comprehensive exploration of the UK real estate market, spanning from 1995 to 2022. Grounded in the principles of data science and machine learning, the research unfolds through phases of data acquisition, pre-processing, exploratory data analysis (EDA), predictive modeling and enrichment of the model. A meticulous approach is adopted, emphasizing a commitment to data quality and fidelity. The dataset, coming from diverse sources, has undergone data cleaning and pre-processing, executed with precision, ensuring a pristine foundation for subsequent analyses. The pivotal phase of Exploratory Data Analysis (EDA) involves unraveling trends and patterns through statistical summaries and visualization techniques. Predictive modeling becomes the focal point, with a diverse array of machine learning algorithms employed, including Ridge, ElasticNet, SGDRegressor, BayesianRidge, LinearRegression, and DecisionTreeRegressor. The models undergo rigorous training and evaluation, with metrics like Mean Squared Error (MSE), Mean Absolute Error (MAE), and R-squared that are the discriminating factors for choosing the best one. In the final stage, we enrich the model with additional features. The study explores the impact of elements like unemployment rate and population density. Notably, the inclusion of certain variables, such as GDP per capita and street information, proves instrumental in improving predictive accuracy. The thesis meticulously details the refinement process, offering insights into model selection and the influence of external variables. An essential key point is that the enhancement in prediction is driven by specific strategic features. Simply adding a multitude of data without a complete understanding may not necessarily result in improved performance. The thesis not only constructs predictive models for housing prices, but also contributes to a deeper comprehension of the underlying structures shaping the UK home market. The findings aim to empower stakeholders and small savers with valuable insights, facilitating informed decision-making in the realm of real estate.

Questa tesi intraprende un'esplorazione completa del mercato immobiliare del Regno Unito, dal 1995 al 2022. Basato sui principi della scienza dei dati e dell'apprendimento automatico, il percorso di ricerca si snoda attraverso fasi di acquisizione dei dati, preelaborazione, analisi esplorativa dei dati (EDA), modellazione predittiva e arricchimento del modello. Viene adottato un approccio meticoloso, che sottolinea l'impegno per la qualità e la fedeltà dei dati. Il set di dati, provenienti da fonti diverse, è stato sottoposto a pulizia e le preelaborazioni sono state eseguite con precisione, garantendo una base solida per le analisi successive. La fase cruciale dell'analisi esplorativa dei dati (EDA) consiste nello svelare tendenze e modelli attraverso sintesi statistiche e tecniche di visualizzazione. La modellazione predittiva diventa il punto focale, con l'impiego di una vasta gamma di algoritmi di apprendimento automatico, tra cui Ridge, ElasticNet, SGDRegressor, BayesianRidge, LinearRegression e DecisionTreeRegressor. I modelli sono sottoposti a un addestramento e a una valutazione rigorosi, con metriche come l'errore quadratico medio, l'errore assoluto medio e l'R-squared che fungono da stelle guida per scegliere il migliore. Nella fase finale arricchiamo il modello con ulteriori caratteristiche, lo studio esplora l'impatto di fattori come il tasso di disoccupazione e la densità di popolazione. In particolare, l'inclusione di alcune variabili, come il PIL pro capite e le informazioni sulle vie, si rivela determinante per migliorare l'accuratezza della previsione. La tesi illustra minuziosamente il processo di affinamento, offrendo approfondimenti sulla selezione del modello e sull'influenza delle variabili esterne. Un punto chiave è che il miglioramento della previsione è stato guidato da specifiche caratteristiche strategiche. La semplice aggiunta di una moltitudine di dati senza una comprensione completa non necessariamente porta a un miglioramento delle prestazioni. La tesi non solo costruisce modelli predittivi per i prezzi delle abitazioni, ma contribuisce anche a una più profonda comprensione delle strutture sottostanti che danno forma al mercato immobiliare del Regno Unito. I risultati mirano a fornire agli investitori e piccoli risparmiatori informazioni preziose, facilitando un processo decisionale informato nel settore immobiliare.

Design and optimization of data science models for real estate markets

Mardare, Mark Sorin
2022/2023

Abstract

This thesis embarks on a comprehensive exploration of the UK real estate market, spanning from 1995 to 2022. Grounded in the principles of data science and machine learning, the research unfolds through phases of data acquisition, pre-processing, exploratory data analysis (EDA), predictive modeling and enrichment of the model. A meticulous approach is adopted, emphasizing a commitment to data quality and fidelity. The dataset, coming from diverse sources, has undergone data cleaning and pre-processing, executed with precision, ensuring a pristine foundation for subsequent analyses. The pivotal phase of Exploratory Data Analysis (EDA) involves unraveling trends and patterns through statistical summaries and visualization techniques. Predictive modeling becomes the focal point, with a diverse array of machine learning algorithms employed, including Ridge, ElasticNet, SGDRegressor, BayesianRidge, LinearRegression, and DecisionTreeRegressor. The models undergo rigorous training and evaluation, with metrics like Mean Squared Error (MSE), Mean Absolute Error (MAE), and R-squared that are the discriminating factors for choosing the best one. In the final stage, we enrich the model with additional features. The study explores the impact of elements like unemployment rate and population density. Notably, the inclusion of certain variables, such as GDP per capita and street information, proves instrumental in improving predictive accuracy. The thesis meticulously details the refinement process, offering insights into model selection and the influence of external variables. An essential key point is that the enhancement in prediction is driven by specific strategic features. Simply adding a multitude of data without a complete understanding may not necessarily result in improved performance. The thesis not only constructs predictive models for housing prices, but also contributes to a deeper comprehension of the underlying structures shaping the UK home market. The findings aim to empower stakeholders and small savers with valuable insights, facilitating informed decision-making in the realm of real estate.
ING - Scuola di Ingegneria Industriale e dell'Informazione
19-dic-2023
2022/2023
Questa tesi intraprende un'esplorazione completa del mercato immobiliare del Regno Unito, dal 1995 al 2022. Basato sui principi della scienza dei dati e dell'apprendimento automatico, il percorso di ricerca si snoda attraverso fasi di acquisizione dei dati, preelaborazione, analisi esplorativa dei dati (EDA), modellazione predittiva e arricchimento del modello. Viene adottato un approccio meticoloso, che sottolinea l'impegno per la qualità e la fedeltà dei dati. Il set di dati, provenienti da fonti diverse, è stato sottoposto a pulizia e le preelaborazioni sono state eseguite con precisione, garantendo una base solida per le analisi successive. La fase cruciale dell'analisi esplorativa dei dati (EDA) consiste nello svelare tendenze e modelli attraverso sintesi statistiche e tecniche di visualizzazione. La modellazione predittiva diventa il punto focale, con l'impiego di una vasta gamma di algoritmi di apprendimento automatico, tra cui Ridge, ElasticNet, SGDRegressor, BayesianRidge, LinearRegression e DecisionTreeRegressor. I modelli sono sottoposti a un addestramento e a una valutazione rigorosi, con metriche come l'errore quadratico medio, l'errore assoluto medio e l'R-squared che fungono da stelle guida per scegliere il migliore. Nella fase finale arricchiamo il modello con ulteriori caratteristiche, lo studio esplora l'impatto di fattori come il tasso di disoccupazione e la densità di popolazione. In particolare, l'inclusione di alcune variabili, come il PIL pro capite e le informazioni sulle vie, si rivela determinante per migliorare l'accuratezza della previsione. La tesi illustra minuziosamente il processo di affinamento, offrendo approfondimenti sulla selezione del modello e sull'influenza delle variabili esterne. Un punto chiave è che il miglioramento della previsione è stato guidato da specifiche caratteristiche strategiche. La semplice aggiunta di una moltitudine di dati senza una comprensione completa non necessariamente porta a un miglioramento delle prestazioni. La tesi non solo costruisce modelli predittivi per i prezzi delle abitazioni, ma contribuisce anche a una più profonda comprensione delle strutture sottostanti che danno forma al mercato immobiliare del Regno Unito. I risultati mirano a fornire agli investitori e piccoli risparmiatori informazioni preziose, facilitando un processo decisionale informato nel settore immobiliare.
File allegati
File Dimensione Formato  
2023_12_Mardare.pdf

solo utenti autorizzati a partire dal 22/11/2026

Descrizione: Descrizione Tesi.
Dimensione 1.06 MB
Formato Adobe PDF
1.06 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/214931