The market for long-term rentals of rooms is constantly expanding both in Italy and abroad. A considerable market share is composed of young people under 35 wishing to move to large cities for study or work, who choose co-living solutions due to limited financial resources. DoveVivo presents itself as the biggest co-living company in Europe, whose expansion made it necessary to automate business processes. A first collaboration with Politecnico di Milano resulted in the development of algorithms and models able to propose pricing schemes for rooms for rent in Milan. Given the availability of the company's historical data, a data-driven approach has been adopted. The expansion in new geographic markets, in which historical data are scarce, has led the company to extract scraping data from some real-estate portals to obtain a data set representative of the rental market. In the first part of this thesis work, we first analyze the use of scraping data in combination with historical data. Later, we assess the usefulness of using scraping data to improve the predictive performances of the models trained only on historical data. Subsequently, we propose models able to estimate the overprice to apply to DoveVivo rooms with respect to market prices. Even under similar performances, building a model that relies on external information, such as scraping data, is extremely useful to link predictions to market trends. This characteristic has been exploited in the second part of this thesis work to replicate the pricing strategy adopted on known geographic markets to those in which historical data are scarce. The idea is to learn the relation between historical and scraping data in known markets and then transfer it to new markets. Initially, we propose a weighted linear regressor to make an instance-based transfer in the desired city. Then, we show that a few historical data in the target city is necessary to create a robust prediction model. Although scraping data can be further refined, and more complex models can lead to a performance improvement, we show that the current average prediction error on unknown markets is under 15%.

Il mercato degli affitti a lungo termine delle stanze è in continua espansione sia in Italia che all'estero. Una fetta considerevole di mercato è composta da giovani under 35 desiderosi di spostarsi in grandi città per studio o lavoro, che scelgono soluzioni di co-living a causa delle ridotte disponibilità economiche. DoveVivo rappresenta la più grande società di co-living in Europa, la cui espansione ha reso necessario automatizzare i processi aziendali. Una prima collaborazione col Politecnico di Milano ha portato allo sviluppo di algoritmi e modelli in grado di proporre schemi di pricing per le stanze in affitto sul territorio milanese. Data la disponibilità dei dati storici aziendali, è stato adottato un approccio data-driven. L'espansione in nuovi mercati geografici, in cui scarseggiano i dati storici, ha portato l'azienda ad estrarre dati di scraping da alcuni portali immobiliari per avere un dataset rappresentativo del mercato degli affitti. Nella prima parte di questo lavoro di tesi analizziamo prima l'uso dei dati di scraping in combinazione con i dati aziendali. Valutiamo quindi l'utilità di usare i dati di scraping per migliorare le capacità predittive dei modelli addestrati sui soli dati storici. Successivamente, proponiamo modelli in grado di stimare il sovrapprezzo da applicare alle stanze DoveVivo rispetto ai prezzi di mercato. Anche con prestazioni simili, costruire un modello basato su informazioni esterne, come i dati di scraping, è estremamente utile per collegare le predizioni alle tendenze del mercato. Questa caratteristica è stata sfruttata nella seconda parte di questo lavoro di tesi per replicare la strategia di pricing adottata sui mercati geografici conosciuti in nuovi mercati in cui scarseggiano i dati storici. L'idea è di imparare la relazione esistente tra i dati di aziendali e quelli di scraping nei mercati conosciuti per poi trasferirla su nuovi mercati. Dapprima proponiamo l'uso di un weighted linear regressor per fare instance-based transfer nella città desiderata. Infine mostriamo che è necessario avere pochi dati aziendali nella città target per creare un modello di predizione robusto. Sebbene i dati di scraping possano essere ulteriormente raffinati e modelli più complessi possono portare ad un aumentano delle prestazioni, mostriamo che l'attuale errore medio di predizione su nuovi mercati è minore del 15%.

Analysis on the use of scraping data for long-term rental room pricing

Del Giudice, Gionatan
2020/2021

Abstract

The market for long-term rentals of rooms is constantly expanding both in Italy and abroad. A considerable market share is composed of young people under 35 wishing to move to large cities for study or work, who choose co-living solutions due to limited financial resources. DoveVivo presents itself as the biggest co-living company in Europe, whose expansion made it necessary to automate business processes. A first collaboration with Politecnico di Milano resulted in the development of algorithms and models able to propose pricing schemes for rooms for rent in Milan. Given the availability of the company's historical data, a data-driven approach has been adopted. The expansion in new geographic markets, in which historical data are scarce, has led the company to extract scraping data from some real-estate portals to obtain a data set representative of the rental market. In the first part of this thesis work, we first analyze the use of scraping data in combination with historical data. Later, we assess the usefulness of using scraping data to improve the predictive performances of the models trained only on historical data. Subsequently, we propose models able to estimate the overprice to apply to DoveVivo rooms with respect to market prices. Even under similar performances, building a model that relies on external information, such as scraping data, is extremely useful to link predictions to market trends. This characteristic has been exploited in the second part of this thesis work to replicate the pricing strategy adopted on known geographic markets to those in which historical data are scarce. The idea is to learn the relation between historical and scraping data in known markets and then transfer it to new markets. Initially, we propose a weighted linear regressor to make an instance-based transfer in the desired city. Then, we show that a few historical data in the target city is necessary to create a robust prediction model. Although scraping data can be further refined, and more complex models can lead to a performance improvement, we show that the current average prediction error on unknown markets is under 15%.
ROMANO, GIULIA
TROVÒ, FRANCESCO
ING - Scuola di Ingegneria Industriale e dell'Informazione
23-lug-2021
2020/2021
Il mercato degli affitti a lungo termine delle stanze è in continua espansione sia in Italia che all'estero. Una fetta considerevole di mercato è composta da giovani under 35 desiderosi di spostarsi in grandi città per studio o lavoro, che scelgono soluzioni di co-living a causa delle ridotte disponibilità economiche. DoveVivo rappresenta la più grande società di co-living in Europa, la cui espansione ha reso necessario automatizzare i processi aziendali. Una prima collaborazione col Politecnico di Milano ha portato allo sviluppo di algoritmi e modelli in grado di proporre schemi di pricing per le stanze in affitto sul territorio milanese. Data la disponibilità dei dati storici aziendali, è stato adottato un approccio data-driven. L'espansione in nuovi mercati geografici, in cui scarseggiano i dati storici, ha portato l'azienda ad estrarre dati di scraping da alcuni portali immobiliari per avere un dataset rappresentativo del mercato degli affitti. Nella prima parte di questo lavoro di tesi analizziamo prima l'uso dei dati di scraping in combinazione con i dati aziendali. Valutiamo quindi l'utilità di usare i dati di scraping per migliorare le capacità predittive dei modelli addestrati sui soli dati storici. Successivamente, proponiamo modelli in grado di stimare il sovrapprezzo da applicare alle stanze DoveVivo rispetto ai prezzi di mercato. Anche con prestazioni simili, costruire un modello basato su informazioni esterne, come i dati di scraping, è estremamente utile per collegare le predizioni alle tendenze del mercato. Questa caratteristica è stata sfruttata nella seconda parte di questo lavoro di tesi per replicare la strategia di pricing adottata sui mercati geografici conosciuti in nuovi mercati in cui scarseggiano i dati storici. L'idea è di imparare la relazione esistente tra i dati di aziendali e quelli di scraping nei mercati conosciuti per poi trasferirla su nuovi mercati. Dapprima proponiamo l'uso di un weighted linear regressor per fare instance-based transfer nella città desiderata. Infine mostriamo che è necessario avere pochi dati aziendali nella città target per creare un modello di predizione robusto. Sebbene i dati di scraping possano essere ulteriormente raffinati e modelli più complessi possono portare ad un aumentano delle prestazioni, mostriamo che l'attuale errore medio di predizione su nuovi mercati è minore del 15%.
File allegati
File Dimensione Formato  
2021_07_Del_Giudice.pdf

accessibile in internet solo dagli utenti autorizzati

Dimensione 2.96 MB
Formato Adobe PDF
2.96 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/177912