This thesis, developed during an internship at HousingAnywhere, an online accommodation platform based in Rotterdam (Netherlands), describes a six month project related to the automatic detection of scam listings in the online housing domain. Starting point of the analysis is a dataset composed of tens of thousands of advertisers’ housing offers and publication behaviors from the past three years that resulted in training and testing state-of-the-art machine learning classifiers with good cross-validation results. A severe drop of performances when testing the models on newly incoming data has resulted in the discovery of how the evolution of a platform over the years forces users to adapt to it, changing their behaviors and the derived features. In the direction of trying to extract the full potential from the dataset, being able to leverage both the knowledge obtainable from old historical behaviors and the information coming from the newly created triggers, an ensemble architecture composed by five different models trained with different features and datasets collected over different time periods has been designed, trained, tested and deployed, resulting in a data product currently used in daily operations by HousingAnywhere employees.

Questa tesi, sviluppata durante una internship ad HousingAnywhere, una piattaforma online per gli affitti a medio-lungo termine con sede a Rotterdam (Paesi Bassi), descrive un progetto durato sei mesi relativo al rilevamento automatico di annunci fraudolenti nel settore immobiliare. Il punto di partenza dell’analisi è un dataset composto da decine di migliaia di offerte immobiliari e comportamenti degli inserzionisti, collezionato nel corso degli ultimi tre anni e che è stato utilizzato per l’allenamento e il collaudo di algoritmi di Machine Learning con buoni risultati in cross-validation . Un importante calo delle prestazioni quando il modello è stato messo alla prova con dati attualmente generati dalla piattaforma ha portato alla scoperta di come l’evoluzione dell’interfaccia nel corso degli anni forzi gli utenti ad adattarvisi, cambiando il loro comportamento e irrimediabilmente i dati da esso generati. Muovendosi nella direzione di sfruttare a pieno il potenziale del dataset, cercando di estrarre tutta la conoscenza possibile sia dai comportamenti storici (e ancora validi oggi) sia dalle informazioni ottenibili da nuovi sistemi e notifiche, è stata sviluppata una architettura ensemble , composta da cinque differenti modelli. Ogni modello è allenato usando sottoinsiemi del dataset di partenza, sia per quanto riguarda le caratteristiche ( features ) utilizzate sia per quanto riguardo la dimensione del dataset stesso rispetto all’intervallo di tempo considerato. Il modello finale è stato collaudato e rilasciato, risultando in un prodotto software attualmente usato nelle operazioni giornaliere da alcuni impiegati di HousingAnywhere.

Scam detection in online housing offers : model ensembling against dataset drifting

BELLONI, MASSIMO
2017/2018

Abstract

This thesis, developed during an internship at HousingAnywhere, an online accommodation platform based in Rotterdam (Netherlands), describes a six month project related to the automatic detection of scam listings in the online housing domain. Starting point of the analysis is a dataset composed of tens of thousands of advertisers’ housing offers and publication behaviors from the past three years that resulted in training and testing state-of-the-art machine learning classifiers with good cross-validation results. A severe drop of performances when testing the models on newly incoming data has resulted in the discovery of how the evolution of a platform over the years forces users to adapt to it, changing their behaviors and the derived features. In the direction of trying to extract the full potential from the dataset, being able to leverage both the knowledge obtainable from old historical behaviors and the information coming from the newly created triggers, an ensemble architecture composed by five different models trained with different features and datasets collected over different time periods has been designed, trained, tested and deployed, resulting in a data product currently used in daily operations by HousingAnywhere employees.
VALENTINI, GIANLUCA
ING - Scuola di Ingegneria Industriale e dell'Informazione
16-apr-2019
2017/2018
Questa tesi, sviluppata durante una internship ad HousingAnywhere, una piattaforma online per gli affitti a medio-lungo termine con sede a Rotterdam (Paesi Bassi), descrive un progetto durato sei mesi relativo al rilevamento automatico di annunci fraudolenti nel settore immobiliare. Il punto di partenza dell’analisi è un dataset composto da decine di migliaia di offerte immobiliari e comportamenti degli inserzionisti, collezionato nel corso degli ultimi tre anni e che è stato utilizzato per l’allenamento e il collaudo di algoritmi di Machine Learning con buoni risultati in cross-validation . Un importante calo delle prestazioni quando il modello è stato messo alla prova con dati attualmente generati dalla piattaforma ha portato alla scoperta di come l’evoluzione dell’interfaccia nel corso degli anni forzi gli utenti ad adattarvisi, cambiando il loro comportamento e irrimediabilmente i dati da esso generati. Muovendosi nella direzione di sfruttare a pieno il potenziale del dataset, cercando di estrarre tutta la conoscenza possibile sia dai comportamenti storici (e ancora validi oggi) sia dalle informazioni ottenibili da nuovi sistemi e notifiche, è stata sviluppata una architettura ensemble , composta da cinque differenti modelli. Ogni modello è allenato usando sottoinsiemi del dataset di partenza, sia per quanto riguarda le caratteristiche ( features ) utilizzate sia per quanto riguardo la dimensione del dataset stesso rispetto all’intervallo di tempo considerato. Il modello finale è stato collaudato e rilasciato, risultando in un prodotto software attualmente usato nelle operazioni giornaliere da alcuni impiegati di HousingAnywhere.
Tesi di laurea Magistrale
File allegati
File Dimensione Formato  
Belloni - MSc Thesis.pdf

solo utenti autorizzati dal 12/03/2022

Descrizione: Thesis text
Dimensione 2.39 MB
Formato Adobe PDF
2.39 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/147397