Recommender Systems are algorithms which main purpose is to provide personalized recommendations to users about items to buy or content to interact with. In the last years, because of their effectiveness, they spread on a large scale, being widely applied on many platforms and services. According to the available information, many techniques may be employed in order to provide such suggestions, each of which exploits the data in different ways. It is possible to combine them using a set of techniques that falls under the name of Hybrid Recommender Systems, in this way it is possible, by exploiting different kinds of information, to have an increase in accuracy. Among the most competitive and performing hybrids techniques there are the stacking ensembles. They consist in aggregating the forecasts made by different models in order to overcome their weaknesses and make more accurate predictions by using a meta-model. A meta-model is a machine learning algorithm trained with the sole purpose of aggregating the predictions made by other models. Also stacking ensembles are in general more reliable and robust to the noise in the data. This thesis studies such techniques, in particular the ones performed using gradient boosting decision trees algorithms, with the purpose of exploring the ways ensembles can be implemented and trying to propose innovative alternatives. By doing so, two different categories of experiments were proposed, each of which exploited a particular aspect of the ensemble, with the goal of enhancing their performance. The performed division resulted in architecture and data manipulation experiments. The dataset used to perform such work is the one provided in occasion of the RecSys Challenge 2020, where we, a group of MSc students form Politecnico di Milano, took part achieving the overall 4th position and the 1st among academics teams.

I Recommender Systems sono algoritmi il cui scopo principale è quello di suggerire agli utenti, oggetti o contenuti con i quali interagire. Negli ultimi anni, per via della loro efficacia, si sono diffusi su larga scala venendo applicati in diverse piattaforme e servizi. A seconda dei dati che hanno a disposizione, questi impiegano strategie differenti per le raccomandazioni, ognuno dei quali li sfrutta in modo differente. Esiste la possibilità di combinare questi suggerimenti usando un insieme di tecniche che prende il nome di Hybrid Recommender Systems. Usandoli è possibile sfruttare differenti tipi di informazioni per poter aumentare l’accuratezza delle predizioni. Tra gli approci ibridi più competitivi e performanti si trovano gli stacking ensmeble. Questi consistono nell’aggregare le predizioni fatte da modelli diversi, in modo tale da compensare le loro debolezze e fare suggerimenti con maggiore accuratezza per mezzo di un meta-modello. Un meta-modello è un algoritmo di machine learning utilizzato con il solo scopo di aggregare al meglio le predizioni fatte dagli altri algoritmi. Un’altra caratteristica che rende gli stacking ensemble interessanti è la loro robustezza rispetto al rumore nei dati. In questa tesi vengono studiate queste tecniche, in particolare quelle che impiegano i gradient boosting decision trees nell’ensemble, esplorando il modo in cui questi modelli vengono combinati e proponendo soluzioni innovative. Nel fare ciò, due differenti categorie di esperimenti sono state proposte, ognuna delle quali ha sfruttato un aspetto particolare dell’ensemble con lo scopo di aumentarne le performance. Le soluzioni proposte sono quindi state divise in: manipolazione dei dati e esperimenti sull’architettura. Il dataset su cui è stato fatto tale lavoro è quello fornito in occasione della RecSys Challenge 2020, alla quale il nostro team, composto da cinque studenti magistrali iscritti al Politecnico di Milano, ha preso parte ottenendo la 4a posizione nella classifica complessiva e la 1a tra i team accademici.

GBDT-based stacking ensemble experiments on an imbalanced challenge dataset

Bartoccioni, Luca
2019/2020

Abstract

Recommender Systems are algorithms which main purpose is to provide personalized recommendations to users about items to buy or content to interact with. In the last years, because of their effectiveness, they spread on a large scale, being widely applied on many platforms and services. According to the available information, many techniques may be employed in order to provide such suggestions, each of which exploits the data in different ways. It is possible to combine them using a set of techniques that falls under the name of Hybrid Recommender Systems, in this way it is possible, by exploiting different kinds of information, to have an increase in accuracy. Among the most competitive and performing hybrids techniques there are the stacking ensembles. They consist in aggregating the forecasts made by different models in order to overcome their weaknesses and make more accurate predictions by using a meta-model. A meta-model is a machine learning algorithm trained with the sole purpose of aggregating the predictions made by other models. Also stacking ensembles are in general more reliable and robust to the noise in the data. This thesis studies such techniques, in particular the ones performed using gradient boosting decision trees algorithms, with the purpose of exploring the ways ensembles can be implemented and trying to propose innovative alternatives. By doing so, two different categories of experiments were proposed, each of which exploited a particular aspect of the ensemble, with the goal of enhancing their performance. The performed division resulted in architecture and data manipulation experiments. The dataset used to perform such work is the one provided in occasion of the RecSys Challenge 2020, where we, a group of MSc students form Politecnico di Milano, took part achieving the overall 4th position and the 1st among academics teams.
BERNARDIS, CESARE
ING - Scuola di Ingegneria Industriale e dell'Informazione
9-giu-2021
2019/2020
I Recommender Systems sono algoritmi il cui scopo principale è quello di suggerire agli utenti, oggetti o contenuti con i quali interagire. Negli ultimi anni, per via della loro efficacia, si sono diffusi su larga scala venendo applicati in diverse piattaforme e servizi. A seconda dei dati che hanno a disposizione, questi impiegano strategie differenti per le raccomandazioni, ognuno dei quali li sfrutta in modo differente. Esiste la possibilità di combinare questi suggerimenti usando un insieme di tecniche che prende il nome di Hybrid Recommender Systems. Usandoli è possibile sfruttare differenti tipi di informazioni per poter aumentare l’accuratezza delle predizioni. Tra gli approci ibridi più competitivi e performanti si trovano gli stacking ensmeble. Questi consistono nell’aggregare le predizioni fatte da modelli diversi, in modo tale da compensare le loro debolezze e fare suggerimenti con maggiore accuratezza per mezzo di un meta-modello. Un meta-modello è un algoritmo di machine learning utilizzato con il solo scopo di aggregare al meglio le predizioni fatte dagli altri algoritmi. Un’altra caratteristica che rende gli stacking ensemble interessanti è la loro robustezza rispetto al rumore nei dati. In questa tesi vengono studiate queste tecniche, in particolare quelle che impiegano i gradient boosting decision trees nell’ensemble, esplorando il modo in cui questi modelli vengono combinati e proponendo soluzioni innovative. Nel fare ciò, due differenti categorie di esperimenti sono state proposte, ognuna delle quali ha sfruttato un aspetto particolare dell’ensemble con lo scopo di aumentarne le performance. Le soluzioni proposte sono quindi state divise in: manipolazione dei dati e esperimenti sull’architettura. Il dataset su cui è stato fatto tale lavoro è quello fornito in occasione della RecSys Challenge 2020, alla quale il nostro team, composto da cinque studenti magistrali iscritti al Politecnico di Milano, ha preso parte ottenendo la 4a posizione nella classifica complessiva e la 1a tra i team accademici.
File allegati
File Dimensione Formato  
2021_06_Bartoccioni.pdf

accessibile in internet per tutti

Dimensione 16.2 MB
Formato Adobe PDF
16.2 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/176125