The ubiquitous influence of data on contemporary decision-making processes, economic landscapes, and political spheres necessitates a paradigm shift. Data should not solely empower a privileged few, but rather function as a democratic instrument for informed decision-making. This study investigates the feasibility of constructing robust recommendation systems with limited initial data. Web-based recommender systems, prevalent across various platforms, analyze user data to suggest content and enhance user engagement. These systems can be modeled as contextual multi-armed bandits (CMAB). However, data scarcity, privacy concerns, and the cold-start problem (lack of historical data for new items/users) pose significant challenges to acquiring sufficient and diverse training data. This research delves into the construction of a web-based recommender system utilizing a limited dataset augmented with synthetic data techniques. Synthetic data, meticulously crafted to mimic real-world data patterns, will be generated using the SDV library. This enriched dataset will serve as the foundation for policy formulation and recommendation assessments with the OBP bandit algorithm library. Offline Policy Learning (OPL) and Offline Policy Evaluation (OPE) methodologies will be implemented to rigorously evaluate the system's effectiveness. This analysis aims to ascertain the robustness and efficacy of the developed bandit recommendation system, potentially paving the way for smaller enterprises; specifically, we explore whether smaller enterprises can leverage data synthesis techniques and Bandit algorithms to achieve competitive performance against industry giants.

L'influenza dei dati sui processi decisionali, sui contesti economici e sulle sfere politiche contemporanee richiede un cambio di paradigma. I dati non dovrebbero conferire potere solo a una ristretta élite, ma piuttosto fungere come strumento democratico per un processo decisionale informato. Questo studio si propone di esaminare la fattibilità della creazione di sistemi di raccomandazione robusti con dati iniziali limitati. I sistemi di raccomandazione diffusi su diverse piattaforme analizzano i dati degli utenti per proporre loro contenuti e migliorare il loro coinvolgimento. Questi sistemi possono essere modellati come banditi contestuali a più braccia (CMAB). Tuttavia, la scarsità di dati, le questioni legate alla privacy e il problema del \textit{cold start} (la mancanza di dati storici per nuovi articoli/utenti) rappresentano sfide significative per l'ottenimento di un set di dati di addestramento sufficiente e diversificato. Questo studio si focalizza sulla costruzione di un sistema di raccomandazione web affinato mediante da una parte l'utilizzo di un set di datasets di dimensioni ridotte e dall'altra su set dataset sintetici generati a partire dai datasets appena citati. I datasets sintetici, attentamente elaborati per imitare i modelli di dati del mondo reale, saranno generati utilizzando la libreria Synthetic Data Vault \cite{sdv}. Questo set di dati arricchito costituirà la base per la formulazione delle politiche e la valutazione delle raccomandazioni attraverso l'utilizzo della libreria di Open Bandit Pipeline \cite{obp}. Le metodologie di \textit{Offline Policy Learning} e \textit{Offline Policy Evaluation} saranno adottate per valutare in modo rigoroso l'efficacia del sistema proposto. L'obiettivo di questa analisi è quello di determinare la robustezza e l'efficacia del sistema di raccomandazione Bandit descritto, il quale potrebbe aprire la strada alle piccole imprese; in particolare, si cerca di comprendere se queste possano sfruttare le tecniche di sintesi dei dati e algoritmi offline di tipo Bandit per ottenere prestazioni competitive rispetto ai giganti del settore.

Exploring the employment of synthetic data in recommendation systems

FRABETTI, ALESSANDRO
2023/2024

Abstract

The ubiquitous influence of data on contemporary decision-making processes, economic landscapes, and political spheres necessitates a paradigm shift. Data should not solely empower a privileged few, but rather function as a democratic instrument for informed decision-making. This study investigates the feasibility of constructing robust recommendation systems with limited initial data. Web-based recommender systems, prevalent across various platforms, analyze user data to suggest content and enhance user engagement. These systems can be modeled as contextual multi-armed bandits (CMAB). However, data scarcity, privacy concerns, and the cold-start problem (lack of historical data for new items/users) pose significant challenges to acquiring sufficient and diverse training data. This research delves into the construction of a web-based recommender system utilizing a limited dataset augmented with synthetic data techniques. Synthetic data, meticulously crafted to mimic real-world data patterns, will be generated using the SDV library. This enriched dataset will serve as the foundation for policy formulation and recommendation assessments with the OBP bandit algorithm library. Offline Policy Learning (OPL) and Offline Policy Evaluation (OPE) methodologies will be implemented to rigorously evaluate the system's effectiveness. This analysis aims to ascertain the robustness and efficacy of the developed bandit recommendation system, potentially paving the way for smaller enterprises; specifically, we explore whether smaller enterprises can leverage data synthesis techniques and Bandit algorithms to achieve competitive performance against industry giants.
ZENTI, RAFFAELE
ING - Scuola di Ingegneria Industriale e dell'Informazione
9-apr-2024
2023/2024
L'influenza dei dati sui processi decisionali, sui contesti economici e sulle sfere politiche contemporanee richiede un cambio di paradigma. I dati non dovrebbero conferire potere solo a una ristretta élite, ma piuttosto fungere come strumento democratico per un processo decisionale informato. Questo studio si propone di esaminare la fattibilità della creazione di sistemi di raccomandazione robusti con dati iniziali limitati. I sistemi di raccomandazione diffusi su diverse piattaforme analizzano i dati degli utenti per proporre loro contenuti e migliorare il loro coinvolgimento. Questi sistemi possono essere modellati come banditi contestuali a più braccia (CMAB). Tuttavia, la scarsità di dati, le questioni legate alla privacy e il problema del \textit{cold start} (la mancanza di dati storici per nuovi articoli/utenti) rappresentano sfide significative per l'ottenimento di un set di dati di addestramento sufficiente e diversificato. Questo studio si focalizza sulla costruzione di un sistema di raccomandazione web affinato mediante da una parte l'utilizzo di un set di datasets di dimensioni ridotte e dall'altra su set dataset sintetici generati a partire dai datasets appena citati. I datasets sintetici, attentamente elaborati per imitare i modelli di dati del mondo reale, saranno generati utilizzando la libreria Synthetic Data Vault \cite{sdv}. Questo set di dati arricchito costituirà la base per la formulazione delle politiche e la valutazione delle raccomandazioni attraverso l'utilizzo della libreria di Open Bandit Pipeline \cite{obp}. Le metodologie di \textit{Offline Policy Learning} e \textit{Offline Policy Evaluation} saranno adottate per valutare in modo rigoroso l'efficacia del sistema proposto. L'obiettivo di questa analisi è quello di determinare la robustezza e l'efficacia del sistema di raccomandazione Bandit descritto, il quale potrebbe aprire la strada alle piccole imprese; in particolare, si cerca di comprendere se queste possano sfruttare le tecniche di sintesi dei dati e algoritmi offline di tipo Bandit per ottenere prestazioni competitive rispetto ai giganti del settore.
File allegati
File Dimensione Formato  
Article_Format_Thesis__Alessandro_Frabetti.pdf

accessibile in internet per tutti

Dimensione 1.91 MB
Formato Adobe PDF
1.91 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/219820