Recommender Systems (RS) are crucial for digital platforms to deliver personalized content. However, traditional RS struggle to model dynamic user behavior, especially in session-based settings with temporal and contextual dependencies. This thesis proposes a unified framework for optimizing content and ad recommendations on short-video platforms (e.g., TikTok, YouTube), using various user feedback types (e.g., clicks, watch time, likes, comments), ensuring ad relevance without negatively impacting the user experience. To achieve this, we propose an offline Reinforcement Learning (RL) approach based on Contextual Bandits (CB). In this setting, a Policy Gradient method optimizes video and ad recommendation policies, leveraging off-policy estimators like Importance Sampling and Self-Normalized Importance Sampling. These estimators, grounded in causal inference, reduce variance and bias in offline learning. The key contribution of this work is the introduction of constraints in offline main policy optimization, enabling the balancing of multiple policies without requiring online deployment, thus preventing negative impacts on user satisfaction. Experiments on the Kuaishou platform dataset emphasize the benefits of offline learning and highlight the need for a collaborative framework in evolving digital platforms to continuously adapt to new content types and user feedback.

I sistemi di raccomandazione (RS) sono fondamentali per le piattaforme digitali nel fornire contenuti personalizzati. Tuttavia, i RS tradizionali faticano a modellare il comportamento dinamico degli utenti, specialmente in contesti session-based con dipendenze temporali e contestuali. Questa tesi propone un framework unificato per ottimizzare simultaneamente le raccomandazioni di contenuti e annunci su piattaforme di video brevi (ad esempio, TikTok, YouTube), utilizzando vari tipi di feedback degli utenti (ad esempio, clic, tempo di visione, like, commenti), assicurando la rilevanza degli annunci senza compromettere negativamente l’esperienza dell’utente. Per raggiungere questo obiettivo, proponiamo un approccio di Reinforcement Learning (RL) offline basato su Contextual Bandits (CB). In questo contesto, un metodo di Policy Gradient ottimizza le politiche di raccomandazione di video e annunci, sfruttando stimatori off-policy come Importance Sampling e Self-Normalized Importance Sampling. Questi stimatori, derivati dall’inferenza causale, riducono la varianza e il bias nell’apprendimento offline. Il principale contributo di questo lavoro è l’introduzione di vincoli nell’ottimizzazione della politica principale offline, permettendo di bilanciare più politiche senza necessità di un’applicazione online e prevenendo così impatti negativi sulla soddisfazione dell’utente. Gli esperimenti su dataset della piattaforma Kuaishou evidenziano i benefici delle tecniche offline e sottolineano la necessità di un framework collaborativo nelle piattaforme digitali in continua evoluzione, per adattarsi continuamente a nuovi tipi di contenuti e feedback degli utenti.

Learning to collaborate: a constrained offline contextual bandits approach for recommender systems to balance user engagement and ad integration

Pagani, Michelle
2023/2024

Abstract

Recommender Systems (RS) are crucial for digital platforms to deliver personalized content. However, traditional RS struggle to model dynamic user behavior, especially in session-based settings with temporal and contextual dependencies. This thesis proposes a unified framework for optimizing content and ad recommendations on short-video platforms (e.g., TikTok, YouTube), using various user feedback types (e.g., clicks, watch time, likes, comments), ensuring ad relevance without negatively impacting the user experience. To achieve this, we propose an offline Reinforcement Learning (RL) approach based on Contextual Bandits (CB). In this setting, a Policy Gradient method optimizes video and ad recommendation policies, leveraging off-policy estimators like Importance Sampling and Self-Normalized Importance Sampling. These estimators, grounded in causal inference, reduce variance and bias in offline learning. The key contribution of this work is the introduction of constraints in offline main policy optimization, enabling the balancing of multiple policies without requiring online deployment, thus preventing negative impacts on user satisfaction. Experiments on the Kuaishou platform dataset emphasize the benefits of offline learning and highlight the need for a collaborative framework in evolving digital platforms to continuously adapt to new content types and user feedback.
JALAYER, MASOUD
ING - Scuola di Ingegneria Industriale e dell'Informazione
3-apr-2025
2023/2024
I sistemi di raccomandazione (RS) sono fondamentali per le piattaforme digitali nel fornire contenuti personalizzati. Tuttavia, i RS tradizionali faticano a modellare il comportamento dinamico degli utenti, specialmente in contesti session-based con dipendenze temporali e contestuali. Questa tesi propone un framework unificato per ottimizzare simultaneamente le raccomandazioni di contenuti e annunci su piattaforme di video brevi (ad esempio, TikTok, YouTube), utilizzando vari tipi di feedback degli utenti (ad esempio, clic, tempo di visione, like, commenti), assicurando la rilevanza degli annunci senza compromettere negativamente l’esperienza dell’utente. Per raggiungere questo obiettivo, proponiamo un approccio di Reinforcement Learning (RL) offline basato su Contextual Bandits (CB). In questo contesto, un metodo di Policy Gradient ottimizza le politiche di raccomandazione di video e annunci, sfruttando stimatori off-policy come Importance Sampling e Self-Normalized Importance Sampling. Questi stimatori, derivati dall’inferenza causale, riducono la varianza e il bias nell’apprendimento offline. Il principale contributo di questo lavoro è l’introduzione di vincoli nell’ottimizzazione della politica principale offline, permettendo di bilanciare più politiche senza necessità di un’applicazione online e prevenendo così impatti negativi sulla soddisfazione dell’utente. Gli esperimenti su dataset della piattaforma Kuaishou evidenziano i benefici delle tecniche offline e sottolineano la necessità di un framework collaborativo nelle piattaforme digitali in continua evoluzione, per adattarsi continuamente a nuovi tipi di contenuti e feedback degli utenti.
File allegati
File Dimensione Formato  
2025_04_Pagani.pdf

non accessibile

Descrizione: Testo Tesi
Dimensione 1.45 MB
Formato Adobe PDF
1.45 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/234729