In the field of information retrieval, recommender systems comprehend techniques that are designed to suggest items to users, with the objective of satisfying their personal preferences as much as possible. An intrinsic challenge for such engines is to balance two opposite requirements, that is, new content discovery and application of established patterns. This relates to the characteristic exploration-exploitation dilemma of multi-armed bandit, a classical problem in reinforcement learning, where a sequential decision maker should infer what actions correspond to the best rewards. Although bandits can help to combat issues that impact on recommenders, many real-world use-cases present a modeling property which cannot be ignored, namely the delay affecting the disclosure of the feedback corresponding to a suggestion. To study such a detail, this dissertation devises a framework to describe scenarios typified by gradual reveal, along the interaction session, of the opinions of a user on a set of recommended items. A dyad of policies based on upper confidence bound and Thompson sampling heuristics are adapted to the setting and equipped with a collaborative share of beliefs. The novel strategies, TemporalLinCUCB and TemporalLinCTS, are compared with baseline agents on two environments built around datasets from Spotify and Last.fm to model a playlist generation task, showing superior performance with respect to the benchmarks in a number of configurations on a regret minimization problem. Additionally, a pilot experiment is conducted, focusing on reward maximization, to investigate whether specialized algorithmic instances tied to a group of users can highlight improved personalization overall. The simulations report no considerable advantages in comparison with a unique model.

I sistemi di raccomandazione sono tecniche progettate per consigliare degli oggetti agli utenti, con l'obiettivo di compiacere il più possibile le loro preferenze personali. Una difficoltà intrinseca a questi motori di filtraggio è bilanciare due requisiti discordanti, ossia la scoperta di nuovi contenuti contro l'utilizzo di schemi riconosciuti. Tale aspetto si collega al caratteristico compromesso tra exploration ed exploitation della classe di problemi multi-armed bandit, in cui un modello sequenziale deve apprendere quali azioni corrispondono ai migliori risultati. Sebbene quest'ultimi algoritmi siano in grado di aiutare a combattere le problematiche impattanti sui motori di raccomandazione, molti casi d'uso del mondo reale presentano una proprietà di modellizzazione formale che non può essere ignorata, ovvero il rinvio nella divulgazione del feedback riferito ad un suggerimento del sistema. Per approfondire lo studio di tale dettaglio, questa tesi elabora una descrizione di scenari caratterizzati dalla rivelazione graduale, nel corso della sessione di interazione, delle opinioni di un utente circa un insieme di oggetti suggeriti. Due politiche risolutive basate su delle euristiche classiche sono adattate al quadro in esame e dotate di condivisione collaborativa delle informazioni. Le nuove strategie sono comparate con agenti di riferimento in due ambienti derivati da dati collezionati dalle piattaforme di Spotify e Last.fm, in modo da modellizzare un compito di generazione di elenchi di riproduzione, mostrando prestazioni superiori nei confronti delle linee guida in una serie di configurazioni su un problema di regret minimization. Inoltre, è condotto uno studio sperimentale, incentrato su reward maximization, per attestare le condizioni nelle quali istanziare modelli specializzati per gruppi di utenza implichi una migliore personalizzazione nel complesso. Le simulazioni effettuate non evidenziano benefici importanti rispetto ad un'istanza unica.

Learning temporal dynamics in delayed user feedback for playlist recommendation

Ciani, Fabio
2023/2024

Abstract

In the field of information retrieval, recommender systems comprehend techniques that are designed to suggest items to users, with the objective of satisfying their personal preferences as much as possible. An intrinsic challenge for such engines is to balance two opposite requirements, that is, new content discovery and application of established patterns. This relates to the characteristic exploration-exploitation dilemma of multi-armed bandit, a classical problem in reinforcement learning, where a sequential decision maker should infer what actions correspond to the best rewards. Although bandits can help to combat issues that impact on recommenders, many real-world use-cases present a modeling property which cannot be ignored, namely the delay affecting the disclosure of the feedback corresponding to a suggestion. To study such a detail, this dissertation devises a framework to describe scenarios typified by gradual reveal, along the interaction session, of the opinions of a user on a set of recommended items. A dyad of policies based on upper confidence bound and Thompson sampling heuristics are adapted to the setting and equipped with a collaborative share of beliefs. The novel strategies, TemporalLinCUCB and TemporalLinCTS, are compared with baseline agents on two environments built around datasets from Spotify and Last.fm to model a playlist generation task, showing superior performance with respect to the benchmarks in a number of configurations on a regret minimization problem. Additionally, a pilot experiment is conducted, focusing on reward maximization, to investigate whether specialized algorithmic instances tied to a group of users can highlight improved personalization overall. The simulations report no considerable advantages in comparison with a unique model.
FELICIONI, NICOLO'
ING - Scuola di Ingegneria Industriale e dell'Informazione
3-apr-2025
2023/2024
I sistemi di raccomandazione sono tecniche progettate per consigliare degli oggetti agli utenti, con l'obiettivo di compiacere il più possibile le loro preferenze personali. Una difficoltà intrinseca a questi motori di filtraggio è bilanciare due requisiti discordanti, ossia la scoperta di nuovi contenuti contro l'utilizzo di schemi riconosciuti. Tale aspetto si collega al caratteristico compromesso tra exploration ed exploitation della classe di problemi multi-armed bandit, in cui un modello sequenziale deve apprendere quali azioni corrispondono ai migliori risultati. Sebbene quest'ultimi algoritmi siano in grado di aiutare a combattere le problematiche impattanti sui motori di raccomandazione, molti casi d'uso del mondo reale presentano una proprietà di modellizzazione formale che non può essere ignorata, ovvero il rinvio nella divulgazione del feedback riferito ad un suggerimento del sistema. Per approfondire lo studio di tale dettaglio, questa tesi elabora una descrizione di scenari caratterizzati dalla rivelazione graduale, nel corso della sessione di interazione, delle opinioni di un utente circa un insieme di oggetti suggeriti. Due politiche risolutive basate su delle euristiche classiche sono adattate al quadro in esame e dotate di condivisione collaborativa delle informazioni. Le nuove strategie sono comparate con agenti di riferimento in due ambienti derivati da dati collezionati dalle piattaforme di Spotify e Last.fm, in modo da modellizzare un compito di generazione di elenchi di riproduzione, mostrando prestazioni superiori nei confronti delle linee guida in una serie di configurazioni su un problema di regret minimization. Inoltre, è condotto uno studio sperimentale, incentrato su reward maximization, per attestare le condizioni nelle quali istanziare modelli specializzati per gruppi di utenza implichi una migliore personalizzazione nel complesso. Le simulazioni effettuate non evidenziano benefici importanti rispetto ad un'istanza unica.
File allegati
File Dimensione Formato  
2025_04_Ciani_Thesis.pdf

accessibile in internet per tutti a partire dal 13/03/2026

Descrizione: Thesis
Dimensione 9.78 MB
Formato Adobe PDF
9.78 MB Adobe PDF   Visualizza/Apri
2025_04_Ciani_Executive_Summary.pdf

accessibile in internet per tutti a partire dal 13/03/2026

Descrizione: Executive summary
Dimensione 688.02 kB
Formato Adobe PDF
688.02 kB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/233892