Negative item sampling on user impressions for multi-channel Bayesian personalized ranking techniques

Recommender Systems are algorithms and techniques providing personalized suggestions to a user on what items to consume from a given catalogue. In recent years they have had a great impact on every kind of commercial application. Recommender Systems usually rely on two types of data: data about user interaction and data about items and users. Techniques that use these data types are collectively called Collaborative Filtering and Content Based respectively. Data about user interactions can further be divided into Explicit Feedback, when the user explicitly expresses a positive or negative preference on an item, and Implicit Feedback, collected when a user interacts with an item. We collected and processed data from a real Recommender System in the domain of Over-The-Top Media to produce a dataset for Collaborative Filtering techniques that has user impression data in addition to traditional Explicit and Implicit Feedback. With this dataset we explored Bayesian Personalized Ranking (BPR), a well known optimization algorithm for Collaborative Filtering model-based techniques. At every step of training, BPR requires the sampling of a user and two items: a positive one, the user interacted with, and a negative one. Ideally, the user should prefer the positive item to the negative item and it was shown that different sampling strategies can bring very different final performances. We examined the idea that the absence of interaction on an item displayed to a user may indicate a mild negative preference. To explore this idea we proposed different techniques to sample the negative item from user impression data and tested three different strategies to combine these new techniques with classic implicit feedback samplers. With our experiments we found one particular combination of these techniques to be consistently better than the others for every examined strategy. Finally we showed that, with two of the proposed strategies, said combination also outperforms the classic implicit feedback samplers.

I Sistemi di Raccomandazione sono tecniche e algoritmi che suggeriscono a un utente quali contenuti usufruire da un dato catalogo. Negli ultimi anni hanno avuto un grande impatto in ogni genere di impiego commerciale. I Sistemi di Raccomandazione solitamente utilizzano due tipologie di dati: i dati sulle interazioni degli utenti e i dati su utenti e oggetti. Le tecniche che utilizzano queste tipologie di dati vengono raggruppate rispettivamente nelle categorie di approccio collaborativo e approccio basato sul contenuto. I dati sulle interazioni degli utenti possono essere a loro volta divisi in Feedback Esplicito, quando un utente esplicita la propria opinione di un oggetto, e Feedback Implicito, individuato quando un utente interagisce con un oggetto. Abbiamo raccolto e processato dati provenienti da un Sistema di Raccomandazione reale nell'ambito dei sistemi digitali Over-The-Top per produrre un dataset per tecniche di tipo collaborativo che, oltre ai feedback espliciti e impliciti tradizionali, abbia anche i dati di cosa sia stato mostrato agli utenti. Con questo dataset abbiamo analizzato il Bayesian Personalized Ranking (BPR), un noto algoritmo di ottimizzazione di tipo collaborativo per tecniche model-based. Ad ogni passo dell'addestramento, il BPR richiede di selezionare un utente e due oggetti: uno positivo, con il quale l'utente ha interagito, e uno negativo. Idealmente, l'utente dovrebbe preferire l'oggetto positivo all'oggetto negativo ed è stato dimostrato che diverse strategie per effettuare la selezione degli esempi positivi e negativi possano portare prestazioni finali molto differenti. Abbiamo esaminato l'ipotesi che l'assenza di interazioni su un oggetto mostrato a un utente possa indicare un'opinione leggermente negativa nei confronti dell'oggetto stesso. Per studiare questa ipotesi, abbiamo proposto sia delle tecniche di campionamento dell'oggetto negativo tra quelli mostrati all'utente che tre strategie per combinare queste nuove tecniche con degli approcci classici basati sul feedback implicito. Tramite i nostri esperimenti, abbiamo trovato una combinazione di tecniche con prestazioni sistematicamente superiori rispetto a qualsiasi altra per ogni strategia usata. Infine abbiamo mostrato che, con due delle strategie proposte, tale combinazione ha prestazioni superiori alle tradizionali tecniche di campionamento basate sul Feedback Implicito.