Recommender Systems (RSs) provide users with personalized suggestions for products of different kinds. Collaborative Filtering (CF) methods leverage past user-item interactions to provide recommendations and, among these techniques, Matrix Factorization (MF) is a well known family which is able to achieve state of the art performances. In the context of Matrix Factorization and particularly in implicit feedback scenarios, Bayesian Personalized Ranking (BPR) is one of the criteria that can be adopted for learning the model weights. This criterion offers the key advantage of dealing with the problem of recommendation as a ranking task, thus maximizing the probability of correctly ranking the unseen items of a user. At each iteration of the BPR learning procedure, a sample composed by a user, a seen item (positive item) and an unseen item (negative item) is extracted in order to update the model weights; this process is known as sampling and it highly affects the model capabilities. Various sampling frameworks have been proposed with the aim of speeding up the computation and finding good negative candidates. Recent works focus on sample weighting strategies that try to take into account the difficulty of a sample. In this thesis we analyze the state of the art sampling techniques and introduce an item similarity based confidence which uses the item-item similarity to infer the negativeness of an item. The confidence is then used as a sample weight in order to decrease the impact of the model updates for those items that, according to the item-item similarity, have a high chance of become positive interactions in the future. The results of the experiments conducted on four popular research datasets show that our proposed confidence weighting strategy is able to achieve very good results both in accuracy and convergence speed without impacting the computational complexity.

I Sistemi di Raccomandazione (RS) producono suggerimenti personalizzati per vari tipi di prodotti e contenuti. Gli algoritmi collaborativi (CF) sfruttano le interazioni passate tra utenti e oggetti per costruire le raccomandazioni relative a ciascun utente e, in particolare, tra queste tecniche si distinguono i modelli di fattorizzazione di matrici (MF). Tra questi modelli, specialmente in casi in cui la preferenza degli utenti non è esplicita ma deve essere inferita (feedback implicito), un criterio di ottimizzazione molto popolare è il Bayesian Personalized Ranking (BPR). Tale criterio offre il vantaggio di affrontare la questione della raccomandazione come un problema di ordinamento, cercando di massimizzare la probabilità di ordinare in modo corretto un oggetto con cui l'utente ha interagito rispetto ad uno con cui non ha interagito. Nel processo di ottimizzazione del criterio, ad ogni iterazione viene estratta una tripletta composta da un utente, un oggetto con cui l'utente ha interagito (oggetto positivo) e uno con cui non ha interagito (oggetto negativo); questo processo è noto come sampling e ha un forte impatto nel processo di allenamento del modello. Varie tecniche di sampling sono state proposte con l'obiettivo di velocizzare la convergenza dell'algoritmo BPR e di migliorare la qualità delle raccomandazione. I lavori più recenti in questo ambito sono incentrati sul concetto di peso della tripletta al fine di tenere in considerazione la difficoltà di un oggetto negativo. In questo lavoro di tesi analizziamo lo stato dell'arte identificando pregi e difetti delle attuali tecniche esistenti e, utilizzando la similarità collaborativa tra gli oggetti, proponiamo il concetto di confidenza di un negativo per ogni singolo utente come misura della probabilità che possa in futuro diventare un positivo per quell'utente. Tale concetto di confidenza viene utilizzato per assegnare un peso a ciascuna tripletta al fine di diminuire l'impatto dell'aggiornamento del gradiente per gli oggetti negativi che hanno una bassa confidenza. I risultati sperimentali ottenuti su quattro dataset di ricerca dimostrano che la strategia proposta è in grado di migliorare le tecniche esistenti con un impatto minimo sulla complessità computazionale dell'algoritmo.

Bayesian personalized ranking sampling techniques

Moreschini, Matteo
2020/2021

Abstract

Recommender Systems (RSs) provide users with personalized suggestions for products of different kinds. Collaborative Filtering (CF) methods leverage past user-item interactions to provide recommendations and, among these techniques, Matrix Factorization (MF) is a well known family which is able to achieve state of the art performances. In the context of Matrix Factorization and particularly in implicit feedback scenarios, Bayesian Personalized Ranking (BPR) is one of the criteria that can be adopted for learning the model weights. This criterion offers the key advantage of dealing with the problem of recommendation as a ranking task, thus maximizing the probability of correctly ranking the unseen items of a user. At each iteration of the BPR learning procedure, a sample composed by a user, a seen item (positive item) and an unseen item (negative item) is extracted in order to update the model weights; this process is known as sampling and it highly affects the model capabilities. Various sampling frameworks have been proposed with the aim of speeding up the computation and finding good negative candidates. Recent works focus on sample weighting strategies that try to take into account the difficulty of a sample. In this thesis we analyze the state of the art sampling techniques and introduce an item similarity based confidence which uses the item-item similarity to infer the negativeness of an item. The confidence is then used as a sample weight in order to decrease the impact of the model updates for those items that, according to the item-item similarity, have a high chance of become positive interactions in the future. The results of the experiments conducted on four popular research datasets show that our proposed confidence weighting strategy is able to achieve very good results both in accuracy and convergence speed without impacting the computational complexity.
BERNARDIS, CESARE
ING - Scuola di Ingegneria Industriale e dell'Informazione
21-dic-2021
2020/2021
I Sistemi di Raccomandazione (RS) producono suggerimenti personalizzati per vari tipi di prodotti e contenuti. Gli algoritmi collaborativi (CF) sfruttano le interazioni passate tra utenti e oggetti per costruire le raccomandazioni relative a ciascun utente e, in particolare, tra queste tecniche si distinguono i modelli di fattorizzazione di matrici (MF). Tra questi modelli, specialmente in casi in cui la preferenza degli utenti non è esplicita ma deve essere inferita (feedback implicito), un criterio di ottimizzazione molto popolare è il Bayesian Personalized Ranking (BPR). Tale criterio offre il vantaggio di affrontare la questione della raccomandazione come un problema di ordinamento, cercando di massimizzare la probabilità di ordinare in modo corretto un oggetto con cui l'utente ha interagito rispetto ad uno con cui non ha interagito. Nel processo di ottimizzazione del criterio, ad ogni iterazione viene estratta una tripletta composta da un utente, un oggetto con cui l'utente ha interagito (oggetto positivo) e uno con cui non ha interagito (oggetto negativo); questo processo è noto come sampling e ha un forte impatto nel processo di allenamento del modello. Varie tecniche di sampling sono state proposte con l'obiettivo di velocizzare la convergenza dell'algoritmo BPR e di migliorare la qualità delle raccomandazione. I lavori più recenti in questo ambito sono incentrati sul concetto di peso della tripletta al fine di tenere in considerazione la difficoltà di un oggetto negativo. In questo lavoro di tesi analizziamo lo stato dell'arte identificando pregi e difetti delle attuali tecniche esistenti e, utilizzando la similarità collaborativa tra gli oggetti, proponiamo il concetto di confidenza di un negativo per ogni singolo utente come misura della probabilità che possa in futuro diventare un positivo per quell'utente. Tale concetto di confidenza viene utilizzato per assegnare un peso a ciascuna tripletta al fine di diminuire l'impatto dell'aggiornamento del gradiente per gli oggetti negativi che hanno una bassa confidenza. I risultati sperimentali ottenuti su quattro dataset di ricerca dimostrano che la strategia proposta è in grado di migliorare le tecniche esistenti con un impatto minimo sulla complessità computazionale dell'algoritmo.
File allegati
File Dimensione Formato  
2021_12_MORESCHINI.pdf

Open Access dal 30/11/2022

Descrizione: Exectutive Summary e Tesi - Moreschini
Dimensione 3.76 MB
Formato Adobe PDF
3.76 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/183427