Rating aware feature selection in content-based recommender systems

For many e-commerce services the amount of items being offered to the users is currently overwhelming and ever increasing. Such phenomenon, present in many different domains, makes it necessary to suggest items to users based on personal preferences for a better user experience. A system that can make such suggestions is called a Recommender System. In essence, a Recommender System exploits the available information, being that user or item information, to make predictions about the user's ratings towards items. Content-based approaches are one of the main recommendation approaches that need item information as well as past user interactions in order to make recommendations to the user. Specifically, using past user preferences, items which are similar in content to those already liked by the user, are recommended to the latter. However, such approaches are known to have a worse performance than other approaches such as collaborative filtering or hybrid ones; one of the main reasons behind such behaviour is that item features are prone to noise and redundancy. This thesis introduces a novel feature selection technique aiming to overcome the prominent issues of content-based approaches. Such technique utilizes past user ratings to find a feature importance through the use of a machine learning algorithm. A classification problem foundation is set up where the samples used to learn from are a feature representation of rating-aware information. The aim of such classification model is that of obtaining a feature importance which is then used for feature selection. The reduced feature set leads to dimensionality reduction, interpretability of the model being used, explainability of the results, as well as an increase in performance. The intuitive hypothesis were backup by experiments conducted over two datasets: Movielens 10 Million and The movies dataset. The obtained results proved that our feature selection technique copes well with different types of features, almost always outperforming the state of the art baseline for a content-based approach which uses all the available features.

Per molti servizi di e-commerce la quantità di articoli offerti agli utenti è attualmente travolgente e in costante aumento. Tale fenomeno, presente in molti domini diversi, rende necessario suggerire gli articoli agli utenti in base alle preferenze personali per una migliore esperienza dell'utente. Un sistema che può dare questi suggerimenti è chiamato un sistema di raccomandazione. In sostanza, un sistema di raccomandazione utilizza le informazioni disponibili, ovvero le informazioni sull'utente o sull'articolo, per fare previsioni sulle valutazioni dell'utente rispetto agli articoli. Gli approcci basati sul contenuto sono uno dei principali approcci alla raccomandazione che richiedono informazioni sugli articoli e le interazioni passate dell'utente al fine di fornire raccomandazioni all'utente. In particolare, utilizando le preferenze precedenti dell'utente, elementi che sono simili nel contenuto a quelli già da lui apprezzati, le vengono poi consigliati. Tuttavia, tali approcci sono noti per avere prestazioni peggiori di altri approcci come il filtro collaborativo o approcci ibridi; una delle ragioni principali alla base di questo comportamento è che gli attributi degli articoli sono soggetti a rumore e ridondanza. Questa tesi introduce una nuova tecnica di selezione degli attributi che mira a superare i problemi principali degli approcci basati sul contenuto. Tale tecnica utilizza passate valutazioni dell'utente per trovare un'importanza di funzionalità attraverso l'uso di un algoritmo di apprendimento automatico. Viene creata una base di un problema di classificazione in cui gli esempi utilizzati per apprendere sono una rappresentazione di caratteristiche di informazioni sensibili alla classificazione. Lo scopo di tale modello di classificazione è quello di ottenere un'importanza della funzione che viene quindi utilizzata per la selezione degli attributi. Il set ridotto degli attributi porta ad una riduzione della dimensionalità, interpretabilità del modello utilizzato, spiegabilità dei risultati, nonché un aumento delle prestazioni. L’ipotesi intuitiva `e stata sostenuta da esperimenti condotti su due dataset: Movielens 10 Million e The movies dataset. I risultati ottenuti hanno dimostrato chela nostra tecnica di selezione degli attributi si adatta bene a diversi tipi di attributi, superando quasi sempre le performance della baseline dello stato dell’arte per gli approchi basati su contenti che utilizzano tutti gli attributi.