At times of great investments in enhancing the customer experience of both products and services, ignoring the opportunity of tailoring the development of digital interactions on a customer basis is not anymore an option for prospering in highly competitive environments. Regardless of the availability of explicit customer data, detecting and considering the characteristics of end-users are equally fundamental to achieve an acceptable level of personalization of the touchpoints. During the information age, data-driven solutions play a crucial role in this fast run. This research has been carried out within Sanoma Media Finland Oy. The objective of the study is to explore a set of user profiling techniques, based on machine learning models, which are able to learn the segmentation of the user base on a number of different criteria. The methods that have been implemented use different architectures, data sources, and user representations. The latter include pure interaction-based methods, such as Item2Vec, as well as combinations of semantic representations of articles content, computed through language models, such as FinBERT. All of the representations have been processed in both single task and multitask learning setups, and their performance is generally at least comparable to the existing baseline of the company. Eventually, evidence showed that a combination of multitask learning architecture, informative user and article representations, and a fairly large amount of data, is the key that determines the success of some of the proposed methods in outperforming the baseline and reducing the resources needed.

In tempi di grandi investimenti mirati a migliorare la customer experience di prodotti e servizi, sottovalutare l'opportunità di personalizzare le interazioni digitali sulla base delle informazioni degli utenti non è più ammissibile per poter prosperare in ambienti altamente competitivi. Indipendentemente dalla disponibilità di dati espliciti sugli utenti, rilevare e prendere in considerazione le caratteristiche dei propri utenti finali sono entrambe operazioni fondamentali per il raggiungimento di un livello accettabile di personalizzazione dei punti di contatto. Durante l’era dell’informazione digitale, le soluzioni data-driven giocano un ruolo fondamentale in questa corsa dai ritmi sostenuti. Questa ricerca è stata effettuata presso Sanoma Media Finland, un’azienda finlandese che opera nel settore dei media e dell’intrattenimento. L’obbiettivo dello studio in quesitone è l’esplorazione di diverse tecniche di profilazione degli utenti basate su modelli di machine learning, i quali apprendono come segmentare la base di utenti secondo differenti criteri. I metodi implementati usano differenti architetture, sorgenti di dati e metodi di rappresentazioni degli utenti. Questi ultimi includono sia approcci basati esclusivamente sulle interazioni tra utenti e articoli di giornale, come Item2Vec, sia combinazioni di rappresentazioni semantiche del contenuto degli articoli stessi, calcolate con l’ausilio di modelli linguistici specifici, come FinBERT. Tutte le rappresentazioni sono successivamente processate con approcci single task e multitask learning, le cui performance si sono rivelate in generale almeno comparabili alla baseline offerta dall’azienda. I risultati hanno dimostrato che una combinazione di multitask learning, metodi di rappresentazioni di articoli ed utenti altamente informativi e una grande quantità di dati, ha determinato il successo di alcuni dei metodi proposti affinché potessero superare le performance della baseline e ridurre le risorse necessarie.

Learning customer segmentation in the news media industry : from content and behavioral data to customer segments

La Torre, Fabio Benedetto
2019/2020

Abstract

At times of great investments in enhancing the customer experience of both products and services, ignoring the opportunity of tailoring the development of digital interactions on a customer basis is not anymore an option for prospering in highly competitive environments. Regardless of the availability of explicit customer data, detecting and considering the characteristics of end-users are equally fundamental to achieve an acceptable level of personalization of the touchpoints. During the information age, data-driven solutions play a crucial role in this fast run. This research has been carried out within Sanoma Media Finland Oy. The objective of the study is to explore a set of user profiling techniques, based on machine learning models, which are able to learn the segmentation of the user base on a number of different criteria. The methods that have been implemented use different architectures, data sources, and user representations. The latter include pure interaction-based methods, such as Item2Vec, as well as combinations of semantic representations of articles content, computed through language models, such as FinBERT. All of the representations have been processed in both single task and multitask learning setups, and their performance is generally at least comparable to the existing baseline of the company. Eventually, evidence showed that a combination of multitask learning architecture, informative user and article representations, and a fairly large amount of data, is the key that determines the success of some of the proposed methods in outperforming the baseline and reducing the resources needed.
ING - Scuola di Ingegneria Industriale e dell'Informazione
28-apr-2021
2019/2020
In tempi di grandi investimenti mirati a migliorare la customer experience di prodotti e servizi, sottovalutare l'opportunità di personalizzare le interazioni digitali sulla base delle informazioni degli utenti non è più ammissibile per poter prosperare in ambienti altamente competitivi. Indipendentemente dalla disponibilità di dati espliciti sugli utenti, rilevare e prendere in considerazione le caratteristiche dei propri utenti finali sono entrambe operazioni fondamentali per il raggiungimento di un livello accettabile di personalizzazione dei punti di contatto. Durante l’era dell’informazione digitale, le soluzioni data-driven giocano un ruolo fondamentale in questa corsa dai ritmi sostenuti. Questa ricerca è stata effettuata presso Sanoma Media Finland, un’azienda finlandese che opera nel settore dei media e dell’intrattenimento. L’obbiettivo dello studio in quesitone è l’esplorazione di diverse tecniche di profilazione degli utenti basate su modelli di machine learning, i quali apprendono come segmentare la base di utenti secondo differenti criteri. I metodi implementati usano differenti architetture, sorgenti di dati e metodi di rappresentazioni degli utenti. Questi ultimi includono sia approcci basati esclusivamente sulle interazioni tra utenti e articoli di giornale, come Item2Vec, sia combinazioni di rappresentazioni semantiche del contenuto degli articoli stessi, calcolate con l’ausilio di modelli linguistici specifici, come FinBERT. Tutte le rappresentazioni sono successivamente processate con approcci single task e multitask learning, le cui performance si sono rivelate in generale almeno comparabili alla baseline offerta dall’azienda. I risultati hanno dimostrato che una combinazione di multitask learning, metodi di rappresentazioni di articoli ed utenti altamente informativi e una grande quantità di dati, ha determinato il successo di alcuni dei metodi proposti affinché potessero superare le performance della baseline e ridurre le risorse necessarie.
File allegati
File Dimensione Formato  
thesis_fabio_la_torre.pdf

accessibile in internet solo dagli utenti autorizzati

Descrizione: thesis
Dimensione 1.37 MB
Formato Adobe PDF
1.37 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/175788