In a saturated market, such as the grocery retail sector, churn prediction is an aspect of Customer Relationship Management companies have to deal with if they want to keep competitiveness. As a matter of fact, companies have the opportunity to pursue effective retaining strategies by an early identification of those customers that are at risk of leaving. For a retail setting, in which churn is not uniquely identifiable, this is considered a critical challenge: the need for a dynamic definition of churn that takes into consideration customer behaviour makes the analysis complex. While customer churn in contractual setting has been deeply studied in different sectors, in non-contractual grocery retail settings, it has started to be addressed from the literature only in recent years and there is not a common best practice shared between the works. This thesis is based on earlier research with an emphasis on the product categories purchased, trying to determine whether they have a significant impact on determining customer churn or not. The work leverages transactional data collected through an Italian retailer’s loyalty card to develop a partial churn prediction model that identifies not only the customers more likely to churn but also the factors that best determine it. Three classification algorithms are utilized: Random Forest, XGBoost and Logistic Regression. Logistic Regression is concluded to be comparable in terms of predictive performances to the alternative techniques. Its high interpretability gives this thesis the advantage of collecting relevant business insights and evaluating managerial implications for customer retention. Besides the RFM variables, already confirmed as important predictors of churn, the relevance of ad hoc factors has been investigated, focusing on both basket mix dynamicity and spending changes of product categories. The results suggest that including factors related to categories purchased can contribute to improving churn prediction in grocery retail. Finally, for the study case, the effects derived from the relevant factors are quantified taking into consideration the CLV. In this regard, it has been calculated a budget to allocate for retaining strategies, allowing the important managerial switch from prediction to prevention.

In un mercato saturo, come il settore dei supermercati, la predizione del churn è un aspetto del Customer Relationship Management che le aziende devono affrontare, se il loro intento è quello di mantenere competitività. Infatti, le aziende hanno l’opportunità di perseguire una strategia efficace di retenzione del cliente, grazie ad un identificazione anticipata di quei clienti che sono a rischio di abbandono. Per un contesto retail, nel quale la definizione di termine della relazione non è univoca, questa è considerata una sfida critica: il bisogno di una definizione dinamica del churn, che tenga in considerazione l’evolversi del comportamento del cliente, rende l’analisi complessa. Mentre il churn in un contesto contrattuale è stato studiato in profondità in diversi settori, in un contesto non contrattuale come quello dei supermercati, è iniziato ad essere preso in considerazione dalla letteratura solo negli ultimi anni, e ancora non ha portato ad una best-practice condivisa. Questa tesi si basa su lavori di ricerca precedenti, con un’enfasi sulle categorie merceologiche comprate, provando a determinare se esse hanno un impatto significativo nella determinazione del churn. Il lavoro fa leva su dati transazionali, raccolti dai clienti di un supermercato italiano attraverso la loro carta fedeltà, con lo scopo di sviluppare un modello di defezione parziale che identifichi non solo i clienti più a rischio di churn, ma anche i fattori che lo determinano. Sono stati utilizzati tre algoritmi di classificazione: Random Forest, XGBoost e la Regressione Logistica. Quest’ultima si conclude essere comparabile, in termini di performance predittive, agli altri algoritmi, e la sua alta interpretabilità dà a questa tesi il vantaggio di ottenere informazioni legate al business e di valutarne le implicazioni manageriali relative alla retenzione del cliente. Oltre alle variabili dell’area RFM, già confermate come importanti predittori del churn, è stata investigata la rilevanza di fattori specifici del cliente, che riguardano sia la dinamicità del basket-mix ed i cambiamenti di spesa nelle diverse categorie merceologiche. I risultati suggeriscono che includere fattori legati alle categorie può contribuire a migliorare la predizione del churn nel settore dei supermercati. In ultimo, per questo caso di studio, sono stati anche quantificati gli effetti di variazione del CLV, derivanti dai fattori delle categorie risultati significativi. Sotto questo aspetto, è stato stimato un budget da allocare a strategie marketing di retenzione, così da permettere una traduzione manageriale della predizione in concreta prevenzione.

Comparing churn prediction methods in non-contractual setting and lifecycle management implications : evidences from grocery retail

FRANCAVILLA, FEDERICO SIMONE;Galvagno, Lorena
2021/2022

Abstract

In a saturated market, such as the grocery retail sector, churn prediction is an aspect of Customer Relationship Management companies have to deal with if they want to keep competitiveness. As a matter of fact, companies have the opportunity to pursue effective retaining strategies by an early identification of those customers that are at risk of leaving. For a retail setting, in which churn is not uniquely identifiable, this is considered a critical challenge: the need for a dynamic definition of churn that takes into consideration customer behaviour makes the analysis complex. While customer churn in contractual setting has been deeply studied in different sectors, in non-contractual grocery retail settings, it has started to be addressed from the literature only in recent years and there is not a common best practice shared between the works. This thesis is based on earlier research with an emphasis on the product categories purchased, trying to determine whether they have a significant impact on determining customer churn or not. The work leverages transactional data collected through an Italian retailer’s loyalty card to develop a partial churn prediction model that identifies not only the customers more likely to churn but also the factors that best determine it. Three classification algorithms are utilized: Random Forest, XGBoost and Logistic Regression. Logistic Regression is concluded to be comparable in terms of predictive performances to the alternative techniques. Its high interpretability gives this thesis the advantage of collecting relevant business insights and evaluating managerial implications for customer retention. Besides the RFM variables, already confirmed as important predictors of churn, the relevance of ad hoc factors has been investigated, focusing on both basket mix dynamicity and spending changes of product categories. The results suggest that including factors related to categories purchased can contribute to improving churn prediction in grocery retail. Finally, for the study case, the effects derived from the relevant factors are quantified taking into consideration the CLV. In this regard, it has been calculated a budget to allocate for retaining strategies, allowing the important managerial switch from prediction to prevention.
ING - Scuola di Ingegneria Industriale e dell'Informazione
4-mag-2023
2021/2022
In un mercato saturo, come il settore dei supermercati, la predizione del churn è un aspetto del Customer Relationship Management che le aziende devono affrontare, se il loro intento è quello di mantenere competitività. Infatti, le aziende hanno l’opportunità di perseguire una strategia efficace di retenzione del cliente, grazie ad un identificazione anticipata di quei clienti che sono a rischio di abbandono. Per un contesto retail, nel quale la definizione di termine della relazione non è univoca, questa è considerata una sfida critica: il bisogno di una definizione dinamica del churn, che tenga in considerazione l’evolversi del comportamento del cliente, rende l’analisi complessa. Mentre il churn in un contesto contrattuale è stato studiato in profondità in diversi settori, in un contesto non contrattuale come quello dei supermercati, è iniziato ad essere preso in considerazione dalla letteratura solo negli ultimi anni, e ancora non ha portato ad una best-practice condivisa. Questa tesi si basa su lavori di ricerca precedenti, con un’enfasi sulle categorie merceologiche comprate, provando a determinare se esse hanno un impatto significativo nella determinazione del churn. Il lavoro fa leva su dati transazionali, raccolti dai clienti di un supermercato italiano attraverso la loro carta fedeltà, con lo scopo di sviluppare un modello di defezione parziale che identifichi non solo i clienti più a rischio di churn, ma anche i fattori che lo determinano. Sono stati utilizzati tre algoritmi di classificazione: Random Forest, XGBoost e la Regressione Logistica. Quest’ultima si conclude essere comparabile, in termini di performance predittive, agli altri algoritmi, e la sua alta interpretabilità dà a questa tesi il vantaggio di ottenere informazioni legate al business e di valutarne le implicazioni manageriali relative alla retenzione del cliente. Oltre alle variabili dell’area RFM, già confermate come importanti predittori del churn, è stata investigata la rilevanza di fattori specifici del cliente, che riguardano sia la dinamicità del basket-mix ed i cambiamenti di spesa nelle diverse categorie merceologiche. I risultati suggeriscono che includere fattori legati alle categorie può contribuire a migliorare la predizione del churn nel settore dei supermercati. In ultimo, per questo caso di studio, sono stati anche quantificati gli effetti di variazione del CLV, derivanti dai fattori delle categorie risultati significativi. Sotto questo aspetto, è stato stimato un budget da allocare a strategie marketing di retenzione, così da permettere una traduzione manageriale della predizione in concreta prevenzione.
File allegati
File Dimensione Formato  
2023_05_Francavilla_Galvagno.pdf

accessibile in internet solo dagli utenti autorizzati

Dimensione 1.83 MB
Formato Adobe PDF
1.83 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/210348