Large companies involved in product distribution must always make crucial marketing decisions to place new stores in a territory. Traditionally supported by technology, the decision-making process now seeks to leverage the power of AI. The discussed work introduces the utilization of machine learning to assess profitable locations for opening future stores. The starting point for supporting the project begins with large databases (in the order of millions) provided by a digital receipt management service. The tuples contain raw information such as timestamp, amount, and receipt of the transaction. Through data analytics techniques, it became possible to trace back to the store’s category and location. Data cleaning procedures were performed on the data, then aggregated by store and by day in order to observe daily revenue. The data has been enriched with new features such as the correlation within categories, examining how closely stores can influence each other, and other exogenous information such as population and tourist flows related to the location and category. The target is a score from 1 to 100 assigned to each tuple and calculated based on the daily trends and the stores’ category. The best regression model was found by using the Gradient Boost Tree algorithm, ideal due to its robustness against noisy or missing data. The model was trained and then evaluated with MSE, RMSE, MAE and R², and validated using a test set of 150k tuples. The model accurately predicted 90% of cases with an error of less than 5%. This work proposes a methodology that helps decision-making processes for both large companies and small retailers. It serves as a starting point that can be continually improved through incremental learning with new data, offering increasingly valuable support to users.

Le grandi aziende coinvolte nella distribuzione di prodotti devono sempre prendere decisioni di marketing cruciali per posizionare nuovi negozi in un territorio. Tradizionalmente supportato dalla tecnologia, il processo decisionale cerca ora di sfruttare il potere dell'IA. Il lavoro discusso introduce l'utilizzo del machine learning per valutare le posizioni potenzialmente redditizie per l'apertura di futuri negozi. Il punto di partenza per supportare il progetto inizia con dei grandi database (dell'ordine dei milioni) forniti da un servizio di gestione delle ricevute digitali. Le tuple contengono informazioni grezze come timestamp, importo e ricevuta della transazione. Attraverso tecniche di analisi dei dati, è stato possibile risalire alla categoria e alla posizione del negozio. Sono state eseguite procedure di pulizia sui dati, poi aggregati per negozio e per giorno al fine di osservare il fatturato giornaliero. I dati sono stati arricchiti con nuove feature come la correlazione tra categorie, esaminando quanto i negozi possono influenzarsi a vicenda, e altre informazioni esogene come popolazione e flussi turistici legati alla posizione e alla categoria. Il target è uno score da 1 a 100 assegnato a ciascuna tupla e calcolato sulla base delle tendenze giornaliere e della categoria dei negozi. Il miglior modello di regressione è stato individuato utilizzando l'algoritmo Gradient Boost Tree, ideale per la sua robustezza contro dati rumorosi o mancanti. Il modello è stato addestrato sulla base di questi dati e poi valutato con MSE, RMSE, MAE e R², e convalidato utilizzando un set di test di 150k tuple. Il modello ha correttamente previsto il 90% dei casi con un errore inferiore al 5%. Questo lavoro propone una metodologia che aiuta i processi decisionali sia per le grandi aziende che per i piccoli rivenditori. Serve come punto di partenza e può essere continuamente migliorato attraverso l'apprendimento incrementale con nuovi dati, offrendo un supporto sempre più prezioso agli utenti.

Leveraging data analytics and regression models on a digital transaction receipts dataset for AI-driven decision support for retail expansion

PARLATI, ELISA
2022/2023

Abstract

Large companies involved in product distribution must always make crucial marketing decisions to place new stores in a territory. Traditionally supported by technology, the decision-making process now seeks to leverage the power of AI. The discussed work introduces the utilization of machine learning to assess profitable locations for opening future stores. The starting point for supporting the project begins with large databases (in the order of millions) provided by a digital receipt management service. The tuples contain raw information such as timestamp, amount, and receipt of the transaction. Through data analytics techniques, it became possible to trace back to the store’s category and location. Data cleaning procedures were performed on the data, then aggregated by store and by day in order to observe daily revenue. The data has been enriched with new features such as the correlation within categories, examining how closely stores can influence each other, and other exogenous information such as population and tourist flows related to the location and category. The target is a score from 1 to 100 assigned to each tuple and calculated based on the daily trends and the stores’ category. The best regression model was found by using the Gradient Boost Tree algorithm, ideal due to its robustness against noisy or missing data. The model was trained and then evaluated with MSE, RMSE, MAE and R², and validated using a test set of 150k tuples. The model accurately predicted 90% of cases with an error of less than 5%. This work proposes a methodology that helps decision-making processes for both large companies and small retailers. It serves as a starting point that can be continually improved through incremental learning with new data, offering increasingly valuable support to users.
ING - Scuola di Ingegneria Industriale e dell'Informazione
9-apr-2024
2022/2023
Le grandi aziende coinvolte nella distribuzione di prodotti devono sempre prendere decisioni di marketing cruciali per posizionare nuovi negozi in un territorio. Tradizionalmente supportato dalla tecnologia, il processo decisionale cerca ora di sfruttare il potere dell'IA. Il lavoro discusso introduce l'utilizzo del machine learning per valutare le posizioni potenzialmente redditizie per l'apertura di futuri negozi. Il punto di partenza per supportare il progetto inizia con dei grandi database (dell'ordine dei milioni) forniti da un servizio di gestione delle ricevute digitali. Le tuple contengono informazioni grezze come timestamp, importo e ricevuta della transazione. Attraverso tecniche di analisi dei dati, è stato possibile risalire alla categoria e alla posizione del negozio. Sono state eseguite procedure di pulizia sui dati, poi aggregati per negozio e per giorno al fine di osservare il fatturato giornaliero. I dati sono stati arricchiti con nuove feature come la correlazione tra categorie, esaminando quanto i negozi possono influenzarsi a vicenda, e altre informazioni esogene come popolazione e flussi turistici legati alla posizione e alla categoria. Il target è uno score da 1 a 100 assegnato a ciascuna tupla e calcolato sulla base delle tendenze giornaliere e della categoria dei negozi. Il miglior modello di regressione è stato individuato utilizzando l'algoritmo Gradient Boost Tree, ideale per la sua robustezza contro dati rumorosi o mancanti. Il modello è stato addestrato sulla base di questi dati e poi valutato con MSE, RMSE, MAE e R², e convalidato utilizzando un set di test di 150k tuple. Il modello ha correttamente previsto il 90% dei casi con un errore inferiore al 5%. Questo lavoro propone una metodologia che aiuta i processi decisionali sia per le grandi aziende che per i piccoli rivenditori. Serve come punto di partenza e può essere continuamente migliorato attraverso l'apprendimento incrementale con nuovi dati, offrendo un supporto sempre più prezioso agli utenti.
File allegati
File Dimensione Formato  
2024_04_Parlati.pdf

non accessibile

Dimensione 7.03 MB
Formato Adobe PDF
7.03 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/218152