Application of time series techniques and machine learning models to forecasting of daily supermarket sales

Forecasting retailer sales has long been purpose of work both in Econometrics and Statistics. Accurate forecasts are crucial for two main reasons: they prevent missing revenues when the number of items available is less than the customers' demand and they avoid storage costs for items unexpectedly not sold. More and more companies integrate forecasts in Supply Chain planning in order to minimize these costs. In this work different modeling techniques were studied and implemented, starting from classical time series techniques, going through Bayesian Mixed Models and finally exploring more complex machine learning models, considering forecasting performance, computational requirements and scalability. Even if the main interest of companies is that of properly optimizing supply chain planning to avoid disruption, making the forecast of high selling products (more liable to stockouts) crucial, a pattern that can be found also in the research literature, this work tries to give a general model, forecasting also sporadic products. Furthermore, the need to constantly report to the client investing in a proper forecasting model made us consider also the hardware requirements for computations, exploring both Amazon Web Services and the Hadoop framework. The main purpose was to develop a proper forecasting tool usable and scalable to other stores by the same company which invested in Data Reply IT expertise, which included, among others, the author of this work.

La previsione delle vendite in retailer sia di piccola sia di grande dimensione è stato a lungo argomento di studio in Econometria e Statistica. Previsioni accurate permettono di evitare sia costi dovuti a mancati ricavi legati a una domanda di prodotto inaspettatamente elevata, sia costi di magazzino dovuti a troppi pezzi rimasti invenduti. Sempre più aziende integrano modelli previsionali nella pianificazione della catena di produzione proprio per minimizzare tali costi. Nel lavoro qui presentato sono stati presentati e implementati diversi modelli, partendo dall'analisi classica delle serie temporali, proseguendo con modelli Bayesiani a effetti misti e terminando con modelli di machine learning, tenendo in considerazione l'accuratezza delle previsioni, il costo computazionale e la scalabilità dei modelli. Seppure l'interesse principale delle aziende sia quello di ottimizzare la pianificazione della catena di produzione per evitare rotture di stock, rendendo quindi centrale soprattutto la previsione di prodotti ad altissima rotazione, motivo per cui la letteratura in merito si concentra su tali prodotti quasi esclusivamente, in questa tesi si cerca di fornire un modello che descriva il comportamento di tutti i prodotti in considerazione, anche quelli caratterizzati da vendite molto sporadiche. Infine, è da sottolineare come l'obiettivo e l'ambizione del lavoro presentato sia quello di rivendere il prodotto a un cliente, richiedendoci di considerare tutto ciò che concerne le richieste hardware che hanno portato a esplorare servizi di cloud computing come Amazon Web Services e il framework Hadoop. Tale lavoro è stato commissionato da Bennet a Data Reply It, l'autore fa parte del gruppo di persone coinvolte in tale progetto.