The advent of Data Age has come. The amount of data produced and managed every day is continuously, exponentially growing in almost every sector. Each organisation or company must deal with more and more data. Data is currently one of the most valuable resources that each company could own, since it can potentially generate many precious business insights. Technologies are continuously evolving and, with them, the usage of data is constantly improving. Nowadays, we don’t simply analyse data but we try to predict them, making machines learn from the past data. We try, in some ways, to “forecast the future”, investigating over the possible connections between past and future data. Here the Data Science finds place: it is able to manipulate large amounts of historical data to obtain these insights. The Forecasting Science is a clear example of technology at the service of the business: it supports companies of different markets in executing several core activities, such as organising the processes, managing the flows of both materials and information and monitoring the business KPIs. All these aspects of the business give to the decision makers precious information about the development of the business; thus, the Forecasting Science represents a way to make conscious, science-based and bias-free decisions. The objectives of this thesis are to investigate over the most largely used mathematical methods that enable the time series forecasting and to identify the most appropriate ones in terms of predictions’ accuracy. The aim is to evaluate them not only in absolute terms, but also in relation to the hyperparameters they assume. Moreover, the aim is to spot any eventual connection between the performances of each model and the main characteristics of the time series such as granularity, seasonality, trend, noise and autocorrelation. The results clearly show that the choice of the model significantly impacts the accuracy of the forecasting: a good choice of the model is able to generate quite affordable predictions. The main evidences suggest the existence of a model that usually outperforms all the other algorithms. Moreover, the choice of the hyperparameters that fit each model strongly affects the performances: great attention should be put on the tuning process. At the same time, it is not possible to find any high correlation between the characteristics of the time series and the optimal model identified. Thus, a big effort should be put on the automatization of the whole process of model testing to try each (time series - model - hyperparmeters) combination and identify the optimal model tuned for each dataset. Finally, results clearly evidence the possibility to obtain different conclusions - and therefore to make different decisions - depending on the choice of the accuracy metric.

Viviamo oggi nell’era dei dati. La quantità di dati generata ogni giorno cresce esponenzialmente. Ogni impresa, a prescindere dal settore di appartenenza, si trova quotidianemente a gestire un ammontare sempre crescente di dati. I dati sono attualmente tra le risorse più preziose che ogni azienda possa possedere, poiché forniscono informazioni di grande valore per il business. Le tecnologie digitali sono in continua evoluzione e, con loro, anche l’utilizzo dei dati. Oggi il mercato non si limita all’analisi degli stessi, ma è in grado di predire i dati futuri. In un certo senso, l’obiettivo oggi è "predire il futuro", analizzando le possibili connessioni presenti nei dati storici. Qui entra in gioco la Data Science, che permette di ottenere informazione sul futuro analizzando grandi quantità di dati relativi a serie storiche. La scienza delle previsioni è un chiaro esempio di tecnologia al servizio del business: supporta aziende di diversi settori nell’esecuzione di fondamentali attività quali l’organizzazione dei processi, la gestione dei flussi di materiali e informazioni e il monitoraggio dei principali indicatori di business. Tali aspetti legati al business forniscono una serie di preziose informazioni a coloro che hanno un ruolo decisionale nell’organizzazione. Dunque, la scienza delle previsioni fornisce un metodo per prendere decisioni consapevoli e basate su reali evidenze. L’obiettivo di questa tesi è analizzare i più diffusi modelli matematici per la previsione di serie storiche ed individuare i più appropriati al perseguimento di questo scopo. I modelli vengono valutati rispetto alla loro accuratezza. Inoltre, essi non vengono valutati solo in termini assoluti, ma anche relativamente ai parametri che li regolano. L’obiettivo è anche quello di legare l’accuratezza dei vari modelli in relazione alle caratteristiche della serie storica, quali la granularità, la stagionalità, il trend, la variabilità e l’autocorrelazione. Infine, viene analizzato l’impatto della scelta della metrica sui risultati. Questi ultimi mostrano chiaramente l’impatto della scelta del modello sull’accuratezza delle previsioni: una buona scelta dell’algoritmo genera previsioni sufficientemente affidabili. Generalmente, una classe di modelli sembra performare meglio delle altre. Inoltre, la scelta degli iperparametri impatta significativamente sulla perfromance del modello: dunque, è importante dedicare risorse al processo di tuning degli iperparametri. Allo stesso tempo, è molto difficile stabilire una connessione tra le caratteristiche del dataset e il modello più accurato. Di conseguenza, non potendo selezionare a priori il modello ottimale, la scelta migliore sembra essere l’automatizzazione dell’intero processo di sperimentazione sui modelli, con l’obiettivo di testare tutte le possibili configurazioni migliorando le performances. Per concludere, è evidente l’impatto che la scelta della metrica ha sui risultati degli esperimenti. Infatti, è possibile ottenere risultati diversi - e dunque prendere decisioni diverse - sulla base della scelta dell’indicatore o di una combinazione di indicatori.

Business time series forecasting through data science

MARANESI, VALERIA
2021/2022

Abstract

The advent of Data Age has come. The amount of data produced and managed every day is continuously, exponentially growing in almost every sector. Each organisation or company must deal with more and more data. Data is currently one of the most valuable resources that each company could own, since it can potentially generate many precious business insights. Technologies are continuously evolving and, with them, the usage of data is constantly improving. Nowadays, we don’t simply analyse data but we try to predict them, making machines learn from the past data. We try, in some ways, to “forecast the future”, investigating over the possible connections between past and future data. Here the Data Science finds place: it is able to manipulate large amounts of historical data to obtain these insights. The Forecasting Science is a clear example of technology at the service of the business: it supports companies of different markets in executing several core activities, such as organising the processes, managing the flows of both materials and information and monitoring the business KPIs. All these aspects of the business give to the decision makers precious information about the development of the business; thus, the Forecasting Science represents a way to make conscious, science-based and bias-free decisions. The objectives of this thesis are to investigate over the most largely used mathematical methods that enable the time series forecasting and to identify the most appropriate ones in terms of predictions’ accuracy. The aim is to evaluate them not only in absolute terms, but also in relation to the hyperparameters they assume. Moreover, the aim is to spot any eventual connection between the performances of each model and the main characteristics of the time series such as granularity, seasonality, trend, noise and autocorrelation. The results clearly show that the choice of the model significantly impacts the accuracy of the forecasting: a good choice of the model is able to generate quite affordable predictions. The main evidences suggest the existence of a model that usually outperforms all the other algorithms. Moreover, the choice of the hyperparameters that fit each model strongly affects the performances: great attention should be put on the tuning process. At the same time, it is not possible to find any high correlation between the characteristics of the time series and the optimal model identified. Thus, a big effort should be put on the automatization of the whole process of model testing to try each (time series - model - hyperparmeters) combination and identify the optimal model tuned for each dataset. Finally, results clearly evidence the possibility to obtain different conclusions - and therefore to make different decisions - depending on the choice of the accuracy metric.
ING - Scuola di Ingegneria Industriale e dell'Informazione
22-lug-2022
2021/2022
Viviamo oggi nell’era dei dati. La quantità di dati generata ogni giorno cresce esponenzialmente. Ogni impresa, a prescindere dal settore di appartenenza, si trova quotidianemente a gestire un ammontare sempre crescente di dati. I dati sono attualmente tra le risorse più preziose che ogni azienda possa possedere, poiché forniscono informazioni di grande valore per il business. Le tecnologie digitali sono in continua evoluzione e, con loro, anche l’utilizzo dei dati. Oggi il mercato non si limita all’analisi degli stessi, ma è in grado di predire i dati futuri. In un certo senso, l’obiettivo oggi è "predire il futuro", analizzando le possibili connessioni presenti nei dati storici. Qui entra in gioco la Data Science, che permette di ottenere informazione sul futuro analizzando grandi quantità di dati relativi a serie storiche. La scienza delle previsioni è un chiaro esempio di tecnologia al servizio del business: supporta aziende di diversi settori nell’esecuzione di fondamentali attività quali l’organizzazione dei processi, la gestione dei flussi di materiali e informazioni e il monitoraggio dei principali indicatori di business. Tali aspetti legati al business forniscono una serie di preziose informazioni a coloro che hanno un ruolo decisionale nell’organizzazione. Dunque, la scienza delle previsioni fornisce un metodo per prendere decisioni consapevoli e basate su reali evidenze. L’obiettivo di questa tesi è analizzare i più diffusi modelli matematici per la previsione di serie storiche ed individuare i più appropriati al perseguimento di questo scopo. I modelli vengono valutati rispetto alla loro accuratezza. Inoltre, essi non vengono valutati solo in termini assoluti, ma anche relativamente ai parametri che li regolano. L’obiettivo è anche quello di legare l’accuratezza dei vari modelli in relazione alle caratteristiche della serie storica, quali la granularità, la stagionalità, il trend, la variabilità e l’autocorrelazione. Infine, viene analizzato l’impatto della scelta della metrica sui risultati. Questi ultimi mostrano chiaramente l’impatto della scelta del modello sull’accuratezza delle previsioni: una buona scelta dell’algoritmo genera previsioni sufficientemente affidabili. Generalmente, una classe di modelli sembra performare meglio delle altre. Inoltre, la scelta degli iperparametri impatta significativamente sulla perfromance del modello: dunque, è importante dedicare risorse al processo di tuning degli iperparametri. Allo stesso tempo, è molto difficile stabilire una connessione tra le caratteristiche del dataset e il modello più accurato. Di conseguenza, non potendo selezionare a priori il modello ottimale, la scelta migliore sembra essere l’automatizzazione dell’intero processo di sperimentazione sui modelli, con l’obiettivo di testare tutte le possibili configurazioni migliorando le performances. Per concludere, è evidente l’impatto che la scelta della metrica ha sui risultati degli esperimenti. Infatti, è possibile ottenere risultati diversi - e dunque prendere decisioni diverse - sulla base della scelta dell’indicatore o di una combinazione di indicatori.
File allegati
File Dimensione Formato  
Executive_Summary___Business Time Series Forecasting through Data Science__Maranesi.pdf

Open Access dal 04/07/2023

Descrizione: Business Time Series Forecasting through Data Science - Executive Summary
Dimensione 723.2 kB
Formato Adobe PDF
723.2 kB Adobe PDF Visualizza/Apri
Thesis___Business Time Series Forecasting through Data Science.pdf

Open Access dal 05/07/2023

Descrizione: Business Time Series Forecasting through Data Science - Thesis
Dimensione 13.53 MB
Formato Adobe PDF
13.53 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/189636