The continuous increase in the amount of data collected and generated nowadays is promoting the spreading of a new discipline in the ICT industry: data science. Despite the increasing interest of the literature for data science problems and the significant improvements achieved in the last few years, design issues are still considered in isolation and a comprehensive methodological approach is still missing. The aim of this thesis is to design and implement in R a general methodology able to automatically perform all the data preparation and machine learning operations involved in the creation of a binary classifier from a relational dataset. We considered in our methodology the tasks of feature selection, clustering, parameters tuning and model evaluation. In order to understand the effectiveness and the efficiency of the proposed methodology, we tested it on a real use case related to out-of-stock detection in the retail industry. The obtained results confirmed that the proposed methodology is able to achieve satisfying prediction performances, without excessive computational requirements.
Il continuo incremento nel volume di dati raccolti e generati al giorno d'oggi sta favorendo la diffusione di una nuova disciplina nell'industria ICT: la data science. Nonostante il crescente interesse da parte della letteratura per le tematiche affrontate dalla data science e i significativi miglioramenti raggiunti negli ultimi anni, ciascuna problematica progettuale è ancora considerata singolarmente e si riscontra una mancanza di un approccio metodologico più generale. Lo scopo di questa tesi è la progettazione e l'implementazione in R di una metodologia in grado di eseguire automaticamente tutte le operazioni di preparazione dei dati e di machine learning relative alla creazione di un classificatore binario, partendo da un dataset relazionale. Abbiamo considerato nella nostra metodologia le operazioni di selezione delle variabili, clusterizzazione, ricerca di valori ottimali per i parametri e valutazione dei modelli generati. Per misurare l'efficacia e l'efficienza della metodologia proposta, la abbiamo testata su un caso d'uso reale, relativo all'individuazione dei buchi a scaffale nell'industria della grande distribuzione. I risultati ottenuti hanno confermato che la metodologia proposta è in grado di raggiungere risultati soddisfacenti in termini di predizione, senza la richiesta di eccessive risorse computazionali.
A methodology for prediction modeling with R
GIULIANI, LUIGI
2015/2016
Abstract
The continuous increase in the amount of data collected and generated nowadays is promoting the spreading of a new discipline in the ICT industry: data science. Despite the increasing interest of the literature for data science problems and the significant improvements achieved in the last few years, design issues are still considered in isolation and a comprehensive methodological approach is still missing. The aim of this thesis is to design and implement in R a general methodology able to automatically perform all the data preparation and machine learning operations involved in the creation of a binary classifier from a relational dataset. We considered in our methodology the tasks of feature selection, clustering, parameters tuning and model evaluation. In order to understand the effectiveness and the efficiency of the proposed methodology, we tested it on a real use case related to out-of-stock detection in the retail industry. The obtained results confirmed that the proposed methodology is able to achieve satisfying prediction performances, without excessive computational requirements.File | Dimensione | Formato | |
---|---|---|---|
Tesi finale Giuliani Luigi.pdf
non accessibile
Descrizione: testo della tesi
Dimensione
2.27 MB
Formato
Adobe PDF
|
2.27 MB | Adobe PDF | Visualizza/Apri |
I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/10589/131908