A methodology for prediction modeling with R

Biblioteche e Archivi
POLITesi - Archivio digitale delle tesi di laurea e di dottorato

The continuous increase in the amount of data collected and generated nowadays is promoting the spreading of a new discipline in the ICT industry: data science. Despite the increasing interest of the literature for data science problems and the significant improvements achieved in the last few years, design issues are still considered in isolation and a comprehensive methodological approach is still missing. The aim of this thesis is to design and implement in R a general methodology able to automatically perform all the data preparation and machine learning operations involved in the creation of a binary classifier from a relational dataset. We considered in our methodology the tasks of feature selection, clustering, parameters tuning and model evaluation. In order to understand the effectiveness and the efficiency of the proposed methodology, we tested it on a real use case related to out-of-stock detection in the retail industry. The obtained results confirmed that the proposed methodology is able to achieve satisfying prediction performances, without excessive computational requirements.

Il continuo incremento nel volume di dati raccolti e generati al giorno d'oggi sta favorendo la diffusione di una nuova disciplina nell'industria ICT: la data science. Nonostante il crescente interesse da parte della letteratura per le tematiche affrontate dalla data science e i significativi miglioramenti raggiunti negli ultimi anni, ciascuna problematica progettuale è ancora considerata singolarmente e si riscontra una mancanza di un approccio metodologico più generale. Lo scopo di questa tesi è la progettazione e l'implementazione in R di una metodologia in grado di eseguire automaticamente tutte le operazioni di preparazione dei dati e di machine learning relative alla creazione di un classificatore binario, partendo da un dataset relazionale. Abbiamo considerato nella nostra metodologia le operazioni di selezione delle variabili, clusterizzazione, ricerca di valori ottimali per i parametri e valutazione dei modelli generati. Per misurare l'efficacia e l'efficienza della metodologia proposta, la abbiamo testata su un caso d'uso reale, relativo all'individuazione dei buchi a scaffale nell'industria della grande distribuzione. I risultati ottenuti hanno confermato che la metodologia proposta è in grado di raggiungere risultati soddisfacenti in termini di predizione, senza la richiesta di eccessive risorse computazionali.

A methodology for prediction modeling with R

GIULIANI, LUIGI

2015/2016

Abstract

The continuous increase in the amount of data collected and generated nowadays is promoting the spreading of a new discipline in the ICT industry: data science. Despite the increasing interest of the literature for data science problems and the significant improvements achieved in the last few years, design issues are still considered in isolation and a comprehensive methodological approach is still missing. The aim of this thesis is to design and implement in R a general methodology able to automatically perform all the data preparation and machine learning operations involved in the creation of a binary classifier from a relational dataset. We considered in our methodology the tasks of feature selection, clustering, parameters tuning and model evaluation. In order to understand the effectiveness and the efficiency of the proposed methodology, we tested it on a real use case related to out-of-stock detection in the retail industry. The obtained results confirmed that the proposed methodology is able to achieve satisfying prediction performances, without excessive computational requirements.

Scheda breve

Scheda completa

	Relatore
	
				FRANCALANCI, CHIARA
			
	Correlatore/i
	
				RAVANELLI, PAOLO
			
	Scuola / Dip.
	
				ING  - Scuola di Ingegneria Industriale e dell'Informazione
			
	Data
	
				21-dic-2016
			
	Anno accademico
	
				2015/2016
			
	Abstract in italiano
	
				Il continuo incremento nel volume di dati raccolti e generati al giorno d'oggi sta favorendo la diffusione di una nuova disciplina nell'industria  ICT: la data science. Nonostante il crescente interesse da parte della letteratura per le tematiche affrontate dalla data science e i significativi miglioramenti raggiunti negli ultimi anni, ciascuna problematica progettuale è ancora considerata singolarmente e si riscontra una mancanza di un approccio metodologico più generale. Lo scopo di questa tesi è la progettazione e l'implementazione in R di una metodologia  in grado di eseguire automaticamente tutte le operazioni di preparazione dei dati e di machine learning relative alla creazione di un classificatore binario, partendo da un dataset relazionale. Abbiamo considerato nella nostra metodologia le operazioni di selezione delle variabili, clusterizzazione, ricerca di valori ottimali per i parametri e valutazione dei modelli generati. Per misurare l'efficacia e l'efficienza della metodologia proposta, la abbiamo testata su un caso d'uso reale, relativo all'individuazione dei buchi a scaffale nell'industria della grande distribuzione. I risultati ottenuti hanno confermato che la metodologia proposta è in grado di raggiungere risultati soddisfacenti in termini di predizione, senza la richiesta di eccessive risorse computazionali.
			
	Tipo di documento
	
				Tesi di laurea Magistrale
			
	Appare nelle tipologie:
	
				Tesi di laurea Magistrale

File allegati

File	Dimensione	Formato
Tesi finale Giuliani Luigi.pdf non accessibile Descrizione: testo della tesi Dimensione 2.27 MB Formato Adobe PDF Visualizza/Apri	2.27 MB	Adobe PDF	Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/131908