Metodi di imputazione per dati mancanti : applicazione al dataset INVALSI

L’obiettivo di questo lavoro è studiare i metodi di imputazione per trattare i dati mancanti. Il dataset analizzato contiene informazioni su più di 500,000 bambini al primo anno di scuola media, nell’anno scolastico 2012/2013, fornite dall’Istituto Nazionale per la Valutazione del Sistema Educativo di Istruzione e di Formazione (INVALSI). L’interesse è studiare i numerosi dati mancanti presenti che riducono notevolmente le informazioni a disposizione. Utilizzando le diverse tecniche di imputazione si sostituiscono i valori mancati con dei valori verosimili in modo da costruire dataset completi. Sfruttando i modelli lineari a effetti misti è possibile studiare le relazioni tra il voto del test e le caratteristiche dello studente e della scuola. Dopo aver adattato i modelli ai dataset imputati con i diversi metodi, si confrontano le stime dei parametri per verificare se esse risultano statisticamente identiche o diverse al variare del metodo di imputazione. I risultati di tutti i metodi mostrano che ci sono grandi differenze tra le tre aree geografiche Nord, Centro e Sud Italia caratterizzate da effetti scuola e caratteristiche rilevanti degli studenti molto differenti. Tramite cross-validazione si sono confrontati gli errori di previsione dei modelli realizzati sui dataset imputati per valutare il miglior metodo di imputazione per questo dataset.

Metodi di imputazione per dati mancanti : applicazione al dataset INVALSI

RIVOLTA, MATTEO

2014/2015

Abstract

L’obiettivo di questo lavoro è studiare i metodi di imputazione per trattare i dati mancanti. Il dataset analizzato contiene informazioni su più di 500,000 bambini al primo anno di scuola media, nell’anno scolastico 2012/2013, fornite dall’Istituto Nazionale per la Valutazione del Sistema Educativo di Istruzione e di Formazione (INVALSI). L’interesse è studiare i numerosi dati mancanti presenti che riducono notevolmente le informazioni a disposizione. Utilizzando le diverse tecniche di imputazione si sostituiscono i valori mancati con dei valori verosimili in modo da costruire dataset completi. Sfruttando i modelli lineari a effetti misti è possibile studiare le relazioni tra il voto del test e le caratteristiche dello studente e della scuola. Dopo aver adattato i modelli ai dataset imputati con i diversi metodi, si confrontano le stime dei parametri per verificare se esse risultano statisticamente identiche o diverse al variare del metodo di imputazione. I risultati di tutti i metodi mostrano che ci sono grandi differenze tra le tre aree geografiche Nord, Centro e Sud Italia caratterizzate da effetti scuola e caratteristiche rilevanti degli studenti molto differenti. Tramite cross-validazione si sono confrontati gli errori di previsione dei modelli realizzati sui dataset imputati per valutare il miglior metodo di imputazione per questo dataset.

Scheda breve

Scheda completa

	Relatore
	
				PAGANONI, ANNA MARIA
			
	Correlatore/i
	
				MASCI, CHIARA
			
	Scuola / Dip.
	
				ING  - Scuola di Ingegneria Industriale e dell'Informazione
			
	Data
	
				27-apr-2016
			
	Anno accademico
	
				2014/2015
			
	Tipo di documento
	
				Tesi di laurea Magistrale
			
	Appare nelle tipologie:
	
				Tesi di laurea Magistrale

File allegati

File	Dimensione	Formato
2016_04_Rivolta.pdf Open Access dal 05/04/2017 Descrizione: Testo della tesi Dimensione 1.06 MB Formato Adobe PDF Visualizza/Apri	1.06 MB	Adobe PDF	Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/120486