L’obiettivo di questo lavoro è studiare i metodi di imputazione per trattare i dati mancanti. Il dataset analizzato contiene informazioni su più di 500,000 bambini al primo anno di scuola media, nell’anno scolastico 2012/2013, fornite dall’Istituto Nazionale per la Valutazione del Sistema Educativo di Istruzione e di Formazione (INVALSI). L’interesse è studiare i numerosi dati mancanti presenti che riducono notevolmente le informazioni a disposizione. Utilizzando le diverse tecniche di imputazione si sostituiscono i valori mancati con dei valori verosimili in modo da costruire dataset completi. Sfruttando i modelli lineari a effetti misti è possibile studiare le relazioni tra il voto del test e le caratteristiche dello studente e della scuola. Dopo aver adattato i modelli ai dataset imputati con i diversi metodi, si confrontano le stime dei parametri per verificare se esse risultano statisticamente identiche o diverse al variare del metodo di imputazione. I risultati di tutti i metodi mostrano che ci sono grandi differenze tra le tre aree geografiche Nord, Centro e Sud Italia caratterizzate da effetti scuola e caratteristiche rilevanti degli studenti molto differenti. Tramite cross-validazione si sono confrontati gli errori di previsione dei modelli realizzati sui dataset imputati per valutare il miglior metodo di imputazione per questo dataset.

Metodi di imputazione per dati mancanti : applicazione al dataset INVALSI

RIVOLTA, MATTEO
2014/2015

Abstract

L’obiettivo di questo lavoro è studiare i metodi di imputazione per trattare i dati mancanti. Il dataset analizzato contiene informazioni su più di 500,000 bambini al primo anno di scuola media, nell’anno scolastico 2012/2013, fornite dall’Istituto Nazionale per la Valutazione del Sistema Educativo di Istruzione e di Formazione (INVALSI). L’interesse è studiare i numerosi dati mancanti presenti che riducono notevolmente le informazioni a disposizione. Utilizzando le diverse tecniche di imputazione si sostituiscono i valori mancati con dei valori verosimili in modo da costruire dataset completi. Sfruttando i modelli lineari a effetti misti è possibile studiare le relazioni tra il voto del test e le caratteristiche dello studente e della scuola. Dopo aver adattato i modelli ai dataset imputati con i diversi metodi, si confrontano le stime dei parametri per verificare se esse risultano statisticamente identiche o diverse al variare del metodo di imputazione. I risultati di tutti i metodi mostrano che ci sono grandi differenze tra le tre aree geografiche Nord, Centro e Sud Italia caratterizzate da effetti scuola e caratteristiche rilevanti degli studenti molto differenti. Tramite cross-validazione si sono confrontati gli errori di previsione dei modelli realizzati sui dataset imputati per valutare il miglior metodo di imputazione per questo dataset.
MASCI, CHIARA
ING - Scuola di Ingegneria Industriale e dell'Informazione
27-apr-2016
2014/2015
Tesi di laurea Magistrale
File allegati
File Dimensione Formato  
2016_04_Rivolta.pdf

Open Access dal 05/04/2017

Descrizione: Testo della tesi
Dimensione 1.06 MB
Formato Adobe PDF
1.06 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/120486