L’obiettivo di questo lavoro è studiare i metodi di imputazione per trattare i dati mancanti. Il dataset analizzato contiene informazioni su più di 500,000 bambini al primo anno di scuola media, nell’anno scolastico 2012/2013, fornite dall’Istituto Nazionale per la Valutazione del Sistema Educativo di Istruzione e di Formazione (INVALSI). L’interesse è studiare i numerosi dati mancanti presenti che riducono notevolmente le informazioni a disposizione. Utilizzando le diverse tecniche di imputazione si sostituiscono i valori mancati con dei valori verosimili in modo da costruire dataset completi. Sfruttando i modelli lineari a effetti misti è possibile studiare le relazioni tra il voto del test e le caratteristiche dello studente e della scuola. Dopo aver adattato i modelli ai dataset imputati con i diversi metodi, si confrontano le stime dei parametri per verificare se esse risultano statisticamente identiche o diverse al variare del metodo di imputazione. I risultati di tutti i metodi mostrano che ci sono grandi differenze tra le tre aree geografiche Nord, Centro e Sud Italia caratterizzate da effetti scuola e caratteristiche rilevanti degli studenti molto differenti. Tramite cross-validazione si sono confrontati gli errori di previsione dei modelli realizzati sui dataset imputati per valutare il miglior metodo di imputazione per questo dataset.
Metodi di imputazione per dati mancanti : applicazione al dataset INVALSI
RIVOLTA, MATTEO
2014/2015
Abstract
L’obiettivo di questo lavoro è studiare i metodi di imputazione per trattare i dati mancanti. Il dataset analizzato contiene informazioni su più di 500,000 bambini al primo anno di scuola media, nell’anno scolastico 2012/2013, fornite dall’Istituto Nazionale per la Valutazione del Sistema Educativo di Istruzione e di Formazione (INVALSI). L’interesse è studiare i numerosi dati mancanti presenti che riducono notevolmente le informazioni a disposizione. Utilizzando le diverse tecniche di imputazione si sostituiscono i valori mancati con dei valori verosimili in modo da costruire dataset completi. Sfruttando i modelli lineari a effetti misti è possibile studiare le relazioni tra il voto del test e le caratteristiche dello studente e della scuola. Dopo aver adattato i modelli ai dataset imputati con i diversi metodi, si confrontano le stime dei parametri per verificare se esse risultano statisticamente identiche o diverse al variare del metodo di imputazione. I risultati di tutti i metodi mostrano che ci sono grandi differenze tra le tre aree geografiche Nord, Centro e Sud Italia caratterizzate da effetti scuola e caratteristiche rilevanti degli studenti molto differenti. Tramite cross-validazione si sono confrontati gli errori di previsione dei modelli realizzati sui dataset imputati per valutare il miglior metodo di imputazione per questo dataset.File | Dimensione | Formato | |
---|---|---|---|
2016_04_Rivolta.pdf
Open Access dal 05/04/2017
Descrizione: Testo della tesi
Dimensione
1.06 MB
Formato
Adobe PDF
|
1.06 MB | Adobe PDF | Visualizza/Apri |
I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/10589/120486