The present Master Thesis is focused on the time to event analysis related to the students enrolled in a Bachelor of Science Engineering programme at Politecnico di Milano from Academic Year 2009/10 to 2015/16. It is based on the administrative dataset collected on 22nd May, 2018 from ICT Service Area (ASICT). An Explorative Data Analysis of the all sample - which includes 33334 students - is considered, and the predictors used to fit the models are examinated. The statisical models are fitted by considering only the data related to the students enrolled from 2009 to 2013 and, a K-fold cross-validation for evaluating the methods’ predictive power has been used on the same sample. Instead, the 2014 and 2015 cohorts are used for model predic- tion. This work examines the effect of individual and institutional characteristics on the carriers of the students. Every student starts his/her carrier from an initial state (“active”, which means his/her career is not yet concluded) and he/she can reach one of the two absorbing states of the system (“degree” or “withdrawal”). Therefore the operating context is the survival analysis in presence of competing risks. Based on this model-oriented representation, degree and withdrawal are the two causes of drop-out and, the occurrence of one of them precludes the happening of the other one. The permanence time is the time from the first enrollment to the occurrence of the first event between the degree and the withdrawal. For active students the permanence time in the university is right-censored. In this work a competing risks model is adopted in order to analyse the permanence time. The final purpose is the estimate of the predictors’ effect on the probability of "degree" and "withdrawal" using methods that allow to have different predictors for graduation and withdrawal. The first fitted model is the one developed by Fine and Gray (FG) in 1999. The main idea of this method is to model independently the subdistribution hazard functions associated to each event of interest. In this way two semi-parametric proportional hazard models (Cox models) are obtained, which enable the independent analysis of the two causes of drop-out. The estimate of the model parameters is performed by using the technique of Inverse Probability Censoring Weighting, specific for right censored data. Nonetheless, the FG method can be applied only when the time is measured on a continuous time scale. In order to explain the data it is possible to use also discrete time competing risks models. To establish which approach is more suitable in a University educational context, the discrete model by Berger et al. (2018) has been fitted, and it has been compared to the continuous one. Roughly speaking, Berger et al. (2018) extended the time-continuous FG model to a discrete situation. By comparing estimate and predic- tion results of both the two methods, it seems that there is no reason to prefer the continuous method rather than the discrete one or viceversa. Indeed, the two models yield to very similar results. According to the provided results, the predictors which have a significative impact on the risk of degree are: the gender, the Science Engineering programme, the student’s performance in the first, second and third year form the enrollment, the Mathemati- cal Analysis grade, the score in the Mathematics, Logic and Statistics section of the Admission Test On Line, the secondary school final mark and a suspension period. Instead, the characteristics of a student that influence the risk of withdrawal, i.e. of leaving his/her Bachelor Science Engineering programme, before graduating, tu to be: the gender, a suspension period, nationality, secondary school final mark, first, second and third year performances and the information whether the student has passed Ma- thematical Analysis exam. In addition, a good academic performance measured in terms of high grades in the university exam, and good mathematical knowledge, asso- ciated with a high score in Mathematical Analysis or simply having passed the exam, increase the probability of obtaining the final qualification and reduce the probability of withdrawal. Finally, in this master thesis, a first attempt has been made to apply a competitive risk method to the monitoring of academic teaching quality. In particular, some points of the subdistribution hazard functions of degree and withdrawal have been interpreted in terms of actual indicators of the academic teaching quality that are currently used in Italy.

Questa tesi si focalizza sull’analisi dei tempi di permanenza degli immatricolati puri in un corso di laurea di primo livello in Ingegneria al Politecnico di Milano in uno degli anni accademici compresi tra il 2009/10 e il 2015/16, a partire dai dati forniti dall’Area Servizi ICT (ASICT) in data 22/05/2018. Nell’analisi descrittiva dei dati viene considerato l’intero campione di riferimento che conta 33334 studenti, e vengono esaminati i predittori utilizzati nello sviluppo dei modelli. I modelli statistici vengono stimati considerando solamente i dati relativi agli studenti immatricolati tra il 2009 e il 2013, e sullo stesso campione viene utilizzata una K-fold cross-validation per valutare il potere predittivo dei metodi. Le coorti del 2014 e 2015 sono invece usate nella fase di predizione. In questo lavoro esaminiamo l’effetto delle caratteristiche individuali e istituzionali, sintetizzate nel dataset di riferimento, sulle modalità di uscita degli iscritti ad un corso di Laurea Triennale in Ingegneria al Politecnico di Milano. Ogni studente comincia nello stato iniziale (“attivo”, ovvero ancora iscritto) e può raggiungere uno dei due stati assorbenti del sistema (“laurea” o “abbandono”). Dunque il contesto nel quale operiamo è quello dell’analisi di sopravvivenza in presenza di rischi competitivi. Sulla base di questa rappresentazione, la laurea e l’abbandono sono le due cause mutuamente esclusive della fine della carriera accademica. Invece, il tempo di permanenza, oggetto d’indagine, è il tempo che trascorre tra la prima immatricolazione all’università e il momento di accadimento di uno dei due eventi di interesse. La permanenza in ateneo degli studenti attivi è un tempo censurato a destra. In questa tesi per spiegare i tempi di permanenza adottiamo modelli di sopravvivenza a rischi competitivi. L’obiettivo finale è stimare l’effetto di predittori sulle probabilità e i tempi di laurea e abbandono, usando delle metodologie che permettano di avere predittori diversi per laurea ed ab- bandono. Nello specifico, il primo modello implementato è il modello di Fine e Gray (FG) proposto nel 1999. L’idea principale del metodo è modellizzare indipendentemente le funzioni di hazard secondarie associate all’evento laurea e abbandono. Si ottengono così due modelli Cox semi-parametrici a rischi proporzionali, che permettono di analizzare separatamente le due situazioni d’interesse. La stima dei parametri dei modelli viene effettuata mediante la tecnica Inverse Probability Censoring Weighting, ap- posita per dati censurati a destra. Tuttavia, il metodo proposto è applicabile solamente nei casi in cui il tempo viene misurato su scala temporale continua. Per spiegare i dati a nostra disposizione è possibile adottare anche modelli a rischi competitivi a tempo discreto. Per stabilire quale trattazione fosse più adatta nella suddetta indagine ab- biamo dunque deciso di implementare un secondo modello per tempo discreto (Berger et al. (2018)) e metterlo a confronto con il primo analizzato. In particolare, il secondo metodo implementato costituisce un’estensione al caso discreto del modello continuo di Fine e Gray. L’approccio di Berger et al. (2018) differisce dal modello FG per due aspetti: viene considerata una trattazione discreta del tempo e vengono modellate le funzioni secondarie hazard mediante regressioni parametriche. Confrontando i risultati di stima e predizione ottenuti usando le due metodologie è emerso che non vi è motivo per preferire la trattazione continua a quella discreta e viceversa. I modelli giungono infatti agli stessi risultati. I risultati prodotti dallo sviluppo dei modelli hanno fornito due diversi tipi di informa- zione: quali predittori sono significativi e in che modo questi influenzano le incidenze cumulative associate a laurea e abbandono. I predittori che risultano aver impatto maggiore sul rischio di laurea sono: sesso, il corso di studio frequentato dallo studente, il rendimento al primo, secondo e terzo anno di iscrizione, il voto nell’esame di Analisi Matematica, il voto nella Sezione di Matematica, Logica e Statistica del Test On Line di ammissione, il voto di diploma e la sospensione. Invece le covariate che influenzano il rischio di abbandono, alcune uguali, altre diverse da quelle per l’evento laurea, sono: il sesso, la sospensione, la nazionalità dello studente, il voto di diploma, i rendimenti al primo, secondo e terzo anno e la variabile che indica se l’allievo ha superato l’esame di Analisi Matematica. Infine, in questa tesi di master, è stato fatto un primo tentativo di applicare un ximetodo con rischi competitivi al monitoraggio della qualită della didattica in Ate- neo, cercando di interpretare le funzioni secondarie del rischio di laurea e abbandono in termini di alcuni degli indicatori della qualită della didattica effettivamente usati, per esempio nei Rapporti Annuali di Riesame Cicliclo.

Modelli con rischi competitivi per l'analisi delle carriere per gli allievi Ingegneri del Politecnico di Milano

RIVA, ARIANNA
2017/2018

Abstract

The present Master Thesis is focused on the time to event analysis related to the students enrolled in a Bachelor of Science Engineering programme at Politecnico di Milano from Academic Year 2009/10 to 2015/16. It is based on the administrative dataset collected on 22nd May, 2018 from ICT Service Area (ASICT). An Explorative Data Analysis of the all sample - which includes 33334 students - is considered, and the predictors used to fit the models are examinated. The statisical models are fitted by considering only the data related to the students enrolled from 2009 to 2013 and, a K-fold cross-validation for evaluating the methods’ predictive power has been used on the same sample. Instead, the 2014 and 2015 cohorts are used for model predic- tion. This work examines the effect of individual and institutional characteristics on the carriers of the students. Every student starts his/her carrier from an initial state (“active”, which means his/her career is not yet concluded) and he/she can reach one of the two absorbing states of the system (“degree” or “withdrawal”). Therefore the operating context is the survival analysis in presence of competing risks. Based on this model-oriented representation, degree and withdrawal are the two causes of drop-out and, the occurrence of one of them precludes the happening of the other one. The permanence time is the time from the first enrollment to the occurrence of the first event between the degree and the withdrawal. For active students the permanence time in the university is right-censored. In this work a competing risks model is adopted in order to analyse the permanence time. The final purpose is the estimate of the predictors’ effect on the probability of "degree" and "withdrawal" using methods that allow to have different predictors for graduation and withdrawal. The first fitted model is the one developed by Fine and Gray (FG) in 1999. The main idea of this method is to model independently the subdistribution hazard functions associated to each event of interest. In this way two semi-parametric proportional hazard models (Cox models) are obtained, which enable the independent analysis of the two causes of drop-out. The estimate of the model parameters is performed by using the technique of Inverse Probability Censoring Weighting, specific for right censored data. Nonetheless, the FG method can be applied only when the time is measured on a continuous time scale. In order to explain the data it is possible to use also discrete time competing risks models. To establish which approach is more suitable in a University educational context, the discrete model by Berger et al. (2018) has been fitted, and it has been compared to the continuous one. Roughly speaking, Berger et al. (2018) extended the time-continuous FG model to a discrete situation. By comparing estimate and predic- tion results of both the two methods, it seems that there is no reason to prefer the continuous method rather than the discrete one or viceversa. Indeed, the two models yield to very similar results. According to the provided results, the predictors which have a significative impact on the risk of degree are: the gender, the Science Engineering programme, the student’s performance in the first, second and third year form the enrollment, the Mathemati- cal Analysis grade, the score in the Mathematics, Logic and Statistics section of the Admission Test On Line, the secondary school final mark and a suspension period. Instead, the characteristics of a student that influence the risk of withdrawal, i.e. of leaving his/her Bachelor Science Engineering programme, before graduating, tu to be: the gender, a suspension period, nationality, secondary school final mark, first, second and third year performances and the information whether the student has passed Ma- thematical Analysis exam. In addition, a good academic performance measured in terms of high grades in the university exam, and good mathematical knowledge, asso- ciated with a high score in Mathematical Analysis or simply having passed the exam, increase the probability of obtaining the final qualification and reduce the probability of withdrawal. Finally, in this master thesis, a first attempt has been made to apply a competitive risk method to the monitoring of academic teaching quality. In particular, some points of the subdistribution hazard functions of degree and withdrawal have been interpreted in terms of actual indicators of the academic teaching quality that are currently used in Italy.
VERRI, MAURIZIO
ING - Scuola di Ingegneria Industriale e dell'Informazione
20-dic-2018
2017/2018
Questa tesi si focalizza sull’analisi dei tempi di permanenza degli immatricolati puri in un corso di laurea di primo livello in Ingegneria al Politecnico di Milano in uno degli anni accademici compresi tra il 2009/10 e il 2015/16, a partire dai dati forniti dall’Area Servizi ICT (ASICT) in data 22/05/2018. Nell’analisi descrittiva dei dati viene considerato l’intero campione di riferimento che conta 33334 studenti, e vengono esaminati i predittori utilizzati nello sviluppo dei modelli. I modelli statistici vengono stimati considerando solamente i dati relativi agli studenti immatricolati tra il 2009 e il 2013, e sullo stesso campione viene utilizzata una K-fold cross-validation per valutare il potere predittivo dei metodi. Le coorti del 2014 e 2015 sono invece usate nella fase di predizione. In questo lavoro esaminiamo l’effetto delle caratteristiche individuali e istituzionali, sintetizzate nel dataset di riferimento, sulle modalità di uscita degli iscritti ad un corso di Laurea Triennale in Ingegneria al Politecnico di Milano. Ogni studente comincia nello stato iniziale (“attivo”, ovvero ancora iscritto) e può raggiungere uno dei due stati assorbenti del sistema (“laurea” o “abbandono”). Dunque il contesto nel quale operiamo è quello dell’analisi di sopravvivenza in presenza di rischi competitivi. Sulla base di questa rappresentazione, la laurea e l’abbandono sono le due cause mutuamente esclusive della fine della carriera accademica. Invece, il tempo di permanenza, oggetto d’indagine, è il tempo che trascorre tra la prima immatricolazione all’università e il momento di accadimento di uno dei due eventi di interesse. La permanenza in ateneo degli studenti attivi è un tempo censurato a destra. In questa tesi per spiegare i tempi di permanenza adottiamo modelli di sopravvivenza a rischi competitivi. L’obiettivo finale è stimare l’effetto di predittori sulle probabilità e i tempi di laurea e abbandono, usando delle metodologie che permettano di avere predittori diversi per laurea ed ab- bandono. Nello specifico, il primo modello implementato è il modello di Fine e Gray (FG) proposto nel 1999. L’idea principale del metodo è modellizzare indipendentemente le funzioni di hazard secondarie associate all’evento laurea e abbandono. Si ottengono così due modelli Cox semi-parametrici a rischi proporzionali, che permettono di analizzare separatamente le due situazioni d’interesse. La stima dei parametri dei modelli viene effettuata mediante la tecnica Inverse Probability Censoring Weighting, ap- posita per dati censurati a destra. Tuttavia, il metodo proposto è applicabile solamente nei casi in cui il tempo viene misurato su scala temporale continua. Per spiegare i dati a nostra disposizione è possibile adottare anche modelli a rischi competitivi a tempo discreto. Per stabilire quale trattazione fosse più adatta nella suddetta indagine ab- biamo dunque deciso di implementare un secondo modello per tempo discreto (Berger et al. (2018)) e metterlo a confronto con il primo analizzato. In particolare, il secondo metodo implementato costituisce un’estensione al caso discreto del modello continuo di Fine e Gray. L’approccio di Berger et al. (2018) differisce dal modello FG per due aspetti: viene considerata una trattazione discreta del tempo e vengono modellate le funzioni secondarie hazard mediante regressioni parametriche. Confrontando i risultati di stima e predizione ottenuti usando le due metodologie è emerso che non vi è motivo per preferire la trattazione continua a quella discreta e viceversa. I modelli giungono infatti agli stessi risultati. I risultati prodotti dallo sviluppo dei modelli hanno fornito due diversi tipi di informa- zione: quali predittori sono significativi e in che modo questi influenzano le incidenze cumulative associate a laurea e abbandono. I predittori che risultano aver impatto maggiore sul rischio di laurea sono: sesso, il corso di studio frequentato dallo studente, il rendimento al primo, secondo e terzo anno di iscrizione, il voto nell’esame di Analisi Matematica, il voto nella Sezione di Matematica, Logica e Statistica del Test On Line di ammissione, il voto di diploma e la sospensione. Invece le covariate che influenzano il rischio di abbandono, alcune uguali, altre diverse da quelle per l’evento laurea, sono: il sesso, la sospensione, la nazionalità dello studente, il voto di diploma, i rendimenti al primo, secondo e terzo anno e la variabile che indica se l’allievo ha superato l’esame di Analisi Matematica. Infine, in questa tesi di master, è stato fatto un primo tentativo di applicare un ximetodo con rischi competitivi al monitoraggio della qualită della didattica in Ate- neo, cercando di interpretare le funzioni secondarie del rischio di laurea e abbandono in termini di alcuni degli indicatori della qualită della didattica effettivamente usati, per esempio nei Rapporti Annuali di Riesame Cicliclo.
Tesi di laurea Magistrale
File allegati
File Dimensione Formato  
2018_12_Riva.pdf

solo utenti autorizzati dal 05/12/2021

Descrizione: Testo della tesi
Dimensione 2.25 MB
Formato Adobe PDF
2.25 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/144385