The main focus of this thesis is the study of the quite diffuse academic dropout phenomenon, considering the heterogeneity of the academic faculties, by means of survival analysis methods with time-varying frailty. The purpose is to determine which faculties have a major or minor impact on the risk of dropout and to identify in which time-instants it occurs more frequently, with the intention of preventing it. The entire analysis is applied to a huge dataset, built by Politecnico di Milano, containing personal and academic information about students enrolled at any of its engineering bachelor degree program. We start from a preprocessing phase in which we illustrate some preliminary results related to the academic faculties, obtained by the application of a non-parametric univariate tool based on the Kaplan-Meier survival curves. To study the dropout phenomenon in a multivariate setting, the time-independent Cox regression model permits to understand how all the covariates interact and which are the most significant ones. On the other hand, given the hierarchical nature of the data, a shared frailty Cox regression model can assign to each engineering faculty a random value (frailty) that acts multiplicatively on the instantaneous risk of facing the event. Each estimated frailty term represents the characteristics of the degree program is associated to, and the frailty variance quantifies the portion of heterogeneity that cannot be solely expressed by the data. Unfortunately, the request of consistency of the frailty can be rarely satisfied in real application and, thus, we are pushed into the direction of extending this model to the time-varying case, where the frailty is allowed to vary in the time-domain. Three time-varying shared frailty Cox regression models are presented, implemented through the software R and applied to the dataset in order to explain how the characteristics of each faculty change in time. In the end, an estimation procedure for the posterior frailty term is proposed, but its validity is only limited to one model.

L’obiettivo che questa tesi si pone è quello di studiare il diffuso fenomeno dell’abbandono universitario (dropout), considerando l’eterogeneità delle facoltà accademiche, usando innovativi modelli di sopravvivenza con frailty tempo-dipendente. Lo scopo è determinare quali facoltà hanno una minore o maggiore predisposizione al dropout e individuare in quali istanti di tempo questo si verifica, al fine di prevenirlo tempestivamente. Questa analisi è condotta basandosi sui dati che il Politecnico di Milano ha raccolto nel corso di diversi anni sugli studenti iscritti ai corsi triennali di Ingegneria, considerando sia informazioni accademiche che personali. Dopo una prima fase di pulizia dei dati e di introduzione alle variabili di interesse, tramite l’analisi univariata e non-parametrica delle curve di Kaplan-Meier, vengono presentati dei risultati preliminari circa la relazione tra la probabilità di sopravvivenza all’evento e le facoltà accademiche. Per studiare il dropout in un contesto multivariato, il modello tempo-indipendente di regressione di Cox permette di comprendere come le variabili interagiscano tra di loro e quali risultino essere maggiormente significative. A causa della natura gerarchica dei dati, un modello tempo-indipendente di regressione di Cox con frailty condivisa attribuisce a ciascuna facoltà universitaria un effetto casuale costante (frailty), che agisce moltiplicativamente sul tasso di rischio di abbandono, incrementandolo o decrementandolo. La varianza di questa frailty rappresenta quella porzione di eterogeneità dei dati che non può essere spiegata con le sole covariate a nostra disposizione. Tuttavia, imporre che la frailty rimanga costante nel tempo si rivela essere una condizione troppo restrittiva e questo porta ad estendere il modello al caso tempo-dipendente. Vengono descritti e implementati in R tre modelli di regressione di Cox, ognuno con frailty condivisa e variabile nel tempo, per spiegare in quali intervalli di tempo gli effetti delle facoltà impattano maggiormente sul rischio di abbandono. Infine, viene proposta una procedura di stima a posteriori della frailty, valida su uno solo dei tre modelli introdotti.

Time-Varying Shared Frailty Cox Models for the Analysis of University Students Dropout

Romani, Giulia
2022/2023

Abstract

The main focus of this thesis is the study of the quite diffuse academic dropout phenomenon, considering the heterogeneity of the academic faculties, by means of survival analysis methods with time-varying frailty. The purpose is to determine which faculties have a major or minor impact on the risk of dropout and to identify in which time-instants it occurs more frequently, with the intention of preventing it. The entire analysis is applied to a huge dataset, built by Politecnico di Milano, containing personal and academic information about students enrolled at any of its engineering bachelor degree program. We start from a preprocessing phase in which we illustrate some preliminary results related to the academic faculties, obtained by the application of a non-parametric univariate tool based on the Kaplan-Meier survival curves. To study the dropout phenomenon in a multivariate setting, the time-independent Cox regression model permits to understand how all the covariates interact and which are the most significant ones. On the other hand, given the hierarchical nature of the data, a shared frailty Cox regression model can assign to each engineering faculty a random value (frailty) that acts multiplicatively on the instantaneous risk of facing the event. Each estimated frailty term represents the characteristics of the degree program is associated to, and the frailty variance quantifies the portion of heterogeneity that cannot be solely expressed by the data. Unfortunately, the request of consistency of the frailty can be rarely satisfied in real application and, thus, we are pushed into the direction of extending this model to the time-varying case, where the frailty is allowed to vary in the time-domain. Three time-varying shared frailty Cox regression models are presented, implemented through the software R and applied to the dataset in order to explain how the characteristics of each faculty change in time. In the end, an estimation procedure for the posterior frailty term is proposed, but its validity is only limited to one model.
RAGNI, ALESSANDRA
ING - Scuola di Ingegneria Industriale e dell'Informazione
5-ott-2023
2022/2023
L’obiettivo che questa tesi si pone è quello di studiare il diffuso fenomeno dell’abbandono universitario (dropout), considerando l’eterogeneità delle facoltà accademiche, usando innovativi modelli di sopravvivenza con frailty tempo-dipendente. Lo scopo è determinare quali facoltà hanno una minore o maggiore predisposizione al dropout e individuare in quali istanti di tempo questo si verifica, al fine di prevenirlo tempestivamente. Questa analisi è condotta basandosi sui dati che il Politecnico di Milano ha raccolto nel corso di diversi anni sugli studenti iscritti ai corsi triennali di Ingegneria, considerando sia informazioni accademiche che personali. Dopo una prima fase di pulizia dei dati e di introduzione alle variabili di interesse, tramite l’analisi univariata e non-parametrica delle curve di Kaplan-Meier, vengono presentati dei risultati preliminari circa la relazione tra la probabilità di sopravvivenza all’evento e le facoltà accademiche. Per studiare il dropout in un contesto multivariato, il modello tempo-indipendente di regressione di Cox permette di comprendere come le variabili interagiscano tra di loro e quali risultino essere maggiormente significative. A causa della natura gerarchica dei dati, un modello tempo-indipendente di regressione di Cox con frailty condivisa attribuisce a ciascuna facoltà universitaria un effetto casuale costante (frailty), che agisce moltiplicativamente sul tasso di rischio di abbandono, incrementandolo o decrementandolo. La varianza di questa frailty rappresenta quella porzione di eterogeneità dei dati che non può essere spiegata con le sole covariate a nostra disposizione. Tuttavia, imporre che la frailty rimanga costante nel tempo si rivela essere una condizione troppo restrittiva e questo porta ad estendere il modello al caso tempo-dipendente. Vengono descritti e implementati in R tre modelli di regressione di Cox, ognuno con frailty condivisa e variabile nel tempo, per spiegare in quali intervalli di tempo gli effetti delle facoltà impattano maggiormente sul rischio di abbandono. Infine, viene proposta una procedura di stima a posteriori della frailty, valida su uno solo dei tre modelli introdotti.
File allegati
File Dimensione Formato  
2023_10_Romani_01.pdf

accessibile in internet solo dagli utenti autorizzati

Descrizione: Thesis
Dimensione 6.94 MB
Formato Adobe PDF
6.94 MB Adobe PDF   Visualizza/Apri
2023_10_Romani_02.pdf

accessibile in internet solo dagli utenti autorizzati

Descrizione: Executive Summary of the Thesis
Dimensione 1.03 MB
Formato Adobe PDF
1.03 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/210546