The present work is performed to propose an innovative model called Semi-Parametric Generalized Linear Mixed effect Model (SPGLMM), able to uncover subpopulations induced by the intrinsic data structure. A suitable EM algorithm for the parameters estimation is also provided. This model introduces cluster-specific effects which provide a way to incorporate a set of similar groups in a single subpopulation. The semi-parametric assumption provides random effects of the Generalized Linear Mixed effects Model (GLMM) to be distributed according to a discrete distribution with an (a priori) unknown number of support points. This modelling induces an automatic clustering of the groups at the highest level of hierarchy, where groups within the same subpopulation share the same random effect. To have a benchmark in our analyses, both parametric (GLMM) and semi-parametric (SPGLMM) are applied. The simulations results show that the proposed SPGLMM is coherent with the results obtained in GLMM analyses and allows to cluster the groups provided by the hierarchical data structure. Finally an application to a real case study is provided. The case-study analysis is performed within the Student Profile for Enhancing Tutoring Engineering (SPEET) project, an ERASMUS+¸ project which involves Politecnico di Milano and five other European universities, aiming to open a new perspective to university tutoring systems. The analysis focuses on discovering subpopulations of degree programmes which differently affect students dropout. Specifically, we focus on Bachelor of Science (BSc) Engineering degrees from Politecnico di Milano: the dataset of interest contains detailed information about more than 41,000 students who enrolled in BSc from 2010 to 2016. Collected data include degree details, students’ performance on each of the study plan subject, as well as other collateral informations about the student. As in the simulation study, both parametric and semi-parametric approaches are applied to the dataset of interest and the effectiveness of the semi-parametric method in detecting dropout cases is evaluated through a ROC curve analysis. The models that we run identify different subpopulations depending on the students’ characteristics of each degree programme.

Questo lavoro è stato performato per proporre un nuovo modello chiamato Modello Semi-parametrico Lineare Generalizzato a effetti misti (SPGLMM), in grado di trovare sottopopolazioni indotte dalla struttura intriseca dei dati. Viene anche fornito un algoritmo EM adatto per la stima dei parametri. Questo modello introduce effetti specifici clusterizzati che forniscono un modo per raggruppare un insieme di gruppi simili in una singola sottopopolazione. L’assunzione semi-parametrica fornisce effetti casuali del Modello Lineare Generalizzato a effetti misti (GLMM) ad essere distribuiti come una distribuzione discreta con un numero (a priori) ignoto di punti di supporto. Per avere un metro di paragone nelle nostre analisi, sia il metodo parametrico (GLMM) che quello semi-parametrico (SPGLMM) vengono applicati. I risultati di simulazione mostrano che il metodo proposto è coerente coi risultati ottenuti nelle analisi del GLMM e permette di raggruppare dei gruppi forniti dalla struttura gerarchica dei dati. Infine un applicazione ad un caso di studio reale è stata attuata. L’ analisi del case-study è stata performata all’interno del progetto Student Profile for Enhancing Tutoring Engineering (SPEET), un progetto ERASMUS+¸ che coinvolge il Politecnico di Milano e altri cinque atenei europei, con lo scopo di aprire una nuova prospettiva ai sistemi di tutorato universitario. L’ obiettivo principale è quello di scoprire raggruppamenti di corsi di studio in grado di spiegare il motivo per cui gli studenti decidono di lasciare gli studi. In particolare l’ analisi si concentra sui Corsi di Laurea triennale di Ingegneria del Politecnico di Milano: il dataset considerato include informazioni dettagliate su oltre 41.000 studenti che si sono iscritti alla Laurea di primo livello tra il 2010 e il 2016. I dati raccolti includono informazioni riguardo corsi di studio, caratteristiche degli studenti e valutazioni ottenute. Come nello studio di simulazione, vengono applicati al dataset d’interesse sia l’approccio parametrico che semi-parametrico e la efficacia del metodo semi-parametrico nel trovare casi di ritiro dagli studi è stata valutata attraverso un’ analisi dell a curva ROC. I modelli che abbiamo attuato identificano diverse sottopopolazioni a seconda delle caratteristiche degli studenti di ciascun corso di studio.

Semi-parametric generalized linear mixed effects model : an application to engineering BSc dropout analysis

Maggioni, Andrea
2019/2020

Abstract

The present work is performed to propose an innovative model called Semi-Parametric Generalized Linear Mixed effect Model (SPGLMM), able to uncover subpopulations induced by the intrinsic data structure. A suitable EM algorithm for the parameters estimation is also provided. This model introduces cluster-specific effects which provide a way to incorporate a set of similar groups in a single subpopulation. The semi-parametric assumption provides random effects of the Generalized Linear Mixed effects Model (GLMM) to be distributed according to a discrete distribution with an (a priori) unknown number of support points. This modelling induces an automatic clustering of the groups at the highest level of hierarchy, where groups within the same subpopulation share the same random effect. To have a benchmark in our analyses, both parametric (GLMM) and semi-parametric (SPGLMM) are applied. The simulations results show that the proposed SPGLMM is coherent with the results obtained in GLMM analyses and allows to cluster the groups provided by the hierarchical data structure. Finally an application to a real case study is provided. The case-study analysis is performed within the Student Profile for Enhancing Tutoring Engineering (SPEET) project, an ERASMUS+¸ project which involves Politecnico di Milano and five other European universities, aiming to open a new perspective to university tutoring systems. The analysis focuses on discovering subpopulations of degree programmes which differently affect students dropout. Specifically, we focus on Bachelor of Science (BSc) Engineering degrees from Politecnico di Milano: the dataset of interest contains detailed information about more than 41,000 students who enrolled in BSc from 2010 to 2016. Collected data include degree details, students’ performance on each of the study plan subject, as well as other collateral informations about the student. As in the simulation study, both parametric and semi-parametric approaches are applied to the dataset of interest and the effectiveness of the semi-parametric method in detecting dropout cases is evaluated through a ROC curve analysis. The models that we run identify different subpopulations depending on the students’ characteristics of each degree programme.
MASCI, CHIARA
ING - Scuola di Ingegneria Industriale e dell'Informazione
24-lug-2020
2019/2020
Questo lavoro è stato performato per proporre un nuovo modello chiamato Modello Semi-parametrico Lineare Generalizzato a effetti misti (SPGLMM), in grado di trovare sottopopolazioni indotte dalla struttura intriseca dei dati. Viene anche fornito un algoritmo EM adatto per la stima dei parametri. Questo modello introduce effetti specifici clusterizzati che forniscono un modo per raggruppare un insieme di gruppi simili in una singola sottopopolazione. L’assunzione semi-parametrica fornisce effetti casuali del Modello Lineare Generalizzato a effetti misti (GLMM) ad essere distribuiti come una distribuzione discreta con un numero (a priori) ignoto di punti di supporto. Per avere un metro di paragone nelle nostre analisi, sia il metodo parametrico (GLMM) che quello semi-parametrico (SPGLMM) vengono applicati. I risultati di simulazione mostrano che il metodo proposto è coerente coi risultati ottenuti nelle analisi del GLMM e permette di raggruppare dei gruppi forniti dalla struttura gerarchica dei dati. Infine un applicazione ad un caso di studio reale è stata attuata. L’ analisi del case-study è stata performata all’interno del progetto Student Profile for Enhancing Tutoring Engineering (SPEET), un progetto ERASMUS+¸ che coinvolge il Politecnico di Milano e altri cinque atenei europei, con lo scopo di aprire una nuova prospettiva ai sistemi di tutorato universitario. L’ obiettivo principale è quello di scoprire raggruppamenti di corsi di studio in grado di spiegare il motivo per cui gli studenti decidono di lasciare gli studi. In particolare l’ analisi si concentra sui Corsi di Laurea triennale di Ingegneria del Politecnico di Milano: il dataset considerato include informazioni dettagliate su oltre 41.000 studenti che si sono iscritti alla Laurea di primo livello tra il 2010 e il 2016. I dati raccolti includono informazioni riguardo corsi di studio, caratteristiche degli studenti e valutazioni ottenute. Come nello studio di simulazione, vengono applicati al dataset d’interesse sia l’approccio parametrico che semi-parametrico e la efficacia del metodo semi-parametrico nel trovare casi di ritiro dagli studi è stata valutata attraverso un’ analisi dell a curva ROC. I modelli che abbiamo attuato identificano diverse sottopopolazioni a seconda delle caratteristiche degli studenti di ciascun corso di studio.
File allegati
File Dimensione Formato  
2020_07_Maggioni.pdf

accessibile in internet per tutti

Dimensione 1.59 MB
Formato Adobe PDF
1.59 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/164512