The present work is performed within the Student Profile for Enhancing Tutoring Engineering (SPEET) project, an ERASMUS+ project which involves Politecnico di Milano and five other European universities, aiming to open a new perspective to university tutoring systems. In particular, our work focuses on predicting the dropout of a student, which means that a student stops his/her studies before accomplishing the degree. In order to perform this analysis, we develop a new statistical method, called Generalized Mixed Effects Forest (GMEF), which embeds a Random Forest (RF) regression algorithm in a Generalized Mixed Model in order to exploit the advantages of the interaction of the two methods. Our model can deal with any type (continuous or discrete) of both response variable and covariates and it does not assume any parametric function on the fixed-effects part of the model, because it uses a Random Forest to model the fixed-effects part. At the same time, GMEF is able to model hierarchical data, which is very important in the case of a nested structure of the observation, which might affect not only the final response itself, but also the effect that other covariates have on it. Moreover, by means of this modelling structure, we are able to make inference about the distribution of random effects and about their intra-correlation, allowing also predictions for unseen groups.

Questo lavoro è svolto nell'ambito del progetto SPEET (Student Profile for Enhancing Tutoring Engineering), un progetto ERASMUS+ che coinvolge il Politecnico di Milano e altre cinque università europee, con l'obbiettivo di aprire una nuova prospettiva sui sistemi universitari di tutoring. In particolare, questo lavoro si focalizza sul prevedere l'abbandono degli studenti, nel senso di capire in anticipo se uno studente abbandonerà gli studi universitari prima di essersi laureato. Per svolgere questa analisi sviluppiamo un nuovo metodo, chiamato Generalized Mixed Effects Forest (GMEF, Foresta ad Effetti Misti Generalizzata), che incorpora un algoritmo Random Forest (RF) di regressione in un modello lineare generalizzato a effetti misti, in modo da sfruttare i vantaggi derivanti dall'interazione dei due metodi. Questo modello può quindi operare con ogni classe di variabile (continua o discreta), sia per quanto riguarda la risposta che per quanto riguarda le covariate, e non assume nessuna dipendenza parametrica della risposta sulla parte a effetti fissi del modello, poiché usa una Random Forest per stimare questa dipendenza; allo stesso tempo, questa procedura è in grado di modellizzare dati gerarchici, la qual cosa è molto importante in caso di struttura annidata delle osservazioni; tale struttura può influenzare non solo la risposta finale, ma anche l'effetto che altre covariate hanno su tale risposta. Inoltre, grazie alla struttura di questo modello, si può anche fare inferenza sulla distribuzione degli effetti casuali e sulla loro correlazione, legittimando dunque previsioni su gruppi non osservati.

Generalized mixed effects random forest for classification : an application to predict university students' dropout

PELLAGATTI, MASSIMO
2018/2019

Abstract

The present work is performed within the Student Profile for Enhancing Tutoring Engineering (SPEET) project, an ERASMUS+ project which involves Politecnico di Milano and five other European universities, aiming to open a new perspective to university tutoring systems. In particular, our work focuses on predicting the dropout of a student, which means that a student stops his/her studies before accomplishing the degree. In order to perform this analysis, we develop a new statistical method, called Generalized Mixed Effects Forest (GMEF), which embeds a Random Forest (RF) regression algorithm in a Generalized Mixed Model in order to exploit the advantages of the interaction of the two methods. Our model can deal with any type (continuous or discrete) of both response variable and covariates and it does not assume any parametric function on the fixed-effects part of the model, because it uses a Random Forest to model the fixed-effects part. At the same time, GMEF is able to model hierarchical data, which is very important in the case of a nested structure of the observation, which might affect not only the final response itself, but also the effect that other covariates have on it. Moreover, by means of this modelling structure, we are able to make inference about the distribution of random effects and about their intra-correlation, allowing also predictions for unseen groups.
MASCI, CHIARA
ING - Scuola di Ingegneria Industriale e dell'Informazione
18-dic-2019
2018/2019
Questo lavoro è svolto nell'ambito del progetto SPEET (Student Profile for Enhancing Tutoring Engineering), un progetto ERASMUS+ che coinvolge il Politecnico di Milano e altre cinque università europee, con l'obbiettivo di aprire una nuova prospettiva sui sistemi universitari di tutoring. In particolare, questo lavoro si focalizza sul prevedere l'abbandono degli studenti, nel senso di capire in anticipo se uno studente abbandonerà gli studi universitari prima di essersi laureato. Per svolgere questa analisi sviluppiamo un nuovo metodo, chiamato Generalized Mixed Effects Forest (GMEF, Foresta ad Effetti Misti Generalizzata), che incorpora un algoritmo Random Forest (RF) di regressione in un modello lineare generalizzato a effetti misti, in modo da sfruttare i vantaggi derivanti dall'interazione dei due metodi. Questo modello può quindi operare con ogni classe di variabile (continua o discreta), sia per quanto riguarda la risposta che per quanto riguarda le covariate, e non assume nessuna dipendenza parametrica della risposta sulla parte a effetti fissi del modello, poiché usa una Random Forest per stimare questa dipendenza; allo stesso tempo, questa procedura è in grado di modellizzare dati gerarchici, la qual cosa è molto importante in caso di struttura annidata delle osservazioni; tale struttura può influenzare non solo la risposta finale, ma anche l'effetto che altre covariate hanno su tale risposta. Inoltre, grazie alla struttura di questo modello, si può anche fare inferenza sulla distribuzione degli effetti casuali e sulla loro correlazione, legittimando dunque previsioni su gruppi non osservati.
Tesi di laurea Magistrale
File allegati
File Dimensione Formato  
tesi.pdf

accessibile in internet solo dagli utenti autorizzati

Descrizione: Testo della tesi
Dimensione 1.11 MB
Formato Adobe PDF
1.11 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/152427