In this work an innovative statistical method is proposed. The model is called Ordinal Mixed-Effect Random Forest (OMERF) and extends the use of random forest to the analysis of hierarchical data to model ordinal categorical responses. It preserves the flexibility and ability of modeling complex patterns of both categorical and continuous variables, typical of tree-based ensemble methods. At the same time, OMERF takes into account the nested structure of hierarchical data, modeling the dependence structure that exists at the highest level of the hierarchy and allowing statistical inference on this structure. In this study, a simulation is conducted to validate the performance of the proposed method and to compare OMERF against existing classical models. The application of OMERF is exemplified in a case study focusing on modeling students at risk of failure from a prestigious high school in Milan, and generally on predicting their academic progress. The model is able to identify discriminating student characteristics and estimate the effect of each class to which students belong.

In questa tesi, proponiamo un innovativo metodo statistico. Il modello è chiamato Ordinal Mixed-Effect Random Forest (OMERF) e estende l'uso delle random forest all'analisi di dati gerarchici per modellare risposte categoriche ordinali. Questo metodo preserva la flessibilità e la capacità di modellare strutture complesse sia per variabili categoriche che continue, tipiche dei metodi ensemble ad albero. Allo stesso tempo, il modello OMERF tiene conto della struttura nidificata dei dati gerarchici, modellando la dipendenza che esiste al livello più alto della gerarchia e consentendo l'inferenza statistica su questa struttura. In questo studio, è stata condotta una simulazione per validare le prestazioni del metodo proposto e confrontarlo con i più noti modelli già esistenti. L'utilizzo dell'algoritmo OMERF è esemplificato dall'applicazione ad un caso reale incentrato sulla modellazione degli studenti a rischio di insuccesso di una prestigiosa scuola superiore di Milano e sulla previsione dei loro progressi accademici. Il modello è in grado di identificare le caratteristiche discriminanti degli studenti e stimare l'effetto di ciascuna classe a cui gli studenti appartengono.

Ordinal Mixed-Effects Random Forest: an innovative statistical method to perform learning analytics

BERGONZOLI, GIULIA
2022/2023

Abstract

In this work an innovative statistical method is proposed. The model is called Ordinal Mixed-Effect Random Forest (OMERF) and extends the use of random forest to the analysis of hierarchical data to model ordinal categorical responses. It preserves the flexibility and ability of modeling complex patterns of both categorical and continuous variables, typical of tree-based ensemble methods. At the same time, OMERF takes into account the nested structure of hierarchical data, modeling the dependence structure that exists at the highest level of the hierarchy and allowing statistical inference on this structure. In this study, a simulation is conducted to validate the performance of the proposed method and to compare OMERF against existing classical models. The application of OMERF is exemplified in a case study focusing on modeling students at risk of failure from a prestigious high school in Milan, and generally on predicting their academic progress. The model is able to identify discriminating student characteristics and estimate the effect of each class to which students belong.
ROSSI, LIDIA
ING - Scuola di Ingegneria Industriale e dell'Informazione
19-dic-2023
2022/2023
In questa tesi, proponiamo un innovativo metodo statistico. Il modello è chiamato Ordinal Mixed-Effect Random Forest (OMERF) e estende l'uso delle random forest all'analisi di dati gerarchici per modellare risposte categoriche ordinali. Questo metodo preserva la flessibilità e la capacità di modellare strutture complesse sia per variabili categoriche che continue, tipiche dei metodi ensemble ad albero. Allo stesso tempo, il modello OMERF tiene conto della struttura nidificata dei dati gerarchici, modellando la dipendenza che esiste al livello più alto della gerarchia e consentendo l'inferenza statistica su questa struttura. In questo studio, è stata condotta una simulazione per validare le prestazioni del metodo proposto e confrontarlo con i più noti modelli già esistenti. L'utilizzo dell'algoritmo OMERF è esemplificato dall'applicazione ad un caso reale incentrato sulla modellazione degli studenti a rischio di insuccesso di una prestigiosa scuola superiore di Milano e sulla previsione dei loro progressi accademici. Il modello è in grado di identificare le caratteristiche discriminanti degli studenti e stimare l'effetto di ciascuna classe a cui gli studenti appartengono.
File allegati
File Dimensione Formato  
2023_12_Bergonzoli_Executive_Summary_02.pdf

accessibile in internet per tutti

Descrizione: Executive Summary
Dimensione 409.96 kB
Formato Adobe PDF
409.96 kB Adobe PDF Visualizza/Apri
2023_12_Bergonzoli_Tesi_01.pdf

accessibile in internet per tutti

Descrizione: Tesi
Dimensione 1.19 MB
Formato Adobe PDF
1.19 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/214601