The present work concerns the statistical analysis of academic data related to all engineering students (Bachelor of Science Degrees) from Politecnico di Milano within the Student Profile for Enhancing Tutoring Engineering (SPEET) ERASMUS+ project. SPEET project aims to process the data in order to extract useful and profitable information about and to identify some student profiles to provide them with a personal tutoring service. Almost a student out of two renounces to his engineering degree before the end of the studies. The challenge of this work consists in analyzing the distinction between students completing their study programme graduating and those who, instead, decide to abandon studies, then developing and applying a procedure which enables a quick prediction of the student' academic future based only on a set of attributes such as collateral information regarding the students' origin, degree information and student' performance information. The statistical analysis starts with some preprocessing step, where the dataset is prepared for the subsequent analysis. Before proceeding with the classification algorithms, an in-depth descriptive analysis has been conducted with the aim of describing and understanding the features of the dataset, by giving short summaries and measures about the sample variables. Then, simple logistic regression modeling procedures are carried out for each one of the Engineering Schools considerino them as independent samples. Finally, in order to obtain a single model that takes into account the "grouped" nature of the data, a generalized linear mixed-effects model (GLME) is implemented with the purpose of describing the relationship between the success probability (getting the degree) and the covariates using exactly the data as "grouped" according to one classification factor (the Engineering School). Generalized linear mixed-effects models are a class of models that incorporates random effects into the linear predictor of a generalized linear model (GLM). This allows the modeling of grouped data within the context of GLMs and greatly extends their breadth of applicability. The results of this procedure within the SPEET project represent a valid support tool for tutoring activities.

Il presente lavoro tratta l'analisi statistica dei dati accademici relativi a tutti gli studenti di ingegneria (Lauree triennali) del Politecnico di Milano nell'ambito del progetto ERASMUS + Student Profile for Enhancing Tutoring Engineering (SPEET). Il progetto SPEET punta ad elaborare dati accademici provenienti da diverse sedi universitarie europee per estrarne informazioni utili e vantaggiose ed infine identificare profili caratteristici degli studenti; un'idea finalizzata ad aprire una nuova prospettiva ai sistemi di tutoraggio universitario. L'obiettivo del progetto deriva dalla potenziale sinergia tra l'enorme quantità di dati accademici effettivamente esistenti e la maturità della scienza atta a fornire algoritmi e strumenti per analizzare e estrarre informazioni dai dati. Quasi uno studente su due rinuncia al conseguimento della laurea in ingegneria prima della fine del percorso di studi. Proprio per questo, il proposito di questo lavoro consiste nell'analizzare la distinzione tra gli studenti che completano gli anni di studio laureandosi e coloro che invece decidono di rinunciarvi, quindi, in seguito, sviluppare e applicare una procedura che consenta una rapida previsione del futuro accademico dello studente basandosi su un insieme limitato di informazioni come ad esempio dati personali riguardanti l'origine dello studente, dati relativi alla laurea e dati associati alle performances dello studente stesso. L'analisi statistica inizia con alcuni steps di pre-elaborazione, in cui il set di dati è stato disposto per l'analisi successiva. Prima di procedere con gli algoritmi di classificazione, è stata eseguita una dettagliata analisi descrittiva allo scopo di descrivere e comprendere le caratteristiche del set di dati, fornendo brevi summaries e misure indicative sulle variabili del campione. Vengono, quindi, eseguite semplici procedure di previsione attraverso modelli di regressione logistica per ciascuna delle scuole ingegneristiche considerando ciascuna di essa come un set di dati indipendente dagli altri. Infine, per poter ottenere un unico modello che tenesse conto della natura "raggruppata" dei dati a disposizione, è stato elaborato un modello generalizzato ad effetti misti (GLME) con lo scopo di descrivere il rapporto tra la probabilità di successo (ottenere la laurea) e alcune covariate significative utilizzando, appunto, i dati come "raggruppati" in base ad un unico fattore di raggruppamento (il corso di studi). I modelli generalizzati a effetti misti sono una classe di modelli che incorpora degli effetti casuali in quello che è un classico modello lineare generalizzato (GLM). Ciò consente di modellare dati raggruppati nel contesto dei GLM e di estendere notevolmente la loro ampiezza di applicabilità. I risultati ottenuti grazie a questa procedura rappresentano, in quello che è il progetto SPEET, un valido strumento di supporto per attività di tutoraggio.

A statistical analysis for academic data exploitation concerning bachelor of science degrees in engineering

BAZZARELLI, MANUELA
2016/2017

Abstract

The present work concerns the statistical analysis of academic data related to all engineering students (Bachelor of Science Degrees) from Politecnico di Milano within the Student Profile for Enhancing Tutoring Engineering (SPEET) ERASMUS+ project. SPEET project aims to process the data in order to extract useful and profitable information about and to identify some student profiles to provide them with a personal tutoring service. Almost a student out of two renounces to his engineering degree before the end of the studies. The challenge of this work consists in analyzing the distinction between students completing their study programme graduating and those who, instead, decide to abandon studies, then developing and applying a procedure which enables a quick prediction of the student' academic future based only on a set of attributes such as collateral information regarding the students' origin, degree information and student' performance information. The statistical analysis starts with some preprocessing step, where the dataset is prepared for the subsequent analysis. Before proceeding with the classification algorithms, an in-depth descriptive analysis has been conducted with the aim of describing and understanding the features of the dataset, by giving short summaries and measures about the sample variables. Then, simple logistic regression modeling procedures are carried out for each one of the Engineering Schools considerino them as independent samples. Finally, in order to obtain a single model that takes into account the "grouped" nature of the data, a generalized linear mixed-effects model (GLME) is implemented with the purpose of describing the relationship between the success probability (getting the degree) and the covariates using exactly the data as "grouped" according to one classification factor (the Engineering School). Generalized linear mixed-effects models are a class of models that incorporates random effects into the linear predictor of a generalized linear model (GLM). This allows the modeling of grouped data within the context of GLMs and greatly extends their breadth of applicability. The results of this procedure within the SPEET project represent a valid support tool for tutoring activities.
ING - Scuola di Ingegneria Industriale e dell'Informazione
21-dic-2017
2016/2017
Il presente lavoro tratta l'analisi statistica dei dati accademici relativi a tutti gli studenti di ingegneria (Lauree triennali) del Politecnico di Milano nell'ambito del progetto ERASMUS + Student Profile for Enhancing Tutoring Engineering (SPEET). Il progetto SPEET punta ad elaborare dati accademici provenienti da diverse sedi universitarie europee per estrarne informazioni utili e vantaggiose ed infine identificare profili caratteristici degli studenti; un'idea finalizzata ad aprire una nuova prospettiva ai sistemi di tutoraggio universitario. L'obiettivo del progetto deriva dalla potenziale sinergia tra l'enorme quantità di dati accademici effettivamente esistenti e la maturità della scienza atta a fornire algoritmi e strumenti per analizzare e estrarre informazioni dai dati. Quasi uno studente su due rinuncia al conseguimento della laurea in ingegneria prima della fine del percorso di studi. Proprio per questo, il proposito di questo lavoro consiste nell'analizzare la distinzione tra gli studenti che completano gli anni di studio laureandosi e coloro che invece decidono di rinunciarvi, quindi, in seguito, sviluppare e applicare una procedura che consenta una rapida previsione del futuro accademico dello studente basandosi su un insieme limitato di informazioni come ad esempio dati personali riguardanti l'origine dello studente, dati relativi alla laurea e dati associati alle performances dello studente stesso. L'analisi statistica inizia con alcuni steps di pre-elaborazione, in cui il set di dati è stato disposto per l'analisi successiva. Prima di procedere con gli algoritmi di classificazione, è stata eseguita una dettagliata analisi descrittiva allo scopo di descrivere e comprendere le caratteristiche del set di dati, fornendo brevi summaries e misure indicative sulle variabili del campione. Vengono, quindi, eseguite semplici procedure di previsione attraverso modelli di regressione logistica per ciascuna delle scuole ingegneristiche considerando ciascuna di essa come un set di dati indipendente dagli altri. Infine, per poter ottenere un unico modello che tenesse conto della natura "raggruppata" dei dati a disposizione, è stato elaborato un modello generalizzato ad effetti misti (GLME) con lo scopo di descrivere il rapporto tra la probabilità di successo (ottenere la laurea) e alcune covariate significative utilizzando, appunto, i dati come "raggruppati" in base ad un unico fattore di raggruppamento (il corso di studi). I modelli generalizzati a effetti misti sono una classe di modelli che incorpora degli effetti casuali in quello che è un classico modello lineare generalizzato (GLM). Ciò consente di modellare dati raggruppati nel contesto dei GLM e di estendere notevolmente la loro ampiezza di applicabilità. I risultati ottenuti grazie a questa procedura rappresentano, in quello che è il progetto SPEET, un valido strumento di supporto per attività di tutoraggio.
Tesi di laurea Magistrale
File allegati
File Dimensione Formato  
tesi_Manuela_Bazzarelli.pdf

accessibile in internet solo dagli utenti autorizzati

Descrizione: Testo della tesi
Dimensione 4.8 MB
Formato Adobe PDF
4.8 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/137196