Open-ended questions are a fundamental component of education, as they can evaluate higher-order cognitive skills such as critical thinking, problem-solving, and analytical reasoning. However, grading these responses is a labor-intensive task. Large Language Models (LLMs) present a promising solution for automating this process, yet their effectiveness across various grading contexts remains an area of active research. This thesis investigates the use of LLMs for Automatic Short Answer Grading (ASAG) through two distinct evaluation methods: shot-based and rubric-based grading. The shot-based approach leverages few-shot learning to assess responses that require complex reasoning and deeper analysis. In contrast, the rubric-based approach evaluates more structured responses by following predefined teacher's grading criteria. It uses a prompt-chaining technique, first identifying the concepts required in the rubric through partial scores and then computing the final score according to the formula provided by the teacher. This study examines the performance of GPT-4o and GPT-4o Mini in both grading strategies to determine their alignment with human assessments. The results indicate that both models align well with human grading for middle-range-scoring responses but encounter challenges with extreme scores. High-scoring responses, often rich in reasoning and elaboration, are sometimes misclassified due to their complexity, while low-scoring answers tend to be overestimated, reflecting a slight optimistic bias. For certain complex questions, the models demonstrate strong reasoning capabilities, producing highly accurate assessments. Nonetheless, some questions still require more research, as the models occasionally struggle to fully capture the depth of analysis expected in human grading when assessing their related students' responses. Furthermore, findings suggest that GPT-4o Mini outperforms GPT-4o in rubric-based evaluation due to its greater flexibility, while GPT-4o, despite being more mathematically consistent in computing the final scores from the defined partial scores, aligns less effectively with teacher assessments in identifying the concepts required by the rubric. Overall, the results demonstrate the potential of LLMs in automated grading while highlighting the need for further refinements. These findings contribute to the development of AI-driven assessment systems that better align with human grading practices in different educational contexts.

Le domande aperte sono una componente fondamentale nell'istruzione, in quanto permettono di valutare abilità cognitive avanzate come il pensiero critico, la risoluzione dei problemi e il ragionamento analitico. Tuttavia, la valutazione di queste risposte è un compito che richiede un notevole impegno e tempo. I Large Language Models (LLM) rappresentano una soluzione promettente per automatizzare questo processo, ma la loro efficacia in diversi contesti di valutazione rimane un'area di ricerca attiva. Questa tesi esplora l'uso degli LLM per la valutazione automatica delle risposte brevi (ASAG) attraverso due metodi di valutazione distinti: shot-based e rubric-based. L'approccio shot-based sfrutta il few-shot learning per valutare risposte che richiedono un ragionamento complesso e un'analisi più approfondita. Al contrario, l'approccio rubric-based valuta risposte più strutturate seguendo i criteri di valutazione predefiniti dall'insegnante. Utilizza una tecnica di concatenamento dei prompt, identificando prima i concetti richiesti nella rubrica attraverso punteggi parziali e successivamente calcolando il punteggio finale secondo la formula fornita dall'insegnante. Questo studio analizza le performance di GPT-4o e GPT-4o Mini in entrambe le strategie di valutazione per determinarne l'allineamento con le valutazioni umane. I risultati mostrano che entrambi i modelli si allineano bene con la valutazione umana per le risposte che hanno ricevuto punteggi medi, ma incontrano difficoltà con risposte che ottengono punteggi estremi. Le risposte con punteggi alti, spesso ricche di ragionamento ed elaborazione, vengono talvolta classificate erroneamente a causa della loro complessità, mentre le risposte con punteggi bassi tendono a essere sovrastimate, riflettendo un leggero bias ottimistico. Per alcune domande complesse, i modelli dimostrano solide capacità di ragionamento, producendo valutazioni altamente accurate. Tuttavia, alcune domande richiedono ancora ulteriori ricerche, poiché i modelli talvolta faticano a catturare completamente la profondità dell'analisi prevista nella valutazione umana delle risposte degli studenti. Inoltre, i risultati suggeriscono che GPT-4o Mini supera GPT-4o nella valutazione rubric-based grazie alla sua maggiore flessibilità, mentre GPT-4o, pur essendo più coerente matematicamente nel calcolare i punteggi finali dai punteggi parziali definiti, si allinea meno efficacemente con le valutazioni degli insegnanti nell'identificare i concetti richiesti dalla rubrica. Nel complesso, i risultati evidenziano il potenziale degli LLM nella valutazione automatica, pur sottolineando la necessità di ulteriori perfezionamenti. Questi risultati contribuiscono al perfezionamento dei sistemi di valutazione basati sull'intelligenza artificiale, rendendoli più compatibili con le pratiche di valutazione umane in vari contesti educativi.

Automated evaluation of open-ended student responses using LLMs: an analysis of shot-based and rubric-based approaches

SCORZA, VALENTINA
2024/2025

Abstract

Open-ended questions are a fundamental component of education, as they can evaluate higher-order cognitive skills such as critical thinking, problem-solving, and analytical reasoning. However, grading these responses is a labor-intensive task. Large Language Models (LLMs) present a promising solution for automating this process, yet their effectiveness across various grading contexts remains an area of active research. This thesis investigates the use of LLMs for Automatic Short Answer Grading (ASAG) through two distinct evaluation methods: shot-based and rubric-based grading. The shot-based approach leverages few-shot learning to assess responses that require complex reasoning and deeper analysis. In contrast, the rubric-based approach evaluates more structured responses by following predefined teacher's grading criteria. It uses a prompt-chaining technique, first identifying the concepts required in the rubric through partial scores and then computing the final score according to the formula provided by the teacher. This study examines the performance of GPT-4o and GPT-4o Mini in both grading strategies to determine their alignment with human assessments. The results indicate that both models align well with human grading for middle-range-scoring responses but encounter challenges with extreme scores. High-scoring responses, often rich in reasoning and elaboration, are sometimes misclassified due to their complexity, while low-scoring answers tend to be overestimated, reflecting a slight optimistic bias. For certain complex questions, the models demonstrate strong reasoning capabilities, producing highly accurate assessments. Nonetheless, some questions still require more research, as the models occasionally struggle to fully capture the depth of analysis expected in human grading when assessing their related students' responses. Furthermore, findings suggest that GPT-4o Mini outperforms GPT-4o in rubric-based evaluation due to its greater flexibility, while GPT-4o, despite being more mathematically consistent in computing the final scores from the defined partial scores, aligns less effectively with teacher assessments in identifying the concepts required by the rubric. Overall, the results demonstrate the potential of LLMs in automated grading while highlighting the need for further refinements. These findings contribute to the development of AI-driven assessment systems that better align with human grading practices in different educational contexts.
CASSANO, GIACOMO
ING - Scuola di Ingegneria Industriale e dell'Informazione
3-apr-2025
2024/2025
Le domande aperte sono una componente fondamentale nell'istruzione, in quanto permettono di valutare abilità cognitive avanzate come il pensiero critico, la risoluzione dei problemi e il ragionamento analitico. Tuttavia, la valutazione di queste risposte è un compito che richiede un notevole impegno e tempo. I Large Language Models (LLM) rappresentano una soluzione promettente per automatizzare questo processo, ma la loro efficacia in diversi contesti di valutazione rimane un'area di ricerca attiva. Questa tesi esplora l'uso degli LLM per la valutazione automatica delle risposte brevi (ASAG) attraverso due metodi di valutazione distinti: shot-based e rubric-based. L'approccio shot-based sfrutta il few-shot learning per valutare risposte che richiedono un ragionamento complesso e un'analisi più approfondita. Al contrario, l'approccio rubric-based valuta risposte più strutturate seguendo i criteri di valutazione predefiniti dall'insegnante. Utilizza una tecnica di concatenamento dei prompt, identificando prima i concetti richiesti nella rubrica attraverso punteggi parziali e successivamente calcolando il punteggio finale secondo la formula fornita dall'insegnante. Questo studio analizza le performance di GPT-4o e GPT-4o Mini in entrambe le strategie di valutazione per determinarne l'allineamento con le valutazioni umane. I risultati mostrano che entrambi i modelli si allineano bene con la valutazione umana per le risposte che hanno ricevuto punteggi medi, ma incontrano difficoltà con risposte che ottengono punteggi estremi. Le risposte con punteggi alti, spesso ricche di ragionamento ed elaborazione, vengono talvolta classificate erroneamente a causa della loro complessità, mentre le risposte con punteggi bassi tendono a essere sovrastimate, riflettendo un leggero bias ottimistico. Per alcune domande complesse, i modelli dimostrano solide capacità di ragionamento, producendo valutazioni altamente accurate. Tuttavia, alcune domande richiedono ancora ulteriori ricerche, poiché i modelli talvolta faticano a catturare completamente la profondità dell'analisi prevista nella valutazione umana delle risposte degli studenti. Inoltre, i risultati suggeriscono che GPT-4o Mini supera GPT-4o nella valutazione rubric-based grazie alla sua maggiore flessibilità, mentre GPT-4o, pur essendo più coerente matematicamente nel calcolare i punteggi finali dai punteggi parziali definiti, si allinea meno efficacemente con le valutazioni degli insegnanti nell'identificare i concetti richiesti dalla rubrica. Nel complesso, i risultati evidenziano il potenziale degli LLM nella valutazione automatica, pur sottolineando la necessità di ulteriori perfezionamenti. Questi risultati contribuiscono al perfezionamento dei sistemi di valutazione basati sull'intelligenza artificiale, rendendoli più compatibili con le pratiche di valutazione umane in vari contesti educativi.
File allegati
File Dimensione Formato  
2025_04_Scorza_01.pdf

accessibile in internet solo dagli utenti autorizzati

Descrizione: Tesi
Dimensione 2.31 MB
Formato Adobe PDF
2.31 MB Adobe PDF   Visualizza/Apri
2025_04_Scorza_Executive_Summary_02.pdf

accessibile in internet solo dagli utenti autorizzati

Descrizione: Executive Summary
Dimensione 354.4 kB
Formato Adobe PDF
354.4 kB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/236365