In this work we investigate the effects of self-training Large Language Models (LLMs) to enhance their reasoning capabilities. We introduce an iterative training framework where the LLMs engage in textual games with domain-independent prompts. Through self-appraisal, the models autonomously select game instances identified as beneficial to their learning trajectory. The chosen games are then used to fine-tune the LLMs, iteratively improving the model's performance. In our work, we explore different textual games and training approaches. Moreover, we take care to evaluate the language understanding capabilities of the LLMs both before and after the training, to keep track of the effect of the self-training process on the reasoning capabilities also outside of the games environment. Our results demonstrate how the LLM's ability in self-appraisal can allow to improve, even significantly in some games, it's own performance with little impact on its linguistic capabilities. Our findings underscore the potential of leveraging self-training techniques with LLMs to improve their capabilities to solve problems, in particular we show how LLMs self-appraisal capabilities can be exploited to identify relevant experiences useful for fine-tuning.

In questa ricerca, indaghiamo gli effetti del self training su Large Language Models (LLMs) per migliorare le loro capacità di ragionamento. Introduciamo un framework in cui i LLMs vengono impiegati nel dominio dei giochi testuali. Attraverso l’auto- valutazione delle proprie azioni, i modelli selezionano autonomamente le traiettorie ef- ficaci. I giochi scelti vengono quindi utilizzati per affinare i LLMs, migliorando iterati- vamente le prestazioni del modello. Nel nostro lavoro, esploriamo diversi giochi testuali e approcci di addestramento. Inoltre valutiamo le capacità di comprensione linguistica dei LLMs sia prima che dopo l’addestramento, per monitorare l’effetto del processo di self-training sulle capacità di ragionamento anche al di fuori del dominio dei giochi tes- tuali. I nostri risultati dimostrano come l’abilità dei LLM nell’auto-valutazione possa permettere di migliorare, anche significativamente in alcuni giochi, le proprie prestazioni con un impatto minimo sulle capacità linguistiche. Le nostre scoperte sottolineano il potenziale di sfruttare tecniche di self-training con i LLM per migliorare le loro capac- ità di risolvere problemi, in particolare mostriamo come le capacità di auto-valutazione dei LLM possano essere sfruttate per identificare traiettorie di gioco utili per il fine- tuning.

Exploring Language Model Self-Improvement through Domain-Independent Gameplay in Text Environments

Maberino, Francesco;Forasassi, Matteo
2023/2024

Abstract

In this work we investigate the effects of self-training Large Language Models (LLMs) to enhance their reasoning capabilities. We introduce an iterative training framework where the LLMs engage in textual games with domain-independent prompts. Through self-appraisal, the models autonomously select game instances identified as beneficial to their learning trajectory. The chosen games are then used to fine-tune the LLMs, iteratively improving the model's performance. In our work, we explore different textual games and training approaches. Moreover, we take care to evaluate the language understanding capabilities of the LLMs both before and after the training, to keep track of the effect of the self-training process on the reasoning capabilities also outside of the games environment. Our results demonstrate how the LLM's ability in self-appraisal can allow to improve, even significantly in some games, it's own performance with little impact on its linguistic capabilities. Our findings underscore the potential of leveraging self-training techniques with LLMs to improve their capabilities to solve problems, in particular we show how LLMs self-appraisal capabilities can be exploited to identify relevant experiences useful for fine-tuning.
BRUNELLO, NICOLÒ
SCOTTI, VINCENZO
ING - Scuola di Ingegneria Industriale e dell'Informazione
16-lug-2024
2023/2024
In questa ricerca, indaghiamo gli effetti del self training su Large Language Models (LLMs) per migliorare le loro capacità di ragionamento. Introduciamo un framework in cui i LLMs vengono impiegati nel dominio dei giochi testuali. Attraverso l’auto- valutazione delle proprie azioni, i modelli selezionano autonomamente le traiettorie ef- ficaci. I giochi scelti vengono quindi utilizzati per affinare i LLMs, migliorando iterati- vamente le prestazioni del modello. Nel nostro lavoro, esploriamo diversi giochi testuali e approcci di addestramento. Inoltre valutiamo le capacità di comprensione linguistica dei LLMs sia prima che dopo l’addestramento, per monitorare l’effetto del processo di self-training sulle capacità di ragionamento anche al di fuori del dominio dei giochi tes- tuali. I nostri risultati dimostrano come l’abilità dei LLM nell’auto-valutazione possa permettere di migliorare, anche significativamente in alcuni giochi, le proprie prestazioni con un impatto minimo sulle capacità linguistiche. Le nostre scoperte sottolineano il potenziale di sfruttare tecniche di self-training con i LLM per migliorare le loro capac- ità di risolvere problemi, in particolare mostriamo come le capacità di auto-valutazione dei LLM possano essere sfruttate per identificare traiettorie di gioco utili per il fine- tuning.
File allegati
File Dimensione Formato  
2024_07_Forasassi_Maberino_02.pdf

accessibile in internet per tutti a partire dal 28/06/2025

Descrizione: Executive summary
Dimensione 868.24 kB
Formato Adobe PDF
868.24 kB Adobe PDF   Visualizza/Apri
2024_07_Forasassi_Maberino_01.pdf

accessibile in internet per tutti a partire dal 01/07/2025

Descrizione: Thesis text
Dimensione 3.84 MB
Formato Adobe PDF
3.84 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/222969