Large language models have impressive language capabilities, but are still largely treated as black boxes. In order to use them reliably and safely, we would like to be able to control their output, and gain an intuitive understanding of their internal processes. Several methods have tried to induce a given output, from modifying the original model to purely black box approaches, with varying results. In this work we will study the information contained in the embeddings, which are the latent representations used by these models. We develop a semantic embedding scheme and model embedding space navigation as a Markov Decision Process. We define a pipeline to efficiently suggest phrases that lead the LLM towards a given output, by training a reinforcement learning agent based on these latent vectors. The training is done via a modified version of Alphazero to take advantage of the explorative capabilities of this algorithm. We use the open model Mistral-7B-Instruct and sample goals from the English dictionary, obtaining modest but promising results, getting tokens that lead the generation towards the specified goal. The method can be extended in a goal-based setting and can also be applied to safety or alignment tasks.

I modelli linguistici di grandi dimensioni posseggono incredibili capacità di linguaggio, ma sono ancora sistemi molto opachi. Per usarli in modo sicuro e affidabile vorremo poter controllare i loro output, per ottenere più chiarezza sui loro processi interni. Diversi metodi hanno provato ad indurre un particolare output, dal modificare l'LLM originale fino a metodi totalmente esterni al modello, con risultati variabili. In questo lavoro studiamo le informazioni contenute negli embedding, ovvero le rappresentazioni latenti utilizzate da questi modelli. Sviluppiamo uno schema di embedding semantico e modellizziamo la navigazione dello spazio di embedding come un Processo decisionale di Markov. Definiamo un flusso per suggerire in modo efficiente parole che indirizzano l'LLM ad un determinato output, allenando un agente basato su questi vettori latenti attraverso l'apprendimento per rinforzo. L'allenamento avviene attraverso una versione modificata di Alphazero per sfruttare le capacità di esplorazione di questo algoritmo. Utilizziamo il modello open source Mistral-7B-Instruct campionando gli obiettivi dal dizionario della lingua inglese, ottenendo risultati discreti ma promettenti. Il metodo può essere esteso in un ambiente goal-based e applicato a problemi di sicurezza e allineamento.

Navigation of a language model's latent space

Dente, Daniele
2023/2024

Abstract

Large language models have impressive language capabilities, but are still largely treated as black boxes. In order to use them reliably and safely, we would like to be able to control their output, and gain an intuitive understanding of their internal processes. Several methods have tried to induce a given output, from modifying the original model to purely black box approaches, with varying results. In this work we will study the information contained in the embeddings, which are the latent representations used by these models. We develop a semantic embedding scheme and model embedding space navigation as a Markov Decision Process. We define a pipeline to efficiently suggest phrases that lead the LLM towards a given output, by training a reinforcement learning agent based on these latent vectors. The training is done via a modified version of Alphazero to take advantage of the explorative capabilities of this algorithm. We use the open model Mistral-7B-Instruct and sample goals from the English dictionary, obtaining modest but promising results, getting tokens that lead the generation towards the specified goal. The method can be extended in a goal-based setting and can also be applied to safety or alignment tasks.
LOSAPIO, GIANVITO
ING - Scuola di Ingegneria Industriale e dell'Informazione
3-apr-2025
2023/2024
I modelli linguistici di grandi dimensioni posseggono incredibili capacità di linguaggio, ma sono ancora sistemi molto opachi. Per usarli in modo sicuro e affidabile vorremo poter controllare i loro output, per ottenere più chiarezza sui loro processi interni. Diversi metodi hanno provato ad indurre un particolare output, dal modificare l'LLM originale fino a metodi totalmente esterni al modello, con risultati variabili. In questo lavoro studiamo le informazioni contenute negli embedding, ovvero le rappresentazioni latenti utilizzate da questi modelli. Sviluppiamo uno schema di embedding semantico e modellizziamo la navigazione dello spazio di embedding come un Processo decisionale di Markov. Definiamo un flusso per suggerire in modo efficiente parole che indirizzano l'LLM ad un determinato output, allenando un agente basato su questi vettori latenti attraverso l'apprendimento per rinforzo. L'allenamento avviene attraverso una versione modificata di Alphazero per sfruttare le capacità di esplorazione di questo algoritmo. Utilizziamo il modello open source Mistral-7B-Instruct campionando gli obiettivi dal dizionario della lingua inglese, ottenendo risultati discreti ma promettenti. Il metodo può essere esteso in un ambiente goal-based e applicato a problemi di sicurezza e allineamento.
File allegati
File Dimensione Formato  
2025_04_Dente_Tesi.pdf

solo utenti autorizzati a partire dal 13/03/2026

Descrizione: Thesis
Dimensione 2.57 MB
Formato Adobe PDF
2.57 MB Adobe PDF   Visualizza/Apri
2025_04_Dente_Executive_Summary.pdf

solo utenti autorizzati a partire dal 13/03/2026

Descrizione: Executive summary
Dimensione 1.6 MB
Formato Adobe PDF
1.6 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/236074