Navigation of a language model's latent space

Biblioteche e Archivi
POLITesi - Archivio digitale delle tesi di laurea e di dottorato

Large language models have impressive language capabilities, but are still largely treated as black boxes. In order to use them reliably and safely, we would like to be able to control their output, and gain an intuitive understanding of their internal processes. Several methods have tried to induce a given output, from modifying the original model to purely black box approaches, with varying results. In this work we will study the information contained in the embeddings, which are the latent representations used by these models. We develop a semantic embedding scheme and model embedding space navigation as a Markov Decision Process. We define a pipeline to efficiently suggest phrases that lead the LLM towards a given output, by training a reinforcement learning agent based on these latent vectors. The training is done via a modified version of Alphazero to take advantage of the explorative capabilities of this algorithm. We use the open model Mistral-7B-Instruct and sample goals from the English dictionary, obtaining modest but promising results, getting tokens that lead the generation towards the specified goal. The method can be extended in a goal-based setting and can also be applied to safety or alignment tasks.

I modelli linguistici di grandi dimensioni posseggono incredibili capacità di linguaggio, ma sono ancora sistemi molto opachi. Per usarli in modo sicuro e affidabile vorremo poter controllare i loro output, per ottenere più chiarezza sui loro processi interni. Diversi metodi hanno provato ad indurre un particolare output, dal modificare l'LLM originale fino a metodi totalmente esterni al modello, con risultati variabili. In questo lavoro studiamo le informazioni contenute negli embedding, ovvero le rappresentazioni latenti utilizzate da questi modelli. Sviluppiamo uno schema di embedding semantico e modellizziamo la navigazione dello spazio di embedding come un Processo decisionale di Markov. Definiamo un flusso per suggerire in modo efficiente parole che indirizzano l'LLM ad un determinato output, allenando un agente basato su questi vettori latenti attraverso l'apprendimento per rinforzo. L'allenamento avviene attraverso una versione modificata di Alphazero per sfruttare le capacità di esplorazione di questo algoritmo. Utilizziamo il modello open source Mistral-7B-Instruct campionando gli obiettivi dal dizionario della lingua inglese, ottenendo risultati discreti ma promettenti. Il metodo può essere esteso in un ambiente goal-based e applicato a problemi di sicurezza e allineamento.

Navigation of a language model's latent space

Dente, Daniele

2023/2024

Abstract

Large language models have impressive language capabilities, but are still largely treated as black boxes. In order to use them reliably and safely, we would like to be able to control their output, and gain an intuitive understanding of their internal processes. Several methods have tried to induce a given output, from modifying the original model to purely black box approaches, with varying results. In this work we will study the information contained in the embeddings, which are the latent representations used by these models. We develop a semantic embedding scheme and model embedding space navigation as a Markov Decision Process. We define a pipeline to efficiently suggest phrases that lead the LLM towards a given output, by training a reinforcement learning agent based on these latent vectors. The training is done via a modified version of Alphazero to take advantage of the explorative capabilities of this algorithm. We use the open model Mistral-7B-Instruct and sample goals from the English dictionary, obtaining modest but promising results, getting tokens that lead the generation towards the specified goal. The method can be extended in a goal-based setting and can also be applied to safety or alignment tasks.

Scheda breve

Scheda completa

	Relatore
	
				RESTELLI, MARCELLO
			
	Correlatore/i
	
				LOSAPIO, GIANVITO
			
	Scuola / Dip.
	
				ING  - Scuola di Ingegneria Industriale e dell'Informazione
			
	Data
	
				3-apr-2025
			
	Anno accademico
	
				2023/2024
			
	Abstract in italiano
	
				I modelli linguistici di grandi dimensioni posseggono incredibili capacità di linguaggio, ma sono ancora sistemi molto opachi. Per usarli in modo sicuro e affidabile vorremo poter controllare i loro output, per ottenere più chiarezza sui loro processi interni.

Diversi metodi hanno provato ad indurre un particolare output, dal modificare l'LLM originale fino a metodi totalmente esterni al modello, con risultati variabili. In questo lavoro studiamo le informazioni contenute negli embedding, ovvero le rappresentazioni latenti utilizzate da questi modelli. Sviluppiamo uno schema di embedding semantico e modellizziamo la navigazione dello spazio di embedding come un Processo decisionale di Markov. Definiamo un flusso per suggerire in modo efficiente parole che indirizzano l'LLM ad un determinato output, allenando un agente basato su questi vettori latenti attraverso l'apprendimento per rinforzo.
L'allenamento avviene attraverso una versione modificata di Alphazero per sfruttare le capacità di esplorazione di questo algoritmo.
Utilizziamo il modello open source Mistral-7B-Instruct campionando gli obiettivi dal dizionario della lingua inglese, ottenendo risultati discreti ma promettenti. Il metodo può essere esteso in un ambiente goal-based e applicato a problemi di sicurezza e allineamento.
			
	Appare nelle tipologie:
	
				Tesi di laurea Magistrale

File allegati

File	Dimensione	Formato
2025_04_Dente_Tesi.pdf solo utenti autorizzati a partire dal 13/03/2026 Descrizione: Thesis Dimensione 2.57 MB Formato Adobe PDF Visualizza/Apri	2.57 MB	Adobe PDF	Visualizza/Apri
2025_04_Dente_Executive_Summary.pdf solo utenti autorizzati a partire dal 13/03/2026 Descrizione: Executive summary Dimensione 1.6 MB Formato Adobe PDF Visualizza/Apri	1.6 MB	Adobe PDF	Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/236074