This thesis investigates the response alignment problem for Large Language Models (LLM). Given two possible answers to a user query, the alignment problem consists of suggesting the alternative closest to the end user's preferences, avoiding suggesting incorrect or harmful answers. The goal of this thesis is to produce an algorithm capable of carrying out this process by emphasizing a cost-efficient solution from a computational point of view and in the number of samples employed. To achieve the objective, we move a step of abstraction and formulate the alignment problem as an offline linear feasibility problem. In this problem, each answer is associated with a vector of contexts which contains the values given to a set of properties that fully characterize a response, such as length or clarity. The contexts vectors combined with the user's preference constitute the constraints of the problem. The solution is an area of feasibility that summarizes the user's inclination towards the context. Consequently, once the problem is solved, we can directly suggest to the user answers that reflect his tastes, generating them according to the identified area. We then conduct a theoretical analysis in three distinct scenarios, where the unknown distributions governing the LLM's context vectors follow an isotropic Gaussian, a non-isotropic Gaussian, or a binomial distribution. We establish a theoretical guarantee of the sample complexity for each case. Lastly, we validate our algorithm using a real dataset. Experimental results show that compared to a baseline majority voting approach, in which the suggestion is chosen as the mode of the suggestions of 31 LLMs, our solution is more promising and correctly identifies the user's preference.

Questa tesi indaga il problema dell'allineamento delle risposte per i Large Language Models (LLM). Date due possibili risposte ad una domanda dell'utente, il problema dell'allineamento consiste nel suggerire all'utente finale l'alternativa che più si avvicina alle sue preferenze, evitando di suggerire risposte errate o dannose. L'obiettivo di questa tesi è quello di produrre un algoritmo in grado di effettuare questo processo enfatizzando una soluzione economica dal punto di vista computazionale e in termini di numero di campioni utilizzati. Per raggiungere l'obiettivo, facciamo un passo di astrazione e formuliamo il problema dell'allineamento come un problema di feasibility lineare offline. In questo problema ad ogni risposta è associato un vettore di contesti che contiene i valori dati ad un insieme di proprietà che caratterizzano pienamente ogni risposta, quali la lunghezza o la chiarezza. I vettori dei contesti combinati con le preferenze dell'utente costituiscono i vincoli del problema. La soluzione è un'area di feasibility che sintetizza la propensione dell'utente verso gli specifici contesti. Di conseguenza, una volta risolto il problema, possiamo direttamente suggerire le risposte che rispecchiano i gusti dell'utente, generandole in accordo con l'area identificata. Conduciamo quindi un'analisi teorica in tre scenari distinti, in cui le distribuzioni sconosciute che governano i vettori di contesto del LLM seguono una distribuzione gaussiana isotropa, gaussiana non isotropa o una binomiale. Per ciascun caso stabiliamo una garanzia teorica sulla complessità del campione. Infine, valutiamo l'algoritmo proposto utilizzando un set di dati reale. I risultati sperimentali mostrano che rispetto a un approccio baseline di voto a maggioranza, in cui la risposta suggerita è la moda dei suggerimenti di 31 LLM, la nostra soluzione è più promettente e identifica correttamente la preferenza dell'utente in diversi scenari.

A theory-driven approach to Large Language Models alignment with human feedback

SIMEONE, MICHELE
2023/2024

Abstract

This thesis investigates the response alignment problem for Large Language Models (LLM). Given two possible answers to a user query, the alignment problem consists of suggesting the alternative closest to the end user's preferences, avoiding suggesting incorrect or harmful answers. The goal of this thesis is to produce an algorithm capable of carrying out this process by emphasizing a cost-efficient solution from a computational point of view and in the number of samples employed. To achieve the objective, we move a step of abstraction and formulate the alignment problem as an offline linear feasibility problem. In this problem, each answer is associated with a vector of contexts which contains the values given to a set of properties that fully characterize a response, such as length or clarity. The contexts vectors combined with the user's preference constitute the constraints of the problem. The solution is an area of feasibility that summarizes the user's inclination towards the context. Consequently, once the problem is solved, we can directly suggest to the user answers that reflect his tastes, generating them according to the identified area. We then conduct a theoretical analysis in three distinct scenarios, where the unknown distributions governing the LLM's context vectors follow an isotropic Gaussian, a non-isotropic Gaussian, or a binomial distribution. We establish a theoretical guarantee of the sample complexity for each case. Lastly, we validate our algorithm using a real dataset. Experimental results show that compared to a baseline majority voting approach, in which the suggestion is chosen as the mode of the suggestions of 31 LLMs, our solution is more promising and correctly identifies the user's preference.
BIANCHI, TOMMASO
DRAGO, SIMONE
GENALTI, GIANMARCO
ING - Scuola di Ingegneria Industriale e dell'Informazione
3-apr-2025
2023/2024
Questa tesi indaga il problema dell'allineamento delle risposte per i Large Language Models (LLM). Date due possibili risposte ad una domanda dell'utente, il problema dell'allineamento consiste nel suggerire all'utente finale l'alternativa che più si avvicina alle sue preferenze, evitando di suggerire risposte errate o dannose. L'obiettivo di questa tesi è quello di produrre un algoritmo in grado di effettuare questo processo enfatizzando una soluzione economica dal punto di vista computazionale e in termini di numero di campioni utilizzati. Per raggiungere l'obiettivo, facciamo un passo di astrazione e formuliamo il problema dell'allineamento come un problema di feasibility lineare offline. In questo problema ad ogni risposta è associato un vettore di contesti che contiene i valori dati ad un insieme di proprietà che caratterizzano pienamente ogni risposta, quali la lunghezza o la chiarezza. I vettori dei contesti combinati con le preferenze dell'utente costituiscono i vincoli del problema. La soluzione è un'area di feasibility che sintetizza la propensione dell'utente verso gli specifici contesti. Di conseguenza, una volta risolto il problema, possiamo direttamente suggerire le risposte che rispecchiano i gusti dell'utente, generandole in accordo con l'area identificata. Conduciamo quindi un'analisi teorica in tre scenari distinti, in cui le distribuzioni sconosciute che governano i vettori di contesto del LLM seguono una distribuzione gaussiana isotropa, gaussiana non isotropa o una binomiale. Per ciascun caso stabiliamo una garanzia teorica sulla complessità del campione. Infine, valutiamo l'algoritmo proposto utilizzando un set di dati reale. I risultati sperimentali mostrano che rispetto a un approccio baseline di voto a maggioranza, in cui la risposta suggerita è la moda dei suggerimenti di 31 LLM, la nostra soluzione è più promettente e identifica correttamente la preferenza dell'utente in diversi scenari.
File allegati
File Dimensione Formato  
2025_04_Simeone_Tesi.pdf

accessibile in internet per tutti

Descrizione: Testo della tesi
Dimensione 84.01 MB
Formato Adobe PDF
84.01 MB Adobe PDF Visualizza/Apri
2025_04_Simeone_Executive Summary.pdf

accessibile in internet per tutti

Descrizione: Testo dell'executive summary
Dimensione 2.3 MB
Formato Adobe PDF
2.3 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/234864