This study investigates the scalability, data efficiency, and effectiveness of Direct Preference Optimization (DPO) in fine-tuning Large Language Models (LLMs). While DPO has introduced significant improvements in model training, the strategic optimisation of data usage within this framework remains underexplored. This research seeks to bridge this gap by laying the groundwork for future studies focused on minimizing the reliance of large language models on extensive preference data. We conduct a systematic comparison of model performance across various levels of data availability, with the intention of delineating the improvement curve of DPO and assess its efficacy under data-constrained scenarios. This investigation seeks to uncover how different amounts of data influence the training process and identify the optimal conditions for DPO’s application. The ultimate goal of this analysis is to inform and propose potential patterns that emerge from studying the behavior of DPO across various data sizes and types. By examining how different data subsets impact model performance, this research aims to highlight effective strategies for aligning LLM outputs with human preferences using minimal data. Identifying these patterns will provide valuable insights that could guide the development of a data selection method, enhancing the efficiency of model training. This approach holds the promise of significant advancements in the practical deployment of LLMs, potentially pioneering new standards for data-efficient training in natural language processing.

Questo studio esplora la scalabilità, l'efficienza e l'efficacia di Direct Preference Optimization (DPO) nel fine-tuning dei Large Language Models (LLMs). Nonostante DPO abbia dimostrato di essere un approccio promettente per l'addestramento dei modelli, la questione di come ottimizzare strategicamente l'utilizzo dei dati all'interno di questo framework rimane ancora poco esplorata. La nostra ricerca si propone di colmare questa lacuna, ponendo le basi per studi futuri mirati a minimizzare la dipendenza dei modelli linguistici da estesi dataset di preferenze. Per raggiungere questo obiettivo, conduciamo un'analisi sistematica delle prestazioni del modello attraverso diversi livelli di disponibilità dei dati. Questo ci permette di delineare la curva di miglioramento di DPO e valutare la sua efficacia in scenari con vincoli sulla quantità di dati disponibili. L'indagine si concentra in particolare su come diverse quantità di dati influenzino il processo di addestramento, cercando di identificare le condizioni ottimali per l'applicazione di DPO. L'obiettivo centrale della nostra analisi è individuare potenziali pattern nel comportamento di DPO attraverso diverse dimensioni e tipologie di dati. Esaminando come differenti sottoinsiemi di dati influenzano le prestazioni del modello, miriamo a sviluppare strategie efficaci per allineare gli output degli LLMs con le preferenze umane utilizzando una quantità minima di dati. L'identificazione di questi pattern fornirà indicazioni preziose per lo sviluppo di metodi di selezione dei dati più efficienti, migliorando significativamente l'efficacia dell'addestramento del modello. Questo approccio promette di aprire nuove strade nell'implementazione pratica degli LLM, potenzialmente stabilendo nuovi standard per l'addestramento efficiente nell'elaborazione del linguaggio naturale.

Optimising language models through direct preference: a comparative study on data efficiency

BERNARDELLE, PIETRO
2023/2024

Abstract

This study investigates the scalability, data efficiency, and effectiveness of Direct Preference Optimization (DPO) in fine-tuning Large Language Models (LLMs). While DPO has introduced significant improvements in model training, the strategic optimisation of data usage within this framework remains underexplored. This research seeks to bridge this gap by laying the groundwork for future studies focused on minimizing the reliance of large language models on extensive preference data. We conduct a systematic comparison of model performance across various levels of data availability, with the intention of delineating the improvement curve of DPO and assess its efficacy under data-constrained scenarios. This investigation seeks to uncover how different amounts of data influence the training process and identify the optimal conditions for DPO’s application. The ultimate goal of this analysis is to inform and propose potential patterns that emerge from studying the behavior of DPO across various data sizes and types. By examining how different data subsets impact model performance, this research aims to highlight effective strategies for aligning LLM outputs with human preferences using minimal data. Identifying these patterns will provide valuable insights that could guide the development of a data selection method, enhancing the efficiency of model training. This approach holds the promise of significant advancements in the practical deployment of LLMs, potentially pioneering new standards for data-efficient training in natural language processing.
DEMARTINI, GIANLUCA
ING - Scuola di Ingegneria Industriale e dell'Informazione
11-dic-2024
2023/2024
Questo studio esplora la scalabilità, l'efficienza e l'efficacia di Direct Preference Optimization (DPO) nel fine-tuning dei Large Language Models (LLMs). Nonostante DPO abbia dimostrato di essere un approccio promettente per l'addestramento dei modelli, la questione di come ottimizzare strategicamente l'utilizzo dei dati all'interno di questo framework rimane ancora poco esplorata. La nostra ricerca si propone di colmare questa lacuna, ponendo le basi per studi futuri mirati a minimizzare la dipendenza dei modelli linguistici da estesi dataset di preferenze. Per raggiungere questo obiettivo, conduciamo un'analisi sistematica delle prestazioni del modello attraverso diversi livelli di disponibilità dei dati. Questo ci permette di delineare la curva di miglioramento di DPO e valutare la sua efficacia in scenari con vincoli sulla quantità di dati disponibili. L'indagine si concentra in particolare su come diverse quantità di dati influenzino il processo di addestramento, cercando di identificare le condizioni ottimali per l'applicazione di DPO. L'obiettivo centrale della nostra analisi è individuare potenziali pattern nel comportamento di DPO attraverso diverse dimensioni e tipologie di dati. Esaminando come differenti sottoinsiemi di dati influenzano le prestazioni del modello, miriamo a sviluppare strategie efficaci per allineare gli output degli LLMs con le preferenze umane utilizzando una quantità minima di dati. L'identificazione di questi pattern fornirà indicazioni preziose per lo sviluppo di metodi di selezione dei dati più efficienti, migliorando significativamente l'efficacia dell'addestramento del modello. Questo approccio promette di aprire nuove strade nell'implementazione pratica degli LLM, potenzialmente stabilendo nuovi standard per l'addestramento efficiente nell'elaborazione del linguaggio naturale.
File allegati
File Dimensione Formato  
2024_12_Bernardelle_ExecutiveSummary.pdf

accessibile in internet per tutti

Dimensione 1.06 MB
Formato Adobe PDF
1.06 MB Adobe PDF Visualizza/Apri
2024_12_Bernardelle.pdf

accessibile in internet per tutti

Dimensione 2.49 MB
Formato Adobe PDF
2.49 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/230846