This thesis investigates the implementation and effectiveness of early exit mechanisms in large language models (LLMs), with a focus on decoder-only transformer architectures and emerging Mamba-based state-space models. Early exits offer a promising approach to reducing computational costs and latency by dynamically terminating inference once a satisfactory prediction confidence level is achieved. The research evaluates early exits within the widely adopted transformer architecture, specifically the Mistral 7B model, and compares it against the newer Mamba architecture, represented by the Codestral 7B. Through experiments on datasets including TruthfulQA, CoQA, TriviaQA, and MMLU, the study demonstrates the computational savings early exits afford, alongside the limitations posed in accuracy and contextual consistency across differing NLP tasks. The findings reveal the trade-offs between computational efficiency and performance quality in dynamic computing for LLMs, highlighting the potential of early exit mechanisms for embedded applications and devices with limited computational resources. The comparative analysis of transformer and Mamba models showcases the flexibility and scalability of each architecture, shedding light on future applications in NLP where efficient, on-the-fly processing is paramount.

Questa tesi indaga l'implementazione e l'efficacia dei meccanismi di uscita anticipata nei modelli linguistici di grandi dimensioni (LLM), con particolare attenzione alle architetture di trasformatori solo decodificatori e ai modelli emergenti di stato-spazio basati su Mamba. Le uscite anticipate offrono un approccio promettente per ridurre i costi computazionali e la latenza terminando dinamicamente l'inferenza una volta raggiunto un livello di confidenza di previsione soddisfacente. La ricerca valuta le prime uscite all'interno dell'architettura del trasformatore ampiamente adottata, in particolare il modello Mistral 7B, e la confronta con la più recente architettura Mamba, rappresentata dal Codestral 7B. Attraverso esperimenti su set di dati tra cui TruthfulQA, CoQA, TriviaQA e MMLU, lo studio dimostra i risparmi computazionali consentiti dalle uscite anticipate, insieme alle limitazioni poste in termini di accuratezza e coerenza contestuale tra i diversi compiti di PNL. I risultati rivelano i compromessi tra efficienza computazionale e qualità delle prestazioni nel calcolo dinamico per i LLM, evidenziando il potenziale dei meccanismi di uscita anticipata per applicazioni e dispositivi embedded con risorse computazionali limitate. L'analisi comparativa dei modelli Transformer e Mamba mostra la flessibilità e la scalabilità di ciascuna architettura, facendo luce sulle future applicazioni nella PNL dove l'elaborazione efficiente e al volo è fondamentale.

Dynamic computing for LLMs: the role of early exits in transformers and Mamba based architectures

NOGALES GONZALEZ-REGUERAL, MIGUEL
2023/2024

Abstract

This thesis investigates the implementation and effectiveness of early exit mechanisms in large language models (LLMs), with a focus on decoder-only transformer architectures and emerging Mamba-based state-space models. Early exits offer a promising approach to reducing computational costs and latency by dynamically terminating inference once a satisfactory prediction confidence level is achieved. The research evaluates early exits within the widely adopted transformer architecture, specifically the Mistral 7B model, and compares it against the newer Mamba architecture, represented by the Codestral 7B. Through experiments on datasets including TruthfulQA, CoQA, TriviaQA, and MMLU, the study demonstrates the computational savings early exits afford, alongside the limitations posed in accuracy and contextual consistency across differing NLP tasks. The findings reveal the trade-offs between computational efficiency and performance quality in dynamic computing for LLMs, highlighting the potential of early exit mechanisms for embedded applications and devices with limited computational resources. The comparative analysis of transformer and Mamba models showcases the flexibility and scalability of each architecture, shedding light on future applications in NLP where efficient, on-the-fly processing is paramount.
GAMBELLA, MATTEO
ING - Scuola di Ingegneria Industriale e dell'Informazione
11-dic-2024
2023/2024
Questa tesi indaga l'implementazione e l'efficacia dei meccanismi di uscita anticipata nei modelli linguistici di grandi dimensioni (LLM), con particolare attenzione alle architetture di trasformatori solo decodificatori e ai modelli emergenti di stato-spazio basati su Mamba. Le uscite anticipate offrono un approccio promettente per ridurre i costi computazionali e la latenza terminando dinamicamente l'inferenza una volta raggiunto un livello di confidenza di previsione soddisfacente. La ricerca valuta le prime uscite all'interno dell'architettura del trasformatore ampiamente adottata, in particolare il modello Mistral 7B, e la confronta con la più recente architettura Mamba, rappresentata dal Codestral 7B. Attraverso esperimenti su set di dati tra cui TruthfulQA, CoQA, TriviaQA e MMLU, lo studio dimostra i risparmi computazionali consentiti dalle uscite anticipate, insieme alle limitazioni poste in termini di accuratezza e coerenza contestuale tra i diversi compiti di PNL. I risultati rivelano i compromessi tra efficienza computazionale e qualità delle prestazioni nel calcolo dinamico per i LLM, evidenziando il potenziale dei meccanismi di uscita anticipata per applicazioni e dispositivi embedded con risorse computazionali limitate. L'analisi comparativa dei modelli Transformer e Mamba mostra la flessibilità e la scalabilità di ciascuna architettura, facendo luce sulle future applicazioni nella PNL dove l'elaborazione efficiente e al volo è fondamentale.
File allegati
File Dimensione Formato  
Article_Format_Thesis_Miguel_Nogales_Politecnico_di_Milano.pdf

accessibile in internet per tutti

Descrizione: Full text thesis
Dimensione 8.81 MB
Formato Adobe PDF
8.81 MB Adobe PDF Visualizza/Apri
Executive_Summary_Miguel_Nogales_Politecnico_di_Milano.pdf

accessibile in internet per tutti

Descrizione: Executive summary
Dimensione 4.1 MB
Formato Adobe PDF
4.1 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/231260