Large Language Models (LLMs) represent the forefront of technological advancements, however, their widespread adoption is impeded by their substantial computational demands and resource-intensive nature. Pruning, as a compression technique, offers promises for mitigating these challenges. However, existing methods, focusing on general purpose models, often lack optimization for specific tasks, demanding more tailored approaches. This thesis investigates the feasibility of constructing domain-specific sub-models by pruning LLMs using Wanda pruning technique with task-specific calibration datasets. Wanda, a state-of-the-art technique, strategically prunes less critical areas of LLMs, thereby diminishing computational demands while preserving, to some extent, performance integrity. However, it primarily relies on a limited set of general English text as a calibration dataset to estimate input activations and "zero out" less important weights. This approach does not investigate the impact of different types of calibration samples on the post-pruning accuracy and structure of the models. This thesis aims to address this research gap by exploring the impact of employing different task-specific datasets as calibration sets in the pruning process. The evaluation results demonstrate overall improvements in accuracy and inference speed for domain-specific sub-models pruned with task-specific datasets, highlighting the practical utility of the approach. Moreover, interesting results are shown on the structural differences of the sub-models obtained. More specifically, the obtained results reveal that same-domain sub-models retain a higher proportion of similar weights compared to those derived from different domains.

I Large Language Models (LLMs) rappresentano l’avanguardia dei progressi tecnologici, tuttavia la loro adozione diffusa è ostacolata dalle loro notevoli esigenze computazionali e dalla necessità di grandi quantità di risorse. Il "pruning" è una tecnica di compressione di questi modelli che ha l’obiettivo di mitigare queste problematiche. Tuttavia, i metodi esistenti, che si concentrano su modelli di uso generale, spesso mancano di ottimizzazione per compiti più specifici, portando alla necessità di approcci più mirati. Questa tesi esplora la possibilità di costruire sotto-modelli specifici per determinati domini facendo pruning di LLMs utilizzando la tecnica "Wanda" con dei dataset di calibrazione specifici per ogni dominio. Wanda, una delle tecniche più all’avanguardia, elimina strategicamente i parametri meno necessari degli LLMs, riducendo così le esigenze computazionali e mantenendo, in una certa misura, l’accuratezza delle prestazioni. Tuttavia, si basa principalmente su un dataset generico che raccoglie frammenti di testi in inglese come set di calibrazione per stimare le input activations e "azzerare" i parametri meno importanti. Questo approccio non indaga l’impatto di diversi tipi di campioni di calibrazione sulla performance post-pruning e sulla struttura dei modelli. Questa tesi vuole colmare questa lacuna esplorando come l’utilizzo di diversi datasets specifici per un certo dominio come set di calibrazione impatta il processo di pruning e la performance del sotto-modello risultante. I risultati ottenuti dimostrano complessivamente miglioramenti nelle performance e nella velocità di inferenza per i sotto-modelli ottenuti tramite pruning con datasets specifici, evidenziando l’utilità pratica dell’approccio. Inoltre, sono stati ottenuti risultati interessanti anche sulle differenze strutturali dei sotto-modelli. Più specificamente, i sotto-modelli appartenenti allo stesso dominio mantengono una proporzione più alta di parametri uguali rispetto a quelli derivati da domini diversi.

Building task-specific sub-models from Large Language Models using pruning

Puccioni, Laura
2023/2024

Abstract

Large Language Models (LLMs) represent the forefront of technological advancements, however, their widespread adoption is impeded by their substantial computational demands and resource-intensive nature. Pruning, as a compression technique, offers promises for mitigating these challenges. However, existing methods, focusing on general purpose models, often lack optimization for specific tasks, demanding more tailored approaches. This thesis investigates the feasibility of constructing domain-specific sub-models by pruning LLMs using Wanda pruning technique with task-specific calibration datasets. Wanda, a state-of-the-art technique, strategically prunes less critical areas of LLMs, thereby diminishing computational demands while preserving, to some extent, performance integrity. However, it primarily relies on a limited set of general English text as a calibration dataset to estimate input activations and "zero out" less important weights. This approach does not investigate the impact of different types of calibration samples on the post-pruning accuracy and structure of the models. This thesis aims to address this research gap by exploring the impact of employing different task-specific datasets as calibration sets in the pruning process. The evaluation results demonstrate overall improvements in accuracy and inference speed for domain-specific sub-models pruned with task-specific datasets, highlighting the practical utility of the approach. Moreover, interesting results are shown on the structural differences of the sub-models obtained. More specifically, the obtained results reveal that same-domain sub-models retain a higher proportion of similar weights compared to those derived from different domains.
ING - Scuola di Ingegneria Industriale e dell'Informazione
16-lug-2024
2023/2024
I Large Language Models (LLMs) rappresentano l’avanguardia dei progressi tecnologici, tuttavia la loro adozione diffusa è ostacolata dalle loro notevoli esigenze computazionali e dalla necessità di grandi quantità di risorse. Il "pruning" è una tecnica di compressione di questi modelli che ha l’obiettivo di mitigare queste problematiche. Tuttavia, i metodi esistenti, che si concentrano su modelli di uso generale, spesso mancano di ottimizzazione per compiti più specifici, portando alla necessità di approcci più mirati. Questa tesi esplora la possibilità di costruire sotto-modelli specifici per determinati domini facendo pruning di LLMs utilizzando la tecnica "Wanda" con dei dataset di calibrazione specifici per ogni dominio. Wanda, una delle tecniche più all’avanguardia, elimina strategicamente i parametri meno necessari degli LLMs, riducendo così le esigenze computazionali e mantenendo, in una certa misura, l’accuratezza delle prestazioni. Tuttavia, si basa principalmente su un dataset generico che raccoglie frammenti di testi in inglese come set di calibrazione per stimare le input activations e "azzerare" i parametri meno importanti. Questo approccio non indaga l’impatto di diversi tipi di campioni di calibrazione sulla performance post-pruning e sulla struttura dei modelli. Questa tesi vuole colmare questa lacuna esplorando come l’utilizzo di diversi datasets specifici per un certo dominio come set di calibrazione impatta il processo di pruning e la performance del sotto-modello risultante. I risultati ottenuti dimostrano complessivamente miglioramenti nelle performance e nella velocità di inferenza per i sotto-modelli ottenuti tramite pruning con datasets specifici, evidenziando l’utilità pratica dell’approccio. Inoltre, sono stati ottenuti risultati interessanti anche sulle differenze strutturali dei sotto-modelli. Più specificamente, i sotto-modelli appartenenti allo stesso dominio mantengono una proporzione più alta di parametri uguali rispetto a quelli derivati da domini diversi.
File allegati
File Dimensione Formato  
2024_07_Puccioni.pdf

accessibile in internet solo dagli utenti autorizzati

Descrizione: testo tesi
Dimensione 10.66 MB
Formato Adobe PDF
10.66 MB Adobe PDF   Visualizza/Apri
2024_07_Puccioni_Executive Summary.pdf

accessibile in internet solo dagli utenti autorizzati

Descrizione: executive summary
Dimensione 2.01 MB
Formato Adobe PDF
2.01 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/222740