Large Language Models (LLMs) exhibit remarkable capabilities across diverse natural language processing tasks, yet their internal decision-making processes remain largely opaque. Mechanistic interpretability aims to bridge this gap by reverse-engineering neural networks into comprehensible components. A key area within this field is circuit discovery, which seeks to identify structured groups of neurons and attention heads responsible for specific functions within a model. Understanding these circuits not only enhances interpretability but also enables targeted interventions for model editing, debugging, and alignment. Despite recent advances, existing circuit discovery methods face challenges in scalability, precision, and reliability. In this thesis, we systematically compare state-of-the-art circuit discovery algorithms, analyzing their effectiveness in identifying functionally meaningful circuits in LLMs and their limitations. Additionally, we develop a tool for visualizing the circuits which aims to facilitate our understanding of circuits. The results highlight our tool’s ability to provide clearer insights into model behavior, contributing to the broader goal of developing transparent and controllable AI systems.

I Large Language Models (LLM) mostrano capacità straordinarie in una vasta gamma di compiti di elaborazione del linguaggio naturale, ma i loro processi decisionali interni rimangono in gran parte opachi. L'interpretabilità meccanicistica mira a colmare questa lacuna attraverso il reverse engineering delle reti neurali in componenti comprensibili. Un'area chiave di questo campo è la scoperta di circuiti, che cerca di identificare gruppi strutturati di neuroni e teste di attenzione responsabili di funzioni specifiche all'interno di un modello. Comprendere questi circuiti non solo migliora l'interpretabilità, ma consente anche interventi mirati per la modifica, il debugging e l'allineamento dei modelli. Nonostante i recenti progressi, i metodi esistenti per la scoperta di circuiti affrontano sfide in termini di scalabilità, precisione e affidabilità. In questa tesi, confrontiamo sistematicamente gli algoritmi più avanzati per la scoperta di circuiti, analizzando la loro efficacia nell'identificare circuiti funzionalmente significativi nei LLM e le loro limitazioni. Inoltre, sviluppiamo uno strumento per la visualizzazione dei circuiti, con l'obiettivo di facilitare la comprensione di tali strutture. I risultati evidenziano la capacità del nostro strumento di fornire intuizioni più chiare sul comportamento dei modelli, contribuendo all'obiettivo più ampio di sviluppare sistemi di intelligenza artificiale trasparenti e controllabili.

A comparative study of circuit discovery algorithms for Large Language Models

Eliasi Boroujeni, Kian
2024/2025

Abstract

Large Language Models (LLMs) exhibit remarkable capabilities across diverse natural language processing tasks, yet their internal decision-making processes remain largely opaque. Mechanistic interpretability aims to bridge this gap by reverse-engineering neural networks into comprehensible components. A key area within this field is circuit discovery, which seeks to identify structured groups of neurons and attention heads responsible for specific functions within a model. Understanding these circuits not only enhances interpretability but also enables targeted interventions for model editing, debugging, and alignment. Despite recent advances, existing circuit discovery methods face challenges in scalability, precision, and reliability. In this thesis, we systematically compare state-of-the-art circuit discovery algorithms, analyzing their effectiveness in identifying functionally meaningful circuits in LLMs and their limitations. Additionally, we develop a tool for visualizing the circuits which aims to facilitate our understanding of circuits. The results highlight our tool’s ability to provide clearer insights into model behavior, contributing to the broader goal of developing transparent and controllable AI systems.
ING - Scuola di Ingegneria Industriale e dell'Informazione
3-apr-2025
2024/2025
I Large Language Models (LLM) mostrano capacità straordinarie in una vasta gamma di compiti di elaborazione del linguaggio naturale, ma i loro processi decisionali interni rimangono in gran parte opachi. L'interpretabilità meccanicistica mira a colmare questa lacuna attraverso il reverse engineering delle reti neurali in componenti comprensibili. Un'area chiave di questo campo è la scoperta di circuiti, che cerca di identificare gruppi strutturati di neuroni e teste di attenzione responsabili di funzioni specifiche all'interno di un modello. Comprendere questi circuiti non solo migliora l'interpretabilità, ma consente anche interventi mirati per la modifica, il debugging e l'allineamento dei modelli. Nonostante i recenti progressi, i metodi esistenti per la scoperta di circuiti affrontano sfide in termini di scalabilità, precisione e affidabilità. In questa tesi, confrontiamo sistematicamente gli algoritmi più avanzati per la scoperta di circuiti, analizzando la loro efficacia nell'identificare circuiti funzionalmente significativi nei LLM e le loro limitazioni. Inoltre, sviluppiamo uno strumento per la visualizzazione dei circuiti, con l'obiettivo di facilitare la comprensione di tali strutture. I risultati evidenziano la capacità del nostro strumento di fornire intuizioni più chiare sul comportamento dei modelli, contribuendo all'obiettivo più ampio di sviluppare sistemi di intelligenza artificiale trasparenti e controllabili.
File allegati
File Dimensione Formato  
2025_05_Eliasi.pdf

accessibile in internet solo dagli utenti autorizzati

Dimensione 1.72 MB
Formato Adobe PDF
1.72 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/235422