Visual neural decoding aims at reconstructing what a subject is looking at, by leveraging brain activity signals. Functional Magnetic Resonance Imaging (fMRI) has emerged as a powerful tool for this purpose, thanks to its ability to detect changes in blood flow in diverse brain regions due to increased neuron demands in response to certain stimuli. Current state-of-the-art techniques map the fMRI-derived beta signal into the latent hierarchical space of deep neural networks and then employ generative Artificial Intelligence (AI) techniques to reconstruct the perceived image building on these predicted latent representations. Recent advancements employ a two-stage reconstruction process. The first stage produces a rough visual approximation using a Very-Deep Variational Autoencoder (VDVAE), while the second stage refines this approximation by incorporating semantic information through a Latent Diffusion Model (LDM) conditioned on Contrastive Language-Image Pretrained (CLIP) embeddings of text and vision. We evolve this pipeline by proposing two alternatives to the traditional first step. The first utilizes a VDVAE with latent variables predicted from the beta signals by a GRU-based neural network, and the second introduces an encoder-decoder network with a semi-supervised training procedure. We validated our approach on the widely-used, open-source Natural Scenes Dataset (NSD) and conducted a retrospective study with two fMRI datasets provided by San Raffaele Hospital in Milan. The diverse acquisition protocols and experimental setup of these ecological datasets allowed us to evaluate the model's performance in more realistic and limited scenarios. Experiments on the NSD demonstrated improvements in SSIM and all semantic metrics relative to the state-of-the-art. Our encoder-decoder architecture combined with LDM also outperformed the VDVAE-based approach on the smaller datasets, denoting higher generalizability. Additionally, we developed a multi-subject model procedure, addressing key limitations in current neural decoding research. We further optimized our approach by developing subject and Region of Interest (ROI) selection techniques based on clustering analysis, as well as conducting a noise sensitivity study to assess the impact of the first-stage reconstruction on overall model performance.
Il decoding neurale visivo mira a ricostruire ciò che un soggetto sta osservando utilizzando i suoi segnali cerebrali. La risonanza magnetica functionale (fMRI) è emersa come potente strumento a questo scopo, grazie alla sua abilità di rilevare variazioni del flusso sanguigno nelle varie regioni del cervello in relazione all'aumento della domanda neuronale in risposta a determinati stimoli. Le tecniche dello stato dell'arte mappano il segnale beta, derivato dall'fMRI, nello spazio gerarchico latente di deep neural networks (reti neurali profonde), per poi applicare l'intelligenza artificiale generativa per ricostruire lo stimolo a partire da queste rappresentazioni latenti. I lavori più recenti utilizzano un processo a due stadi. Il primo stadio produce una semplice approssimazione dello stimolo utilizzando un Very-Deep Variational Autoencoder (VDVAE, autoencoder variazionale molto profondo), mentre il secondo stadio rifinisce questa approssimazione incorporando informazione semantica grazie a un Latent Diffusion Model (LDM, modello di diffusione latente) condizionato sulle rappresentazioni prodotte dal Contrastive Language-Image Pretrained (CLIP, modello linguaggio-immagine addestrato con contrasto) di testo e immagine. In questo lavoro, evolviamo questa procedura proponendo due alternative al primo stadio tradizionale. Il primo utilizza un VDVAE con variabili latenti predette dal segnale beta da una rete neurale basata sull'architettura GRU, mentre il secondo introduce una rete encoder-decoder con una procedura di addestramento semi-supervisionata. Abbiamo validato il nostro approccio sul famoso Natural Scenes Dataset (NSD) e condotto uno studio retrospettivo su due dataset forniti dall'Ospedale San Raffaele di Milano. I diversi protocolli di acquisizione e la scarsità di dati di questi dataset ci ha permesso di valutare le performace del modello in scenari più realistici e limitati. Gli esperimenti sul NSD hanno dimostrato miglioramenti in SSIM (indice di similarità strutturale) e sulle metriche di alto livello relativamente allo stato dell'arte. Il nostro modello con encoder-decoder, combinato con il LDM, ha anche superato l'approccio basato sul VDVAE sui dataset più piccoli, evidenziando una maggiore capacità di generalizzazione. Inoltre, abbiamo sviluppato un modello multi-soggetto, superando uno dei prinicpali limiti della ricerca sulla decodifica neurale. Abbiamo ulteriormente ottimizzando il nostro approccio sviluppando tecniche di selezione di soggetti e regioni cerebrali (ROI) basate su procedure di clustering e condotto analisi di sensitività per determinare l'impatto del primo stadio sulla ricostruzione finale da parte del modello.
Visual stimulus reconstruction from BOLD fMRI signal using generative AI
Veronese, Lorenzo
2023/2024
Abstract
Visual neural decoding aims at reconstructing what a subject is looking at, by leveraging brain activity signals. Functional Magnetic Resonance Imaging (fMRI) has emerged as a powerful tool for this purpose, thanks to its ability to detect changes in blood flow in diverse brain regions due to increased neuron demands in response to certain stimuli. Current state-of-the-art techniques map the fMRI-derived beta signal into the latent hierarchical space of deep neural networks and then employ generative Artificial Intelligence (AI) techniques to reconstruct the perceived image building on these predicted latent representations. Recent advancements employ a two-stage reconstruction process. The first stage produces a rough visual approximation using a Very-Deep Variational Autoencoder (VDVAE), while the second stage refines this approximation by incorporating semantic information through a Latent Diffusion Model (LDM) conditioned on Contrastive Language-Image Pretrained (CLIP) embeddings of text and vision. We evolve this pipeline by proposing two alternatives to the traditional first step. The first utilizes a VDVAE with latent variables predicted from the beta signals by a GRU-based neural network, and the second introduces an encoder-decoder network with a semi-supervised training procedure. We validated our approach on the widely-used, open-source Natural Scenes Dataset (NSD) and conducted a retrospective study with two fMRI datasets provided by San Raffaele Hospital in Milan. The diverse acquisition protocols and experimental setup of these ecological datasets allowed us to evaluate the model's performance in more realistic and limited scenarios. Experiments on the NSD demonstrated improvements in SSIM and all semantic metrics relative to the state-of-the-art. Our encoder-decoder architecture combined with LDM also outperformed the VDVAE-based approach on the smaller datasets, denoting higher generalizability. Additionally, we developed a multi-subject model procedure, addressing key limitations in current neural decoding research. We further optimized our approach by developing subject and Region of Interest (ROI) selection techniques based on clustering analysis, as well as conducting a noise sensitivity study to assess the impact of the first-stage reconstruction on overall model performance.File | Dimensione | Formato | |
---|---|---|---|
2024_12_Veronese_Executive Summary.pdf
accessibile in internet per tutti a partire dal 20/11/2027
Descrizione: Executive summary della tesi
Dimensione
1.21 MB
Formato
Adobe PDF
|
1.21 MB | Adobe PDF | Visualizza/Apri |
2024_12_Veronese_Tesi.pdf
accessibile in internet per tutti a partire dal 20/11/2027
Descrizione: Testo della tesi
Dimensione
11.17 MB
Formato
Adobe PDF
|
11.17 MB | Adobe PDF | Visualizza/Apri |
I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/10589/230993