The creation of synchronized, high-fidelity multimodal content represents a significant frontier in generative artificial intelligence. While diffusion-based models have achieved remarkable success in single-modality generation, the central challenge has shifted to ensuring true multimodal coherence. A dominant paradigm for this task involves aligning modalities in a shared embedding space using pairwise metrics like cosine similarity. However, this approach is often suboptimal, as it fails to mathematically guarantee the direct alignment of all modalities simultaneously, leading to a loss of holistic understanding and potential degradation in performance, especially in complex scenarios. This thesis addresses this limitation by introducing a novel framework for video-to-audio synthesis. We propose integrating a geometrically-grounded alignment mechanism, the Gramian Representation Alignment Measure (GRAM), into the denoising process of a pre-trained latent diffusion model. Instead of relying on an aggregation of separate pairwise comparisons, our method steers the generation process with a single, unified signal: the volume of the k-dimensional parallelotope spanned by the embedding vectors of all modalities. A smaller volume signifies a stronger geometric and semantic alignment, and by guiding the generation to minimize this volume, we enforce a more complete and mathematically sound coherence between all modalities at once. To validate our approach, we conducted a rigorous set of experiments comparing our GRAM-guided model against a strong baseline that uses the ImageBind pairwise alignment method. The evaluation was performed on the event-centric VGGSound dataset and the more complex, ambient AudioCaps dataset to test for generalization under a significant domain shift. The findings demonstrate that the GRAM-guided model achieves superior performance in terms of both objective audio quality and audio-visual synchronization. The most significant finding is the model's remarkable robustness; it maintains high performance across different video sampling strategies and on the challenging out-of-domain dataset, confirming the efficacy and potential of using holistic geometric principles to build more reliable and coherent multimodal generative systems. The official repository of this work is available at https://github.com/Zulino/GRAM-LDM.

La creazione di contenuti multimodali sincronizzati e ad alta fedeltà rappresenta un compito chiave nell’intelligenza artificiale generativa. Sebbene i modelli basati sulla diffusione abbiano ottenuto risultati notevoli nella generazione unimodale, la sfida centrale è ora garantire una vera coerenza multimodale. Il paradigma dominante prevede l’allineamento delle modalità in uno spazio di embedding condiviso tramite metriche a coppie, come la similarità coseno. Tuttavia, questo approccio è spesso non ottimale: non garantisce matematicamente l’allineamento diretto e simultaneo di tutte le modalità, con conseguente perdita di comprensione olistica e potenziale degrado delle prestazioni, soprattutto in scenari complessi. Questa tesi affronta tale limite introducendo un nuovo framework per la sintesi video‑to‑audio. Proponiamo di integrare un meccanismo di allineamento radicato in concetti geometrici, il Gramian Representation Alignment Measure (GRAM), nel processo di denoising di un modello di diffusione latente pre-addestrato. Invece di aggregare confronti a coppie separati, il nostro metodo guida la generazione con un unico segnale unificato: il volume del parallelotopo k-dimensionale teso dai vettori di embedding di tutte le modalità. Un volume più piccolo indica un allineamento geometrico e semantico più forte; minimizzandolo durante la generazione, imponiamo una coerenza più completa e matematicamente solida tra tutte le modalità contemporaneamente. Per validare l’approccio, abbiamo condotto una serie rigorosa di esperimenti confrontando il modello guidato da GRAM con una solida baseline basata sull’allineamento pairwise di ImageBind. La valutazione è stata eseguita sul dataset event‑centric VGGSound e sul più complesso e ambient-centric AudioCaps, per testare la generalizzazione sotto un marcato domain shift. I risultati mostrano che il modello GRAM ottiene prestazioni superiori sia in termini di qualità audio oggettiva sia di sincronizzazione audio‑visiva. Il risultato più rilevante è la notevole robustezza: il modello mantiene performance elevate con diverse strategie di campionamento video e sul difficile dataset out‑of‑domain, confermando l’efficacia e il potenziale di principi geometrici olistici nel costruire sistemi generativi multimodali più affidabili e coerenti. La repository ufficiale è disponibile su https://github.com/Zulino/GRAM-LDM.

Gramian multimodal alignment for video to audio generation

Galadini, Giuliano
2024/2025

Abstract

The creation of synchronized, high-fidelity multimodal content represents a significant frontier in generative artificial intelligence. While diffusion-based models have achieved remarkable success in single-modality generation, the central challenge has shifted to ensuring true multimodal coherence. A dominant paradigm for this task involves aligning modalities in a shared embedding space using pairwise metrics like cosine similarity. However, this approach is often suboptimal, as it fails to mathematically guarantee the direct alignment of all modalities simultaneously, leading to a loss of holistic understanding and potential degradation in performance, especially in complex scenarios. This thesis addresses this limitation by introducing a novel framework for video-to-audio synthesis. We propose integrating a geometrically-grounded alignment mechanism, the Gramian Representation Alignment Measure (GRAM), into the denoising process of a pre-trained latent diffusion model. Instead of relying on an aggregation of separate pairwise comparisons, our method steers the generation process with a single, unified signal: the volume of the k-dimensional parallelotope spanned by the embedding vectors of all modalities. A smaller volume signifies a stronger geometric and semantic alignment, and by guiding the generation to minimize this volume, we enforce a more complete and mathematically sound coherence between all modalities at once. To validate our approach, we conducted a rigorous set of experiments comparing our GRAM-guided model against a strong baseline that uses the ImageBind pairwise alignment method. The evaluation was performed on the event-centric VGGSound dataset and the more complex, ambient AudioCaps dataset to test for generalization under a significant domain shift. The findings demonstrate that the GRAM-guided model achieves superior performance in terms of both objective audio quality and audio-visual synchronization. The most significant finding is the model's remarkable robustness; it maintains high performance across different video sampling strategies and on the challenging out-of-domain dataset, confirming the efficacy and potential of using holistic geometric principles to build more reliable and coherent multimodal generative systems. The official repository of this work is available at https://github.com/Zulino/GRAM-LDM.
COMMINIELLO, DANILO
ING - Scuola di Ingegneria Industriale e dell'Informazione
21-ott-2025
2024/2025
La creazione di contenuti multimodali sincronizzati e ad alta fedeltà rappresenta un compito chiave nell’intelligenza artificiale generativa. Sebbene i modelli basati sulla diffusione abbiano ottenuto risultati notevoli nella generazione unimodale, la sfida centrale è ora garantire una vera coerenza multimodale. Il paradigma dominante prevede l’allineamento delle modalità in uno spazio di embedding condiviso tramite metriche a coppie, come la similarità coseno. Tuttavia, questo approccio è spesso non ottimale: non garantisce matematicamente l’allineamento diretto e simultaneo di tutte le modalità, con conseguente perdita di comprensione olistica e potenziale degrado delle prestazioni, soprattutto in scenari complessi. Questa tesi affronta tale limite introducendo un nuovo framework per la sintesi video‑to‑audio. Proponiamo di integrare un meccanismo di allineamento radicato in concetti geometrici, il Gramian Representation Alignment Measure (GRAM), nel processo di denoising di un modello di diffusione latente pre-addestrato. Invece di aggregare confronti a coppie separati, il nostro metodo guida la generazione con un unico segnale unificato: il volume del parallelotopo k-dimensionale teso dai vettori di embedding di tutte le modalità. Un volume più piccolo indica un allineamento geometrico e semantico più forte; minimizzandolo durante la generazione, imponiamo una coerenza più completa e matematicamente solida tra tutte le modalità contemporaneamente. Per validare l’approccio, abbiamo condotto una serie rigorosa di esperimenti confrontando il modello guidato da GRAM con una solida baseline basata sull’allineamento pairwise di ImageBind. La valutazione è stata eseguita sul dataset event‑centric VGGSound e sul più complesso e ambient-centric AudioCaps, per testare la generalizzazione sotto un marcato domain shift. I risultati mostrano che il modello GRAM ottiene prestazioni superiori sia in termini di qualità audio oggettiva sia di sincronizzazione audio‑visiva. Il risultato più rilevante è la notevole robustezza: il modello mantiene performance elevate con diverse strategie di campionamento video e sul difficile dataset out‑of‑domain, confermando l’efficacia e il potenziale di principi geometrici olistici nel costruire sistemi generativi multimodali più affidabili e coerenti. La repository ufficiale è disponibile su https://github.com/Zulino/GRAM-LDM.
File allegati
File Dimensione Formato  
Executive_Summary_di_Giuliano_Galadini.pdf

accessibile in internet per tutti a partire dal 21/09/2026

Descrizione: Executive summary
Dimensione 6.08 MB
Formato Adobe PDF
6.08 MB Adobe PDF   Visualizza/Apri
Tesi_di_Giuliano_Galadini.pdf

accessibile in internet per tutti a partire dal 21/09/2026

Descrizione: Tesi Magistrale
Dimensione 6.67 MB
Formato Adobe PDF
6.67 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/243166