This thesis develops a novel approach to describe the relationship between music and emotions through visualization using Metatron and Platonic solids. Integrating advanced visualization techniques involving sacred geometry, interactive user interfaces, and AIdriven music generation, the project introduces three interconnected clients: Latent Space Client (LSC), Metatron Client (MC), and Generative Client (GC). The LSC transforms dataset visualization from 2D to a highly customizable 3D space. The MC employs sacred geometry, specifically Metatron and Platonic solids, to link emotions and audio samples, providing an innovative mapping between shapes and audio features. The GC connects a text-to-music model to visual placeholders to generate prompts, basing the generation process solely on visual aspects without requiring user-written prompts. Technologies used include React 3 Fiber for 3D visualization, Suno for text-to-music generation, and Essentia for feature extraction. The methodology involves sequential real-time data processing from LSC to MC to GC and back to LSC. The results provide a modular system for advanced audio visualization and music generation, offering a circular user experience with continuous re-analysis of generated music samples. This thesis lays the groundwork for future developments in experimental audio visualization based on sacred geometry, with potential for further research and improvements in each client’s capabilities, as well as expansion into additional datasets and broader application areas.

Questa tesi sviluppa un approccio innovativo per descrivere la relazione tra musica ed emozioni attraverso la visualizzazione, utilizzando il Metatron e i solidi platonici. Integrando tecniche avanzate di visualizzazione che coinvolgono la geometria sacra, interfacce utente interattive e generazione musicale basata su IA, il progetto introduce tre client interconnessi: Latent Space Client (LSC), Metatron Client (MC) e Generative Client (GC). Il LSC trasforma la visualizzazione del dataset da 2D a uno spazio 3D altamente personalizzabile. Il MC utilizza la geometria sacra, in particolare il Metatron e i solidi platonici, per collegare emozioni e campioni audio, fornendo una mappatura innovativa tra forme e caratteristiche audio. Il GC collega un modello di text-to-music a segnaposto visivi per generare prompt, basando il processo di generazione esclusivamente sugli aspetti visivi senza richiedere prompt scritti dall’utente. Le tecnologie utilizzate includono React 3 Fiber per la visualizzazione 3D, Suno per la generazione text-to-music ed Essentia per la feature extraction. La metodologia prevede l’elaborazione sequenziale dei dati in tempo reale dal LSC al MC al GC e di nuovo al LSC. I risultati forniscono un sistema modulare per la visualizzazione audio avanzata e la generazione musicale, offrendo un’esperienza circolare all’utente, con una rianalisi continua dei campioni musicali generati. Questa tesi getta le basi per futuri sviluppi per la visualizzazione audio sperimentale basata su geometria sacra, con potenziale per ulteriori ricerche e miglioramenti nelle capacità di ciascun client, nonché un’espansione con ulteriori dataset e aree di applicazione più ampie.

Visualizing music and emotion throughout the Metatron: from audio analysis to music generation

Di MARIA, ALBERTO
2023/2024

Abstract

This thesis develops a novel approach to describe the relationship between music and emotions through visualization using Metatron and Platonic solids. Integrating advanced visualization techniques involving sacred geometry, interactive user interfaces, and AIdriven music generation, the project introduces three interconnected clients: Latent Space Client (LSC), Metatron Client (MC), and Generative Client (GC). The LSC transforms dataset visualization from 2D to a highly customizable 3D space. The MC employs sacred geometry, specifically Metatron and Platonic solids, to link emotions and audio samples, providing an innovative mapping between shapes and audio features. The GC connects a text-to-music model to visual placeholders to generate prompts, basing the generation process solely on visual aspects without requiring user-written prompts. Technologies used include React 3 Fiber for 3D visualization, Suno for text-to-music generation, and Essentia for feature extraction. The methodology involves sequential real-time data processing from LSC to MC to GC and back to LSC. The results provide a modular system for advanced audio visualization and music generation, offering a circular user experience with continuous re-analysis of generated music samples. This thesis lays the groundwork for future developments in experimental audio visualization based on sacred geometry, with potential for further research and improvements in each client’s capabilities, as well as expansion into additional datasets and broader application areas.
ACCARDI, MARCO
ING - Scuola di Ingegneria Industriale e dell'Informazione
17-lug-2024
2023/2024
Questa tesi sviluppa un approccio innovativo per descrivere la relazione tra musica ed emozioni attraverso la visualizzazione, utilizzando il Metatron e i solidi platonici. Integrando tecniche avanzate di visualizzazione che coinvolgono la geometria sacra, interfacce utente interattive e generazione musicale basata su IA, il progetto introduce tre client interconnessi: Latent Space Client (LSC), Metatron Client (MC) e Generative Client (GC). Il LSC trasforma la visualizzazione del dataset da 2D a uno spazio 3D altamente personalizzabile. Il MC utilizza la geometria sacra, in particolare il Metatron e i solidi platonici, per collegare emozioni e campioni audio, fornendo una mappatura innovativa tra forme e caratteristiche audio. Il GC collega un modello di text-to-music a segnaposto visivi per generare prompt, basando il processo di generazione esclusivamente sugli aspetti visivi senza richiedere prompt scritti dall’utente. Le tecnologie utilizzate includono React 3 Fiber per la visualizzazione 3D, Suno per la generazione text-to-music ed Essentia per la feature extraction. La metodologia prevede l’elaborazione sequenziale dei dati in tempo reale dal LSC al MC al GC e di nuovo al LSC. I risultati forniscono un sistema modulare per la visualizzazione audio avanzata e la generazione musicale, offrendo un’esperienza circolare all’utente, con una rianalisi continua dei campioni musicali generati. Questa tesi getta le basi per futuri sviluppi per la visualizzazione audio sperimentale basata su geometria sacra, con potenziale per ulteriori ricerche e miglioramenti nelle capacità di ciascun client, nonché un’espansione con ulteriori dataset e aree di applicazione più ampie.
File allegati
File Dimensione Formato  
2024_07_Di_Maria_Executive_Summary.pdf

accessibile in internet per tutti a partire dal 01/07/2027

Dimensione 940.78 kB
Formato Adobe PDF
940.78 kB Adobe PDF   Visualizza/Apri
2024_07_Di_Maria_Tesi.pdf

accessibile in internet per tutti a partire dal 01/07/2027

Dimensione 1.31 MB
Formato Adobe PDF
1.31 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/223785