We define as a Networked Music Performances (NMPs) what occurs when musicians, displaced in different geographic locations, interact over a network to perform as if they were in the same room. The first NMP-related experiments happened in the 1970s, when only interconnection between local networks was possible. Recent developments of communication technologies and the consequent increase of the speed of digital networks produced the conditions for a dramatic decrease of virtual distances, creating a fertile environment for the development of NMPs. However, high speed networks do not suffice by themselves in creating an environment for NMP that feels engaging to the musicians, since this is a task that requires to tackle several problems depending on different NMP requirements. We may define the two broad classes of problems that need to be considered in NMPs as temporal and spatial factors. Temporal factors refer to all the elements that concur in enabling the synchronization of the musicians, which is often hindered due to the inherent latency present in network transmission, which causes the musician to listen to a delayed version of the audio generated by the co-performer/s. Spatial factors instead refer to all the issues related to the audiovisual perception of the musicians. More specifically, the visual feedback is usually created through the adoption of screens and projectors. Auditory feedback is instead often provided through loudspeakers and/or headphones. The importance of the audio perception is twofold: the quality of the sound must be of a sufficient level, since musicians must be able to clearly hear the loudness and timbre of the other instruments, in order to consequently modify their playing; the perceived direction of the audio should be coherent with the visual setup, this entails correctly locating the remote musicians in the respective environments, to modify their relative position according to the position of the screen and of the musicians actually located in the other rooms. While several softwares and techniques have been proposed to separately solve the various issues that comes with creating a realistic NMP, no comprehensive solution has been yet proposed. In this Ph. D. thesis, we propose an across-the-board framework for NMPs that aims at solving at the same time both spatial and temporal factors, denoted Intelligent networked Music PERforMANce ExperieNCEs (IMPERMANENCE). We base our approach on signal processing techniques, both in order to extract useful information regarding the performance (e.g. tempo) or spatial characteristics of the environment (e.g. position of the performers) and to process the sound emitted by them (e.g. spatial synthesis of the recorded sound generated by a performer). Signal Processing techniques are characterized by a strong set of mathematical and physical constraints that may lead to conditions undesirable in a NMP scenario. More specifically, the limits posed by the Nyquist frequency in space-time audio processing pose some constraints related to the number of sensors needed for proper sampling. The amount of sensors needed could not be deployable in some NMP scenarios. We solve this issue through the application of deep learning-based techniques that enable us to devise functions, without analytically deriving them, that are able to overcome the limits of signal processing by performing in adverse scenarios where the sensors used for sound acquisition do not follow the proper sampling rules. We first analyze what are the main requirements that need to be taken into account in order to create a satisfying NMP experience. For this purpose we first create a research framework, denoted neTworkEd Music PErfoRmANCe rEsearch (TEMPERANCE) in order to organize experiments with real musicians and analyze the obtained results. Informed by these findings, we accordingly develop the IMPERMANENCE framework. In the IMPERMANENCE framework, the solution of the time-related issues is tackled through the adoption of adaptive metronomes, that consist of metronomes (i.e. devices that produce an auditory tick at a predefined tempo) that can vary their tempo based on a beat tracker (i.e. a technique for the extraction of the tempo from audio recordings) applied to the sound emitted by the musicians. Since results obtained through the TEMPERANCE framework demonstrate that the needs of the visual perception can be satisfied through simple screen configurations, we decide to concentrate on the auditory perception. Specifically, we aim at reproducing the audio of the musicians so that their perceived location (i.e. directionality) is coherent with the visual feedback for all musicians connected via network. In order to do this, the first step is that of correctly localizing the position of the sound emitted by the instrument of the musician, needed in order to properly render its directionality. We propose two different localization techniques, which vary with respect to the needed setup and computational power. Informed by the location of the musicians, we can then synthesize the soundfield emitted through a technique based on irregular loudspeaker arrays. Finally we propose a technique for the compression of the audio information that needs to be sent through the network. In particular, this procedure could help in diminishing the impact due to the latency, since it would imply a smaller number of packets that need to be sent through the network. We propose a technique that is able to reconstruct the audio extracted While research in NMP has been conducted for decades, is only in the most recent years that the possibility of NMP softwares widely-diffused among a general population of musicians has become a reality. However, no software/research trend considers at the same time all the various aspects of a NMP, such as temporal and spatial factors. We believe that this Ph. D. thesis and the IMPERMANENCE framework can be considered as a first step into this direction, that is, the creation of a unified platform for remote performances, where the physical separation between musicians can be overcome by the advancements of science and technology.

Possiamo definire come Networked Music Performances (NMPs) ciò che accade quando dei musicisti, dislocati in luoghi fisici diversi, interagiscono attraverso una rete per esibirsi come se si trovassero nella stessa stanza. I primi esperimenti legati a NMP sono avvenuti negli anni '70, quando era possibile solo l'interconnessione tra reti locali. I recenti sviluppi delle tecnologie di comunicazione e il conseguente aumento della velocità delle reti digitali hanno prodotto le condizioni per una drastica diminuzione delle distanze virtuali, creando un ambiente fertile per lo sviluppo delle NMP. Tuttavia, le reti ad alta velocità non bastano da sole a creare un ambiente per la NMP che sia coinvolgente per i musicisti, poiché questo è un compito che richiede di affrontare diversi problemi a seconda delle esigenze dei singoli contesti in cui la performance avviene. Possiamo definire le due grandi classi di problemi che devono essere considerati nelle NMP come fattori temporali e spaziali. I fattori temporali si riferiscono a tutti gli elementi che concorrono a permettere la sincronizzazione dei musicisti, che spesso è ostacolata dalla latenza intrinseca presente nella trasmissione in rete, la quale porta il musicista ad ascoltare una versione ritardata dell'audio generato dal/i co-esecutori. I fattori spaziali si riferiscono invece a tutte le questioni relative alla percezione audiovisiva dei musicisti. Nello specifico, il feedback visivo viene solitamente creato attraverso l'adozione di schermi e proiettori. Il feedback uditivo è invece spesso fornito attraverso altoparlanti e/o cuffie. L'importanza della percezione audio è duplice: la qualità del suono deve essere di livello sufficiente, poiché i musicisti devono essere in grado di sentire chiaramente il volume e il timbro degli altri strumenti, in modo da modificare di conseguenza il loro modo di suonare; la direzione percepita dell'audio deve essere invece coerente con il setup visivo, per fare questo è necessario localizzare i musicisti nei rispettivi ambienti remoti, per poi modificare la loro posizione relativa in base alla posizione dello schermo e dei musicisti effettivamente presenti nelle altre stanze. Mentre diversi software e tecniche sono stati proposti per risolvere separatamente i vari problemi che derivano dalla creazione di un NMP realistico, nessuna soluzione completa è stata ancora proposta. In questa tesi di dottorato, proponiamo una struttura trasversale per NMPs che mira a risolvere allo stesso tempo sia i fattori spaziali che quelli temporali, denominata Intelligent networked Music PERforMANce ExperieNCEs (IMPERMANENCE). Basiamo il nostro approccio su tecniche di elaborazione dei segnali, sia per estrarre informazioni utili riguardanti l'esecuzione (ad esempio il tempo) o le caratteristiche spaziali dell'ambiente (ad esempio la posizione degli esecutori), sia per elaborare il suono emesso da essi (ad esempio la sintesi spaziale del suono registrato generato da un esecutore). Le tecniche di elaborazione dei segnali sono caratterizzate da un forte insieme di vincoli matematici e fisici che possono portare a condizioni indesiderabili in uno scenario NMP. Più specificamente, i limiti posti dalla frequenza di Nyquist nell'elaborazione audio spazio-temporale pongono alcuni vincoli relativi al numero di sensori necessari per un corretto campionamento. La quantità di sensori necessari potrebbe non essere utilizzabile in alcuni scenari NMP. Risolviamo questo problema tramite l'applicazione di tecniche basate sul deep learning che ci permettono di ricavare funzioni, senza derivarle analiticamente, in grado di superare i limiti dell'elaborazione del segnale e di essere utilizzabili in scenari ostici dove i sensori utilizzati per l'acquisizione del suono non seguono le regole di campionamento corretto. Per prima cosa analizziamo quali sono i principali requisiti che devono essere presi in considerazione per creare un'esperienza NMP soddisfacente. A questo scopo creiamo un quadro concettuale di ricerca, denominato neTworkEd Music PErfoRmANCe rEsearch (TEMPERANCE) il quale ci permette di organizzare esperimenti con musicisti reali e analizzare i risultati ottenuti. Sulla base di questi risultati, sviluppiamo di conseguenza il IMPERMANENCE. Nel quadro concettuale denominato IMPERMANENCE, la soluzione dei problemi legati ai fattori temporali viene affrontata attraverso l'adozione di metronomi adattivi, che consistono in metronomi (cioè dispositivi che producono un ticchettio uditivo ad un tempo predefinito) che possono variare il loro tempo in base ad un sistema di tracciamento automatico del ritmo (cioè una tecnica per l'estrazione del tempo da registrazioni audio) applicato al suono emesso dai musicisti. Poiché i risultati ottenuti attraverso il quadro concettuale TEMPERANCE dimostrano che le esigenze della percezione visiva possono essere soddisfatte attraverso semplici configurazioni di schermi, decidiamo di concentrarci sulla percezione uditiva. In particolare, il nostro obbiettivo è riprodurre l'audio dei musicisti in modo che la loro posizione percepita (cioè la direzionalità) sia coerente con il feedback visivo per tutti i musicisti collegati in rete. Per fare questo, il primo passo è quello di localizzare correttamente la posizione del suono emesso dallo strumento del musicista, necessario per rendere correttamente la sua direzionalità. Proponiamo due diverse tecniche di localizzazione, che variano rispetto al setup necessario e alla potenza di calcolo. Grazie alla stima della posizione dei musicisti, possiamo poi sintetizzare il campo sonoro emesso attraverso una tecnica basata su schiere di altoparlanti irregolari. Infine proponiamo una tecnica per la compressione delle informazioni audio che devono essere inviate attraverso la rete. In particolare, questa procedura potrebbe aiutare a diminuire l'impatto dovuto alla latenza, poiché implicherebbe un minor numero di pacchetti che devono essere inviati attraverso la rete. Proponiamo una tecnica che è in grado di ricostruire l'audio estratto Mentre la ricerca in NMP è stata condotta per decenni, è solo negli ultimi anni che la possibilità di software NMP ampiamente diffusa tra i musicisti è diventata una realtà. Tuttavia, nessun software o campo di ricerca considera allo stesso tempo tutti i vari aspetti di una NMP, come i fattori temporali e spaziali. Crediamo che questa tesi di dottorato e il framework IMPERMANENCE possano essere considerati come un primo passo in questa direzione, cioè la creazione di una piattaforma unificata per le performance a distanza, dove la separazione fisica tra i musicisti possa essere superata attraverso i progressi della scienza e della tecnologia.

Intelligent networked music PERforMANce ExperieNCEs (IMPERMANENCE)

Comanducci, Luca
2021/2022

Abstract

We define as a Networked Music Performances (NMPs) what occurs when musicians, displaced in different geographic locations, interact over a network to perform as if they were in the same room. The first NMP-related experiments happened in the 1970s, when only interconnection between local networks was possible. Recent developments of communication technologies and the consequent increase of the speed of digital networks produced the conditions for a dramatic decrease of virtual distances, creating a fertile environment for the development of NMPs. However, high speed networks do not suffice by themselves in creating an environment for NMP that feels engaging to the musicians, since this is a task that requires to tackle several problems depending on different NMP requirements. We may define the two broad classes of problems that need to be considered in NMPs as temporal and spatial factors. Temporal factors refer to all the elements that concur in enabling the synchronization of the musicians, which is often hindered due to the inherent latency present in network transmission, which causes the musician to listen to a delayed version of the audio generated by the co-performer/s. Spatial factors instead refer to all the issues related to the audiovisual perception of the musicians. More specifically, the visual feedback is usually created through the adoption of screens and projectors. Auditory feedback is instead often provided through loudspeakers and/or headphones. The importance of the audio perception is twofold: the quality of the sound must be of a sufficient level, since musicians must be able to clearly hear the loudness and timbre of the other instruments, in order to consequently modify their playing; the perceived direction of the audio should be coherent with the visual setup, this entails correctly locating the remote musicians in the respective environments, to modify their relative position according to the position of the screen and of the musicians actually located in the other rooms. While several softwares and techniques have been proposed to separately solve the various issues that comes with creating a realistic NMP, no comprehensive solution has been yet proposed. In this Ph. D. thesis, we propose an across-the-board framework for NMPs that aims at solving at the same time both spatial and temporal factors, denoted Intelligent networked Music PERforMANce ExperieNCEs (IMPERMANENCE). We base our approach on signal processing techniques, both in order to extract useful information regarding the performance (e.g. tempo) or spatial characteristics of the environment (e.g. position of the performers) and to process the sound emitted by them (e.g. spatial synthesis of the recorded sound generated by a performer). Signal Processing techniques are characterized by a strong set of mathematical and physical constraints that may lead to conditions undesirable in a NMP scenario. More specifically, the limits posed by the Nyquist frequency in space-time audio processing pose some constraints related to the number of sensors needed for proper sampling. The amount of sensors needed could not be deployable in some NMP scenarios. We solve this issue through the application of deep learning-based techniques that enable us to devise functions, without analytically deriving them, that are able to overcome the limits of signal processing by performing in adverse scenarios where the sensors used for sound acquisition do not follow the proper sampling rules. We first analyze what are the main requirements that need to be taken into account in order to create a satisfying NMP experience. For this purpose we first create a research framework, denoted neTworkEd Music PErfoRmANCe rEsearch (TEMPERANCE) in order to organize experiments with real musicians and analyze the obtained results. Informed by these findings, we accordingly develop the IMPERMANENCE framework. In the IMPERMANENCE framework, the solution of the time-related issues is tackled through the adoption of adaptive metronomes, that consist of metronomes (i.e. devices that produce an auditory tick at a predefined tempo) that can vary their tempo based on a beat tracker (i.e. a technique for the extraction of the tempo from audio recordings) applied to the sound emitted by the musicians. Since results obtained through the TEMPERANCE framework demonstrate that the needs of the visual perception can be satisfied through simple screen configurations, we decide to concentrate on the auditory perception. Specifically, we aim at reproducing the audio of the musicians so that their perceived location (i.e. directionality) is coherent with the visual feedback for all musicians connected via network. In order to do this, the first step is that of correctly localizing the position of the sound emitted by the instrument of the musician, needed in order to properly render its directionality. We propose two different localization techniques, which vary with respect to the needed setup and computational power. Informed by the location of the musicians, we can then synthesize the soundfield emitted through a technique based on irregular loudspeaker arrays. Finally we propose a technique for the compression of the audio information that needs to be sent through the network. In particular, this procedure could help in diminishing the impact due to the latency, since it would imply a smaller number of packets that need to be sent through the network. We propose a technique that is able to reconstruct the audio extracted While research in NMP has been conducted for decades, is only in the most recent years that the possibility of NMP softwares widely-diffused among a general population of musicians has become a reality. However, no software/research trend considers at the same time all the various aspects of a NMP, such as temporal and spatial factors. We believe that this Ph. D. thesis and the IMPERMANENCE framework can be considered as a first step into this direction, that is, the creation of a unified platform for remote performances, where the physical separation between musicians can be overcome by the advancements of science and technology.
PIRODDI, LUIGI
CESANA, MATTEO
ANTONACCI, FABIO
25-feb-2022
Intelligent networked music PERforMANce ExperieNCEs (IMPERMANENCE)
Possiamo definire come Networked Music Performances (NMPs) ciò che accade quando dei musicisti, dislocati in luoghi fisici diversi, interagiscono attraverso una rete per esibirsi come se si trovassero nella stessa stanza. I primi esperimenti legati a NMP sono avvenuti negli anni '70, quando era possibile solo l'interconnessione tra reti locali. I recenti sviluppi delle tecnologie di comunicazione e il conseguente aumento della velocità delle reti digitali hanno prodotto le condizioni per una drastica diminuzione delle distanze virtuali, creando un ambiente fertile per lo sviluppo delle NMP. Tuttavia, le reti ad alta velocità non bastano da sole a creare un ambiente per la NMP che sia coinvolgente per i musicisti, poiché questo è un compito che richiede di affrontare diversi problemi a seconda delle esigenze dei singoli contesti in cui la performance avviene. Possiamo definire le due grandi classi di problemi che devono essere considerati nelle NMP come fattori temporali e spaziali. I fattori temporali si riferiscono a tutti gli elementi che concorrono a permettere la sincronizzazione dei musicisti, che spesso è ostacolata dalla latenza intrinseca presente nella trasmissione in rete, la quale porta il musicista ad ascoltare una versione ritardata dell'audio generato dal/i co-esecutori. I fattori spaziali si riferiscono invece a tutte le questioni relative alla percezione audiovisiva dei musicisti. Nello specifico, il feedback visivo viene solitamente creato attraverso l'adozione di schermi e proiettori. Il feedback uditivo è invece spesso fornito attraverso altoparlanti e/o cuffie. L'importanza della percezione audio è duplice: la qualità del suono deve essere di livello sufficiente, poiché i musicisti devono essere in grado di sentire chiaramente il volume e il timbro degli altri strumenti, in modo da modificare di conseguenza il loro modo di suonare; la direzione percepita dell'audio deve essere invece coerente con il setup visivo, per fare questo è necessario localizzare i musicisti nei rispettivi ambienti remoti, per poi modificare la loro posizione relativa in base alla posizione dello schermo e dei musicisti effettivamente presenti nelle altre stanze. Mentre diversi software e tecniche sono stati proposti per risolvere separatamente i vari problemi che derivano dalla creazione di un NMP realistico, nessuna soluzione completa è stata ancora proposta. In questa tesi di dottorato, proponiamo una struttura trasversale per NMPs che mira a risolvere allo stesso tempo sia i fattori spaziali che quelli temporali, denominata Intelligent networked Music PERforMANce ExperieNCEs (IMPERMANENCE). Basiamo il nostro approccio su tecniche di elaborazione dei segnali, sia per estrarre informazioni utili riguardanti l'esecuzione (ad esempio il tempo) o le caratteristiche spaziali dell'ambiente (ad esempio la posizione degli esecutori), sia per elaborare il suono emesso da essi (ad esempio la sintesi spaziale del suono registrato generato da un esecutore). Le tecniche di elaborazione dei segnali sono caratterizzate da un forte insieme di vincoli matematici e fisici che possono portare a condizioni indesiderabili in uno scenario NMP. Più specificamente, i limiti posti dalla frequenza di Nyquist nell'elaborazione audio spazio-temporale pongono alcuni vincoli relativi al numero di sensori necessari per un corretto campionamento. La quantità di sensori necessari potrebbe non essere utilizzabile in alcuni scenari NMP. Risolviamo questo problema tramite l'applicazione di tecniche basate sul deep learning che ci permettono di ricavare funzioni, senza derivarle analiticamente, in grado di superare i limiti dell'elaborazione del segnale e di essere utilizzabili in scenari ostici dove i sensori utilizzati per l'acquisizione del suono non seguono le regole di campionamento corretto. Per prima cosa analizziamo quali sono i principali requisiti che devono essere presi in considerazione per creare un'esperienza NMP soddisfacente. A questo scopo creiamo un quadro concettuale di ricerca, denominato neTworkEd Music PErfoRmANCe rEsearch (TEMPERANCE) il quale ci permette di organizzare esperimenti con musicisti reali e analizzare i risultati ottenuti. Sulla base di questi risultati, sviluppiamo di conseguenza il IMPERMANENCE. Nel quadro concettuale denominato IMPERMANENCE, la soluzione dei problemi legati ai fattori temporali viene affrontata attraverso l'adozione di metronomi adattivi, che consistono in metronomi (cioè dispositivi che producono un ticchettio uditivo ad un tempo predefinito) che possono variare il loro tempo in base ad un sistema di tracciamento automatico del ritmo (cioè una tecnica per l'estrazione del tempo da registrazioni audio) applicato al suono emesso dai musicisti. Poiché i risultati ottenuti attraverso il quadro concettuale TEMPERANCE dimostrano che le esigenze della percezione visiva possono essere soddisfatte attraverso semplici configurazioni di schermi, decidiamo di concentrarci sulla percezione uditiva. In particolare, il nostro obbiettivo è riprodurre l'audio dei musicisti in modo che la loro posizione percepita (cioè la direzionalità) sia coerente con il feedback visivo per tutti i musicisti collegati in rete. Per fare questo, il primo passo è quello di localizzare correttamente la posizione del suono emesso dallo strumento del musicista, necessario per rendere correttamente la sua direzionalità. Proponiamo due diverse tecniche di localizzazione, che variano rispetto al setup necessario e alla potenza di calcolo. Grazie alla stima della posizione dei musicisti, possiamo poi sintetizzare il campo sonoro emesso attraverso una tecnica basata su schiere di altoparlanti irregolari. Infine proponiamo una tecnica per la compressione delle informazioni audio che devono essere inviate attraverso la rete. In particolare, questa procedura potrebbe aiutare a diminuire l'impatto dovuto alla latenza, poiché implicherebbe un minor numero di pacchetti che devono essere inviati attraverso la rete. Proponiamo una tecnica che è in grado di ricostruire l'audio estratto Mentre la ricerca in NMP è stata condotta per decenni, è solo negli ultimi anni che la possibilità di software NMP ampiamente diffusa tra i musicisti è diventata una realtà. Tuttavia, nessun software o campo di ricerca considera allo stesso tempo tutti i vari aspetti di una NMP, come i fattori temporali e spaziali. Crediamo che questa tesi di dottorato e il framework IMPERMANENCE possano essere considerati come un primo passo in questa direzione, cioè la creazione di una piattaforma unificata per le performance a distanza, dove la separazione fisica tra i musicisti possa essere superata attraverso i progressi della scienza e della tecnologia.
File allegati
File Dimensione Formato  
thesis.pdf

accessibile in internet solo dagli utenti autorizzati

Descrizione: tesi dottorato
Dimensione 31.61 MB
Formato Adobe PDF
31.61 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/183695