In the past few years, the global amount of digital audio content has uncontrollably grown to a level that makes it very difficult to navigate through and browse in. It is, therefore, important to devise and develop analysis and classification tools that will enable high-level content tagging/classification, fast browsing/access to large audio databases. In general, content navigation is still performed using traditional modalities, by exploiting meta-information and descriptors that are manually generated, with inevitable errors. In addition, such tags provide very limited information on the content that they refer to, and they are unable to adequately capture the tendency to visit different styles within a single musical piece (e.g. mood and genre). Content- driven description and classification is, therefore, urgently needed. Unfortunately content-based analysis is generally based on low-level features that are naturally semantically poor, while creating the need for more compact semantic descriptions whose level of abstraction is more familiar to the user and it would allow to build human centered and personalized applications. In order to build effective solutions, from one side it is important to investigate how users understand contents, and how they would like to access them. On the other side, it is important to investigate how to model content and how to capture and represent their semantics. This is the well-known issue of the “gap between low-level and high-level features”. The goal of this thesis is to overcome the limitations of current approaches by exploring a limited number of novel content-based time-varying and highly descriptive high-level features hat are derived from a large number of low-level and mid-level ones. As far as high-level descriptors are concerned, we investigate novel techniques for time-varying emotion-related and non emotion-related descriptors. These descriptors are to be intended defined as in a continuous space (dimensional approach) and trained using short-term clips, in order to capture the evolution over time. Concerning non emotion-related descriptors, we first approach the problem of how to automatically generate suitable training sets and optimize the associated high-level features in terms of discriminant power and informative impact. These descriptors are modeled as the log-likelihood of a Gaussian Mixture Model (GMM). Then, taking advantage of a predefined set of bipolar concepts borrowed by musicological research, we compare the GMM approach to regression functions. As the latter resulted to be more suitable for the problem, we also used it for emotion conceptualization on the Arousal-Valence space. Although the advantages of the dimensional approach, are in the fact that they allow us to better outlines concepts, some application require to reduce the semantic annotation rate (categorization) on the AV space. We performed AV space categorization by applying clustering techniques with some distance functions, on an initial large set of mood tags. In some cases it also useful to reduce the temporal annotation to best capture the evolution over the time of semantic descriptors. In this thesis we introduce a novel music segmentation method based on the evolution of semantic descriptors within the song. As an early example of application we implemented a multimedia playlist generator that updates a music playlist on the fly based on prior information (musical preferences); current descriptors of the song that is being played; and fine-grained and semantically rich descriptors (descriptors of users’ gestures, of environment conditions, etc.). The use of a limited set of semantic macro-descriptor proved to be suitable also for musical genre classification. Additional advantages in using a limited number of high-level features, is the ability to visualize musical descriptors in a natural and, possibly, non-invasive fashion (e.g. color shades).

Gli ultimi hanno sono stati caratterizzati dalla costante crescita dei contenuti audio digitali. La quantità di contenuti audio disponibili in rete oggi é così grande da renderne difficoltosa la navigazione e la ricerca. E’ crescente la necessità dello sviluppo di applicazioni e metodologie per l’analisi e la classificazione che permetta la classificazione/annotazione, l’accesso veloce a la navigazione di contenuti audio in grandi data base. Ancora oggi, in generale, la navigazione, si avvale di paradigmi tradizionali, basati su meta-dati e descrittori assegnati manualmente, con una conseguente alta probabilità di errore. Ancora, questi tag tendono ad avere un carico informativo molto basso e non sono in grado di catturare le variazioni di stile all’interno di un brano musicale (es. stato emotivo percepito e genere musicale). La comunità scientifica si sta concentrando su approcci descrittivi basati direttamente sull’analisi del segnale audio (content-based). Purtroppo le tecniche fino ad ora in uso si basano generalmente su descrittori di basso livello (low-level), che quindi sono semantica- mente poveri. Cresce invece l’esigenza di definire descrittori semantici (descrittori di alto livello) il cui livello di astrazione sia più famigliare all’utente e che permetta la creazione di applicazioni personalizzate. Allo scopo di generare soluzioni effettive, da un lato è importante investigare sulle modalità di acceso ai contenuti audio piú usate e preferite dall’utente. Dall’altro, è importante creare dei modelli rappresentativi dei dati audio che ne catturino le informazioni semantiche. Questa problematica è conosciuta in letteratura come “ gap between low-level and high-level features ”. Lo scopo di questa tesi è quella di superare i limiti degli approcci correnti attraverso la definizione di nuovi descrittori si alto livello (high-level) basati sull’analisi del segnale audio, tempo-varianti e altamente descrittivi derivati da un insieme grande di descrittori di basso e medio livello. Prendendo in esame descrittori di alto livello, abbiamo introdotto nuove tecniche per la definizione di descrittori emozionali e non emozionali, tempo-varianti. Questi descrittori sono definiti in uno spazio continuo (approccio dimensionale) e, allo scopo catturarne l’evoluzione nel tempo, i modelli sono addestrati usando brani musicali brevi. Relativamente ai descrittori non emozionali, affrontiamo prima il problema di come generare automaticamente dataset per l’addestramento e l’ottimizzazione di descrittori associati, in termini di potere discriminante e di coerenza semantica. Questi descrittori sono modellati attraverso la log-likelihood di Gaussian Mixture Model (GMM). Avvantaggiandoci dalla definizione di un insieme di concetti definiti in maniera bipolare (il concetto contrapposto al suo opposto), formalizzati in precedenti studi musicologici, confrontiamo l’approccio basato su GMM e uno basato su funzioni di regressione. Quest’ultimo è risultato essere l’approccio migliore fra i due, per questo lo utilizziamo anche nel processo di concettualizzazione dello stato emotivo nello spazio Arousal-Valence (AV). Sebbene l’approccio dimensionale abbia innumerevoli vantaggi, in alcune applicazioni, per dare una migliore definizione dei concetti, è necessario categorizzare lo spazio semantico AV. In questa tesi abbiamo applicato tecniche di clustering, usando diverse funzioni di distanza, su un insieme ampio di tag rappresentanti i diversi stati emotivi (mood tag). In alcuni casi, per meglio descrivere l’evoluzione di una caratteristica nel tempo, è anche utile applicare una segmentazione che ne delinea i tratti più omogenei. In questa tesi viene introdotta una nuova tecnica di segmentazione basata sull’evoluzione nel tempo dei descrittori di alto livello. A titolo di esempio, in questa tesi è stato anche implementato un generatore automatico di playlist di contenuti multimediali capace di adattare istantaneamente la lista generata a preferenze dell’utente, caratteristiche del brano in esecuzione e caratteristiche ambientali. Per rendere il sistema reattivo a questi stimoli, ogni brano è diviso in segmenti conseguenti (celle), che sono analizzati indipendentemente. L’uso un insieme limitato di descrittori di alto livello è risultato essere anche particolarmente efficace per la classificazione per genere musicale. Un ulteriore vantaggio nell’uso di tali descrittori è la capacità di visualizzazione in maniera naturale e non invasiva (abbinamento di colori).

Content-based macro-descriptors for music classification and multimedia information retrieval

ZANONI, MASSIMILIANO

Abstract

In the past few years, the global amount of digital audio content has uncontrollably grown to a level that makes it very difficult to navigate through and browse in. It is, therefore, important to devise and develop analysis and classification tools that will enable high-level content tagging/classification, fast browsing/access to large audio databases. In general, content navigation is still performed using traditional modalities, by exploiting meta-information and descriptors that are manually generated, with inevitable errors. In addition, such tags provide very limited information on the content that they refer to, and they are unable to adequately capture the tendency to visit different styles within a single musical piece (e.g. mood and genre). Content- driven description and classification is, therefore, urgently needed. Unfortunately content-based analysis is generally based on low-level features that are naturally semantically poor, while creating the need for more compact semantic descriptions whose level of abstraction is more familiar to the user and it would allow to build human centered and personalized applications. In order to build effective solutions, from one side it is important to investigate how users understand contents, and how they would like to access them. On the other side, it is important to investigate how to model content and how to capture and represent their semantics. This is the well-known issue of the “gap between low-level and high-level features”. The goal of this thesis is to overcome the limitations of current approaches by exploring a limited number of novel content-based time-varying and highly descriptive high-level features hat are derived from a large number of low-level and mid-level ones. As far as high-level descriptors are concerned, we investigate novel techniques for time-varying emotion-related and non emotion-related descriptors. These descriptors are to be intended defined as in a continuous space (dimensional approach) and trained using short-term clips, in order to capture the evolution over time. Concerning non emotion-related descriptors, we first approach the problem of how to automatically generate suitable training sets and optimize the associated high-level features in terms of discriminant power and informative impact. These descriptors are modeled as the log-likelihood of a Gaussian Mixture Model (GMM). Then, taking advantage of a predefined set of bipolar concepts borrowed by musicological research, we compare the GMM approach to regression functions. As the latter resulted to be more suitable for the problem, we also used it for emotion conceptualization on the Arousal-Valence space. Although the advantages of the dimensional approach, are in the fact that they allow us to better outlines concepts, some application require to reduce the semantic annotation rate (categorization) on the AV space. We performed AV space categorization by applying clustering techniques with some distance functions, on an initial large set of mood tags. In some cases it also useful to reduce the temporal annotation to best capture the evolution over the time of semantic descriptors. In this thesis we introduce a novel music segmentation method based on the evolution of semantic descriptors within the song. As an early example of application we implemented a multimedia playlist generator that updates a music playlist on the fly based on prior information (musical preferences); current descriptors of the song that is being played; and fine-grained and semantically rich descriptors (descriptors of users’ gestures, of environment conditions, etc.). The use of a limited set of semantic macro-descriptor proved to be suitable also for musical genre classification. Additional advantages in using a limited number of high-level features, is the ability to visualize musical descriptors in a natural and, possibly, non-invasive fashion (e.g. color shades).
FIORINI, CARLO ETTORE
MONTI GUARNIERI, ANDREA
27-mar-2013
Gli ultimi hanno sono stati caratterizzati dalla costante crescita dei contenuti audio digitali. La quantità di contenuti audio disponibili in rete oggi é così grande da renderne difficoltosa la navigazione e la ricerca. E’ crescente la necessità dello sviluppo di applicazioni e metodologie per l’analisi e la classificazione che permetta la classificazione/annotazione, l’accesso veloce a la navigazione di contenuti audio in grandi data base. Ancora oggi, in generale, la navigazione, si avvale di paradigmi tradizionali, basati su meta-dati e descrittori assegnati manualmente, con una conseguente alta probabilità di errore. Ancora, questi tag tendono ad avere un carico informativo molto basso e non sono in grado di catturare le variazioni di stile all’interno di un brano musicale (es. stato emotivo percepito e genere musicale). La comunità scientifica si sta concentrando su approcci descrittivi basati direttamente sull’analisi del segnale audio (content-based). Purtroppo le tecniche fino ad ora in uso si basano generalmente su descrittori di basso livello (low-level), che quindi sono semantica- mente poveri. Cresce invece l’esigenza di definire descrittori semantici (descrittori di alto livello) il cui livello di astrazione sia più famigliare all’utente e che permetta la creazione di applicazioni personalizzate. Allo scopo di generare soluzioni effettive, da un lato è importante investigare sulle modalità di acceso ai contenuti audio piú usate e preferite dall’utente. Dall’altro, è importante creare dei modelli rappresentativi dei dati audio che ne catturino le informazioni semantiche. Questa problematica è conosciuta in letteratura come “ gap between low-level and high-level features ”. Lo scopo di questa tesi è quella di superare i limiti degli approcci correnti attraverso la definizione di nuovi descrittori si alto livello (high-level) basati sull’analisi del segnale audio, tempo-varianti e altamente descrittivi derivati da un insieme grande di descrittori di basso e medio livello. Prendendo in esame descrittori di alto livello, abbiamo introdotto nuove tecniche per la definizione di descrittori emozionali e non emozionali, tempo-varianti. Questi descrittori sono definiti in uno spazio continuo (approccio dimensionale) e, allo scopo catturarne l’evoluzione nel tempo, i modelli sono addestrati usando brani musicali brevi. Relativamente ai descrittori non emozionali, affrontiamo prima il problema di come generare automaticamente dataset per l’addestramento e l’ottimizzazione di descrittori associati, in termini di potere discriminante e di coerenza semantica. Questi descrittori sono modellati attraverso la log-likelihood di Gaussian Mixture Model (GMM). Avvantaggiandoci dalla definizione di un insieme di concetti definiti in maniera bipolare (il concetto contrapposto al suo opposto), formalizzati in precedenti studi musicologici, confrontiamo l’approccio basato su GMM e uno basato su funzioni di regressione. Quest’ultimo è risultato essere l’approccio migliore fra i due, per questo lo utilizziamo anche nel processo di concettualizzazione dello stato emotivo nello spazio Arousal-Valence (AV). Sebbene l’approccio dimensionale abbia innumerevoli vantaggi, in alcune applicazioni, per dare una migliore definizione dei concetti, è necessario categorizzare lo spazio semantico AV. In questa tesi abbiamo applicato tecniche di clustering, usando diverse funzioni di distanza, su un insieme ampio di tag rappresentanti i diversi stati emotivi (mood tag). In alcuni casi, per meglio descrivere l’evoluzione di una caratteristica nel tempo, è anche utile applicare una segmentazione che ne delinea i tratti più omogenei. In questa tesi viene introdotta una nuova tecnica di segmentazione basata sull’evoluzione nel tempo dei descrittori di alto livello. A titolo di esempio, in questa tesi è stato anche implementato un generatore automatico di playlist di contenuti multimediali capace di adattare istantaneamente la lista generata a preferenze dell’utente, caratteristiche del brano in esecuzione e caratteristiche ambientali. Per rendere il sistema reattivo a questi stimoli, ogni brano è diviso in segmenti conseguenti (celle), che sono analizzati indipendentemente. L’uso un insieme limitato di descrittori di alto livello è risultato essere anche particolarmente efficace per la classificazione per genere musicale. Un ulteriore vantaggio nell’uso di tali descrittori è la capacità di visualizzazione in maniera naturale e non invasiva (abbinamento di colori).
Tesi di dottorato
File allegati
File Dimensione Formato  
thesis.pdf

Open Access dal 04/02/2016

Descrizione: Thesis text
Dimensione 4.05 MB
Formato Adobe PDF
4.05 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/74947