Digital multimedia content has become a leading instrument of information and communication, used in several fields. Focusing on music, a large quantity of software has been developed for several purposes. Recently, new areas of interest were investigated, introducing different popular applications. The research field related to them is Music Information Retrieval (MIR). An open issue of such branch is semantic music description, i.e. the labeling of music excerpts with tags presenting a higher level of abstraction. This task is typically performed by context-based systems, which present several disadvantages. First, the tagging operations have to be performed manually, thus resulting costly, time-consuming, and lacking of objectivity. Then, the information they provide is neither time-varying, nor graded. Content-based systems are able to overcome the described issues. Though, they usually lack of semantic significance. The thesis proposes two content-based systems aiming at generating highly expressive descriptors, time-varying, graded and semantically meaningful. The first one is a semi-automatic approach and employs representative training sets created using a limited set of manually selected excerpts, i.e. seed sets, combined with cluster analysis algorithms. The second one is an automatic paradigm, which makes use of totally unsupervised clustering techniques. Both the systems are supported by optimization processes, which allow to obtain the best clustering results. The partitioning phase is conducted by means of K-means, Fuzzy C-means and SOM. Once the clusters are available, the semantic macro-descriptors are modeled using mixtures of Gaussian functions. A perceptual listening experiment was performed to validate the generated high-level descriptors. Then, a music genre classification test was executed as well. Final results show that the proposed macro-descriptors are semantically comparable to human perception.

I contenuti digitali multimediali hanno acquisito forte rilevanza come strumenti di informazione e comunicazione in molteplici ambiti. Per quanto riguarda il settore musicale, molti prodotti software sono stati sviluppati per vari scopi. Recentemente sono state esplorate nuove aree di interesse, che hanno introdotto diverse applicazioni ormai note. Il campo di ricerca legato ad esse è denominato Music Information Retrieval (MIR), di cui una delle tematiche aperte è la descrizione semantica della musica. Tale problema consiste nell'associare dei metadati con un alto livello di astrazione ai contenuti musicali. Questa operazione viene solitamente eseguita da sistemi basati sul contesto (context-based), i quali presentano alcuni svantaggi: l'associazione dei tag risulta costosa, lunga e non obiettiva, in quanto deve essere svolta manualmente. In più, l'informazione derivata è né tempo-variante, né suddivisa in gradi. I sistemi basati su contenuto (content-based) sono in grado di superare le problematiche illustrate, ma solitamente non possiedono un significato semantico. Il presente lavoro propone due sistemi basati su contenuto con lo scopo di generare dei descrittori altamente espressivi, tempo-varianti, graduati e semanticamente significativi. Il primo è un approccio semi-automatico che utilizza dei training set rappresentativi, chiamati seed set, contenenti un insieme limitato di campioni selezionati manualmente e combinati ad algoritmi di clustering. Il secondo è un paradigma automatico che fa uso di tecniche di clustering totalmente non supervisionate. Entrambi i sistemi sono supportati da processi di ottimizzazione, che permettono di ottenere i migliori risultati di clustering. La fase di partizionamento prevede l'uso di K-means, Fuzzy C-means e SOM. Una volta definiti i cluster, i macro-descrittori semantici vengono creati tramite insiemi di funzioni gaussiane. Un esperimento percettivo di ascolto è stato effettuato per validare i descrittori di alto livello generati. Oltre ad esso, è stato eseguito anche un test di classificazione dei generi musicali. I risultati finali mostrano che i macro-descrittori proposti sono paragonabili semanticamente alla percezione umana.

Example based definition of high level descriptors of musical excerpts

TOTARO, DAVIDE
2010/2011

Abstract

Digital multimedia content has become a leading instrument of information and communication, used in several fields. Focusing on music, a large quantity of software has been developed for several purposes. Recently, new areas of interest were investigated, introducing different popular applications. The research field related to them is Music Information Retrieval (MIR). An open issue of such branch is semantic music description, i.e. the labeling of music excerpts with tags presenting a higher level of abstraction. This task is typically performed by context-based systems, which present several disadvantages. First, the tagging operations have to be performed manually, thus resulting costly, time-consuming, and lacking of objectivity. Then, the information they provide is neither time-varying, nor graded. Content-based systems are able to overcome the described issues. Though, they usually lack of semantic significance. The thesis proposes two content-based systems aiming at generating highly expressive descriptors, time-varying, graded and semantically meaningful. The first one is a semi-automatic approach and employs representative training sets created using a limited set of manually selected excerpts, i.e. seed sets, combined with cluster analysis algorithms. The second one is an automatic paradigm, which makes use of totally unsupervised clustering techniques. Both the systems are supported by optimization processes, which allow to obtain the best clustering results. The partitioning phase is conducted by means of K-means, Fuzzy C-means and SOM. Once the clusters are available, the semantic macro-descriptors are modeled using mixtures of Gaussian functions. A perceptual listening experiment was performed to validate the generated high-level descriptors. Then, a music genre classification test was executed as well. Final results show that the proposed macro-descriptors are semantically comparable to human perception.
ZANONI, MASSIMILIANO
ING V - Scuola di Ingegneria dell'Informazione
23-apr-2012
2010/2011
I contenuti digitali multimediali hanno acquisito forte rilevanza come strumenti di informazione e comunicazione in molteplici ambiti. Per quanto riguarda il settore musicale, molti prodotti software sono stati sviluppati per vari scopi. Recentemente sono state esplorate nuove aree di interesse, che hanno introdotto diverse applicazioni ormai note. Il campo di ricerca legato ad esse è denominato Music Information Retrieval (MIR), di cui una delle tematiche aperte è la descrizione semantica della musica. Tale problema consiste nell'associare dei metadati con un alto livello di astrazione ai contenuti musicali. Questa operazione viene solitamente eseguita da sistemi basati sul contesto (context-based), i quali presentano alcuni svantaggi: l'associazione dei tag risulta costosa, lunga e non obiettiva, in quanto deve essere svolta manualmente. In più, l'informazione derivata è né tempo-variante, né suddivisa in gradi. I sistemi basati su contenuto (content-based) sono in grado di superare le problematiche illustrate, ma solitamente non possiedono un significato semantico. Il presente lavoro propone due sistemi basati su contenuto con lo scopo di generare dei descrittori altamente espressivi, tempo-varianti, graduati e semanticamente significativi. Il primo è un approccio semi-automatico che utilizza dei training set rappresentativi, chiamati seed set, contenenti un insieme limitato di campioni selezionati manualmente e combinati ad algoritmi di clustering. Il secondo è un paradigma automatico che fa uso di tecniche di clustering totalmente non supervisionate. Entrambi i sistemi sono supportati da processi di ottimizzazione, che permettono di ottenere i migliori risultati di clustering. La fase di partizionamento prevede l'uso di K-means, Fuzzy C-means e SOM. Una volta definiti i cluster, i macro-descrittori semantici vengono creati tramite insiemi di funzioni gaussiane. Un esperimento percettivo di ascolto è stato effettuato per validare i descrittori di alto livello generati. Oltre ad esso, è stato eseguito anche un test di classificazione dei generi musicali. I risultati finali mostrano che i macro-descrittori proposti sono paragonabili semanticamente alla percezione umana.
Tesi di laurea Magistrale
File allegati
File Dimensione Formato  
2012_04_Totaro.pdf

accessibile in internet solo dagli utenti autorizzati

Descrizione: Thesis text
Dimensione 12.55 MB
Formato Adobe PDF
12.55 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/50802