The advertisement aired by radio broadcasters is one of their major incomes. The provider, i.e. the company which owns the radio station, and the customer, i.e. whichever subject interested in advertising a product, sign a contract in which some aspects of the advertisement campaign are specified. Therefore it is evident the usefulness of an automatic system which is capable of assess the compliance with the contractual terms. A primary requirement for such a system is to be able to univocally and as accurately as possible identify a specific commercial break. In this Thesis we analyze two Neural Networks approaches to carry out the first step of the identification, i.e. the generic recognition of advertisement segments among all the other audio contents. The first model consists of a deep convolutional network which, taking an audio excerpt as input, it is capable of responding with its probability of being an advertisement. The second model is based on the TCN (Temporal Convolutional Network) architecture employed to extract from the audio input the music and speech energies. Moreover, to accomplish the training of these two Neural Networks, we col- lected advertising, music and speech audio samples from some italian radio broad- casts, then gathered in MUSPAD (MUsic, SPeech and ADvertisement) dataset. The first model outperformed the second one in all the experimental results. These noteworthy performances let us think that such a model might be employed, within the advertisement identification system, in an industrial context.

La pubblicità trasmessa alla radio è una delle principali fonti di ricavo per le società proprietarie delle emittenti radiofoniche. Il fornitore, in questo caso l’emittente radio, e il cliente, cioè qualsiasi entità interessata a pubblicizzare un prodotto sulla piattaforma radiofonica, si accordano in forma contrattuale su vari aspetti della campagna pubblicitaria. Risulta quindi evidente l’utilità di un sistema automatizzato capace di val- utare il rispetto dei termini contrattuali. Requisito fondamentale di tale sistema è quello di essere in grado di identificare in maniera univoca e il più possibile precisa le singole pubblicità. In questa Tesi analizziamo due approcci a Reti Neurali per portare a termine il primo passo dell’identificazione, cioè il riconoscimento generico di segmenti pubblicitari tra gli altri tipi di contenuti. Il primo modello consiste in una rete convolutiva profonda che preso in ingresso un segmento audio è in grado di stimare la probabilità che esso sia una pubblicità. Il secondo modello si basa sull’architettura TCN (Temporal Convolutional Network), la quale viene impie- gata per estrarre dall’audio in ingresso una stima delle energie dovute al contenuto musicale e del parlato. Inoltre per portare a termine l’addestramento delle due Reti Neurali si è resa necessaria la collezione di campioni radiofonici, da varie emittenti italiane, contenenti pubblicità, musica e parlato, poi raccolti in MUSPAD (MUsic, SPeech and ADvertisement dataset). I risultati ottenuti vedono il primo modello superare come prestazioni il secondo. I buoni risultati riscontrati dal primo modello inducono a pensare che un’architettura di questo genere possa essere utilizzata, all’interno del sistema di identificazione pubblicitaria, in contesto industriale.

Towards advertisement clustering : two approaches based on neural networks

CACEFFO, ANDREA
2020/2021

Abstract

The advertisement aired by radio broadcasters is one of their major incomes. The provider, i.e. the company which owns the radio station, and the customer, i.e. whichever subject interested in advertising a product, sign a contract in which some aspects of the advertisement campaign are specified. Therefore it is evident the usefulness of an automatic system which is capable of assess the compliance with the contractual terms. A primary requirement for such a system is to be able to univocally and as accurately as possible identify a specific commercial break. In this Thesis we analyze two Neural Networks approaches to carry out the first step of the identification, i.e. the generic recognition of advertisement segments among all the other audio contents. The first model consists of a deep convolutional network which, taking an audio excerpt as input, it is capable of responding with its probability of being an advertisement. The second model is based on the TCN (Temporal Convolutional Network) architecture employed to extract from the audio input the music and speech energies. Moreover, to accomplish the training of these two Neural Networks, we col- lected advertising, music and speech audio samples from some italian radio broad- casts, then gathered in MUSPAD (MUsic, SPeech and ADvertisement) dataset. The first model outperformed the second one in all the experimental results. These noteworthy performances let us think that such a model might be employed, within the advertisement identification system, in an industrial context.
ZANNI, GUGLIELMO
ING - Scuola di Ingegneria Industriale e dell'Informazione
21-dic-2021
2020/2021
La pubblicità trasmessa alla radio è una delle principali fonti di ricavo per le società proprietarie delle emittenti radiofoniche. Il fornitore, in questo caso l’emittente radio, e il cliente, cioè qualsiasi entità interessata a pubblicizzare un prodotto sulla piattaforma radiofonica, si accordano in forma contrattuale su vari aspetti della campagna pubblicitaria. Risulta quindi evidente l’utilità di un sistema automatizzato capace di val- utare il rispetto dei termini contrattuali. Requisito fondamentale di tale sistema è quello di essere in grado di identificare in maniera univoca e il più possibile precisa le singole pubblicità. In questa Tesi analizziamo due approcci a Reti Neurali per portare a termine il primo passo dell’identificazione, cioè il riconoscimento generico di segmenti pubblicitari tra gli altri tipi di contenuti. Il primo modello consiste in una rete convolutiva profonda che preso in ingresso un segmento audio è in grado di stimare la probabilità che esso sia una pubblicità. Il secondo modello si basa sull’architettura TCN (Temporal Convolutional Network), la quale viene impie- gata per estrarre dall’audio in ingresso una stima delle energie dovute al contenuto musicale e del parlato. Inoltre per portare a termine l’addestramento delle due Reti Neurali si è resa necessaria la collezione di campioni radiofonici, da varie emittenti italiane, contenenti pubblicità, musica e parlato, poi raccolti in MUSPAD (MUsic, SPeech and ADvertisement dataset). I risultati ottenuti vedono il primo modello superare come prestazioni il secondo. I buoni risultati riscontrati dal primo modello inducono a pensare che un’architettura di questo genere possa essere utilizzata, all’interno del sistema di identificazione pubblicitaria, in contesto industriale.
File allegati
File Dimensione Formato  
2021_12_Caceffo.pdf

Open Access dal 25/11/2022

Descrizione: Testo della Tesi
Dimensione 2.95 MB
Formato Adobe PDF
2.95 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/182401