The potential of the Internet of Things is leading to a paradigm shift with an ambitious long-term vision, in which battery-operated sensing nodes are empowered with sight capabilities and are able to accomplish complex visual analysis tasks, possibly in a cooperative fashion. A high number of devices, including smartphones, smart cameras, and visual sensor nodes, will be able to acquire visual content from the environment and to process it so as to provide the users with high-level services. For instance, visual sensor networks are envisioned to play a fundamental role in the development of smart surveillance and environmental monitoring systems, whereas augmented reality applications deployed on smartphones, tablets and wearable devices will be more and more pervasive in our everyday lives. Unfortunately, this is out of reach with the current technology. In fact, most computer vision algorithms are computationally complex and thus are not suitable to be run on low-power devices. Such distributed visual analysis tasks have some points in common: i) multiple sensors acquire the visual content; ii) such content has to be automatically analyzed to accomplish a given task; iii) the interaction between the sensor nodes, or with a central processing server (e.g. a central database) is typically required. Most visual analysis tasks can be carried out based on a succinct representation of the image, which entails both global and local features, while it disregards the underlying pixel- level representation. The traditional approach to such kind of tasks is based on a Compress-Then-Analyze (CTA) logic. According to such paradigm, the visual content is captured by sensing devices, encoded and transmitted to the central servers where analysis takes place. Nonetheless, the new Analyze-Then-Compress (ATC) paradigm is gaining popularity within both the scientific community and the industry. Such approach implies features to be extracted onboard sensing devices, encoded resorting to ad-hoc algorithms, and transmitted to central servers for further processing. Under severe energy and bandwidth constraints it is imperative to optimize the computation, the coding and the transmission of the visual features. This thesis addresses a comprehensive set of new methodologies to empower sensor nodes with vision capabilities comparable to those achievable by power-eager visual analysis systems, fostering the development of the Analyze-Then-Compress paradigm. The extraction of visual features is subject to tight application-dependent requirements regarding computational and memory resources and bandwidth/delay guarantees. Therefore, on the feature extraction side, this thesis addresses the design of energy- efficient tools for optimizing the operation of sensor nodes. On the coding side, this thesis aims at developing ad-hoc algorithm for the coding of visual features, so that they can be efficiently transmitted from sensing devices to central processing servers. Such coding primitives should adapt to the peculiar nature to the signal at hand, and play a fundamental role in making the Analyze-Then-Compress paradigm a competitive approach to distributed visual analysis.

Lo sviluppo dell’Internet of Things sta inesorabilmente rivoluzionando le nostre vite, introducendo un numero sempre maggiore di servizi e applicazioni di alto livello con l’obiettivo di migliorare la vita degli utenti. In particolare, nell’ambito della visione artificiale, nodi a basso consumo energetico e alimentati a batteria saranno a breve in grado di collaborare al fine di analizzare il contenuto visivo acquisito, con l’obiettivo di implementare applicazioni di alto livello. Per esempio, smartphone, tablet e altri dispositivi indossabili forniranno applicazioni di realtá aumentata sempre piú pervasive, mentre le reti di sensori visuali saranno molto importanti per lo sviluppo di tecnologie di sorveglianza e di monitoraggio ambientale. Sfortunatamente, le tecnologie correnti non permettono ancora lo sviluppo di tali applicazioni. Infatti, gli algoritmi per la visione artificiale sono complessi da un punto di vista computazionale, e quindi non adatti ad essere eseguiti su dispositivi a basso consumo energetico. Le applicazioni di analisi visuale distribuita hanno alcuni punti in comune: i) molteplici sensori sono in grado di acquisire il contenuto visivo; ii) tale contenuto richiede di essere automaticamente analizzato al fine di estrarre informazione di alto livello; iii) ai nodi é richiesto di collaborare al fine di completare un dato compito, o di interagire con server centrali. La maggior parte di queste applicazioni é basata su una rappresentazione compatta dell’immagine acquisita costituita dalle cosiddette caratteristiche visuali, o visual feature, estratte dall’immagine stessa. L’approccio tradizionale a questo tipo di task, prevede che i nodi acquisiscano il contenuto, lo codifichino cosicché da comprimere le sue dimensioni e infine lo trasmettano a nodi centrali per l’elaborazione. Tuttavia, un paradigma alternativo sta guadagnando sempre piú consensi sia nella comunitá scientifica che nell’industria. Tale paradigma sposta parte dell’analisi direttamente sui nodi sensori. Infatti, esso prevede che tali iiisensori acquisiscano il contenuto, ne estraggano informazione sotto forma di caratteristiche visuali, comprimano tale informazione e la trasmettano a un nodo centrale per l’analisi. Nondimeno, visti i vincoli su consumo energetico e banda di trasmissione posti dai nodi sensori, le operazioni di estrazione, codifica e trasmissione delle caratteristiche visuali devono essere ottimizzate. Questa tesi si pone l’obiettivo di sviluppare una serie di metodologie per fornire a nodi sensori a basso consumo i mezzi necessari per compiere compiti di visione artificiale complessi. Dal punto di vista dell’estrazione delle caratteristiche visuali, algoritmi e architetture efficienti a livello energetico e computazionale sono sviluppati e validati. Per quanto riguarda la compressione delle caratteristiche, una serie di metodi che tengono in considerazione la peculiare natura del segnale sono sviluppati e validati, favorendo lo sviluppo di applicazioni avanzate di visione artificiale.

Metodi e algoritmi per l'analisi visuale distribuita su reti a basso impatto energetico

BAROFFIO, LUCA

Abstract

The potential of the Internet of Things is leading to a paradigm shift with an ambitious long-term vision, in which battery-operated sensing nodes are empowered with sight capabilities and are able to accomplish complex visual analysis tasks, possibly in a cooperative fashion. A high number of devices, including smartphones, smart cameras, and visual sensor nodes, will be able to acquire visual content from the environment and to process it so as to provide the users with high-level services. For instance, visual sensor networks are envisioned to play a fundamental role in the development of smart surveillance and environmental monitoring systems, whereas augmented reality applications deployed on smartphones, tablets and wearable devices will be more and more pervasive in our everyday lives. Unfortunately, this is out of reach with the current technology. In fact, most computer vision algorithms are computationally complex and thus are not suitable to be run on low-power devices. Such distributed visual analysis tasks have some points in common: i) multiple sensors acquire the visual content; ii) such content has to be automatically analyzed to accomplish a given task; iii) the interaction between the sensor nodes, or with a central processing server (e.g. a central database) is typically required. Most visual analysis tasks can be carried out based on a succinct representation of the image, which entails both global and local features, while it disregards the underlying pixel- level representation. The traditional approach to such kind of tasks is based on a Compress-Then-Analyze (CTA) logic. According to such paradigm, the visual content is captured by sensing devices, encoded and transmitted to the central servers where analysis takes place. Nonetheless, the new Analyze-Then-Compress (ATC) paradigm is gaining popularity within both the scientific community and the industry. Such approach implies features to be extracted onboard sensing devices, encoded resorting to ad-hoc algorithms, and transmitted to central servers for further processing. Under severe energy and bandwidth constraints it is imperative to optimize the computation, the coding and the transmission of the visual features. This thesis addresses a comprehensive set of new methodologies to empower sensor nodes with vision capabilities comparable to those achievable by power-eager visual analysis systems, fostering the development of the Analyze-Then-Compress paradigm. The extraction of visual features is subject to tight application-dependent requirements regarding computational and memory resources and bandwidth/delay guarantees. Therefore, on the feature extraction side, this thesis addresses the design of energy- efficient tools for optimizing the operation of sensor nodes. On the coding side, this thesis aims at developing ad-hoc algorithm for the coding of visual features, so that they can be efficiently transmitted from sensing devices to central processing servers. Such coding primitives should adapt to the peculiar nature to the signal at hand, and play a fundamental role in making the Analyze-Then-Compress paradigm a competitive approach to distributed visual analysis.
BONARINI, ANDREA
CAPONE, ANTONIO
26-gen-2016
Visual analysis tools for energy-aware heterogeneous networks
Lo sviluppo dell’Internet of Things sta inesorabilmente rivoluzionando le nostre vite, introducendo un numero sempre maggiore di servizi e applicazioni di alto livello con l’obiettivo di migliorare la vita degli utenti. In particolare, nell’ambito della visione artificiale, nodi a basso consumo energetico e alimentati a batteria saranno a breve in grado di collaborare al fine di analizzare il contenuto visivo acquisito, con l’obiettivo di implementare applicazioni di alto livello. Per esempio, smartphone, tablet e altri dispositivi indossabili forniranno applicazioni di realtá aumentata sempre piú pervasive, mentre le reti di sensori visuali saranno molto importanti per lo sviluppo di tecnologie di sorveglianza e di monitoraggio ambientale. Sfortunatamente, le tecnologie correnti non permettono ancora lo sviluppo di tali applicazioni. Infatti, gli algoritmi per la visione artificiale sono complessi da un punto di vista computazionale, e quindi non adatti ad essere eseguiti su dispositivi a basso consumo energetico. Le applicazioni di analisi visuale distribuita hanno alcuni punti in comune: i) molteplici sensori sono in grado di acquisire il contenuto visivo; ii) tale contenuto richiede di essere automaticamente analizzato al fine di estrarre informazione di alto livello; iii) ai nodi é richiesto di collaborare al fine di completare un dato compito, o di interagire con server centrali. La maggior parte di queste applicazioni é basata su una rappresentazione compatta dell’immagine acquisita costituita dalle cosiddette caratteristiche visuali, o visual feature, estratte dall’immagine stessa. L’approccio tradizionale a questo tipo di task, prevede che i nodi acquisiscano il contenuto, lo codifichino cosicché da comprimere le sue dimensioni e infine lo trasmettano a nodi centrali per l’elaborazione. Tuttavia, un paradigma alternativo sta guadagnando sempre piú consensi sia nella comunitá scientifica che nell’industria. Tale paradigma sposta parte dell’analisi direttamente sui nodi sensori. Infatti, esso prevede che tali iiisensori acquisiscano il contenuto, ne estraggano informazione sotto forma di caratteristiche visuali, comprimano tale informazione e la trasmettano a un nodo centrale per l’analisi. Nondimeno, visti i vincoli su consumo energetico e banda di trasmissione posti dai nodi sensori, le operazioni di estrazione, codifica e trasmissione delle caratteristiche visuali devono essere ottimizzate. Questa tesi si pone l’obiettivo di sviluppare una serie di metodologie per fornire a nodi sensori a basso consumo i mezzi necessari per compiere compiti di visione artificiale complessi. Dal punto di vista dell’estrazione delle caratteristiche visuali, algoritmi e architetture efficienti a livello energetico e computazionale sono sviluppati e validati. Per quanto riguarda la compressione delle caratteristiche, una serie di metodi che tengono in considerazione la peculiare natura del segnale sono sviluppati e validati, favorendo lo sviluppo di applicazioni avanzate di visione artificiale.
Tesi di dottorato
File allegati
File Dimensione Formato  
thesis.pdf

accessibile in internet per tutti

Descrizione: Testo della tesi
Dimensione 12.96 MB
Formato Adobe PDF
12.96 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/117561