-

Il recente e massivo utilizzo di reti neurali ha apportato enormi sviluppi nel campo della computer vision. In questa tesi affrontiamo il problema di recuperare informazioni quantitative, come il volume e il peso di oggetti, a partire da immagini degli stessi. Ci concentriamo sul dominio degli ingredienti culinari, volendo sviluppare un’applicazione che riceve in input foto di cibi e fornisce indicazioni come il loro peso, le kilocalorie, eccetera. La soluzione proposta è una pipeline di reti neurali convoluzionali, per il recupero del volume, tramite il quale tutte le altre informazioni sono ricavabili. La prima rete convoluzionale, basata sull’architettura encoder-decoder, viene utilizzata per separare gli ingredienti dal background e classificarli, ottenendo così immagini filtrate. Queste immagini intermedie vengono utilizzate da una rete di ricostruzione della forma tridimensionale. La seconda rete in questione è in grado di ricostruire forme anche a partire da singole immagini di ingredienti, grazie alle informazioni imparate su di essi in fase di training. Proponiamo un metodo di recupero del valore assoluto del volume, a partire da quello relativo e da un oggetto di dimensioni note nel mondo reale, usato come metro di paragone. Affrontiamo inoltre il problema di costruire un appropriato training set, tramite l’utilizzo di modelli 3D per la sintesi di viste 2D. Questo approccio risulta facilmente scalabile a numerose classi di oggetti e contesti. Studiamo il potere predittivo su immagini reali di reti allenate con immagini sintetiche. Presentiamo esperimenti sull’importanza del background, delle texture, dell’angolazione e dell’illuminazione, ottenendo importanti indicazioni su come costruire al meglio futuri dataset. Implementiamo una pipeline in grado di risolvere il problema di quantificazione sopra descritto, e proponiamo un’architettura di rete innovativa basata sul multitask principle. Questa tesi è stata realizzata sotto la supervisione congiunta di Politecnico di Milano e Harvard University. Abbiamo trascorso tre mesi a Cambridge, dove abbiamo avuto l'opportunità di presentare due workshop sul deep learning in occasione dell'Harvard ComputeFest 2017.

Deep learning quantification

AZZINI, ANDREA;CONSERVA, GIOVANNI BATTISTA
2015/2016

Abstract

-
BRAMBILLA, MARCO
PROTOPAPAS, PAVLOS
ING - Scuola di Ingegneria Industriale e dell'Informazione
28-apr-2017
2015/2016
Il recente e massivo utilizzo di reti neurali ha apportato enormi sviluppi nel campo della computer vision. In questa tesi affrontiamo il problema di recuperare informazioni quantitative, come il volume e il peso di oggetti, a partire da immagini degli stessi. Ci concentriamo sul dominio degli ingredienti culinari, volendo sviluppare un’applicazione che riceve in input foto di cibi e fornisce indicazioni come il loro peso, le kilocalorie, eccetera. La soluzione proposta è una pipeline di reti neurali convoluzionali, per il recupero del volume, tramite il quale tutte le altre informazioni sono ricavabili. La prima rete convoluzionale, basata sull’architettura encoder-decoder, viene utilizzata per separare gli ingredienti dal background e classificarli, ottenendo così immagini filtrate. Queste immagini intermedie vengono utilizzate da una rete di ricostruzione della forma tridimensionale. La seconda rete in questione è in grado di ricostruire forme anche a partire da singole immagini di ingredienti, grazie alle informazioni imparate su di essi in fase di training. Proponiamo un metodo di recupero del valore assoluto del volume, a partire da quello relativo e da un oggetto di dimensioni note nel mondo reale, usato come metro di paragone. Affrontiamo inoltre il problema di costruire un appropriato training set, tramite l’utilizzo di modelli 3D per la sintesi di viste 2D. Questo approccio risulta facilmente scalabile a numerose classi di oggetti e contesti. Studiamo il potere predittivo su immagini reali di reti allenate con immagini sintetiche. Presentiamo esperimenti sull’importanza del background, delle texture, dell’angolazione e dell’illuminazione, ottenendo importanti indicazioni su come costruire al meglio futuri dataset. Implementiamo una pipeline in grado di risolvere il problema di quantificazione sopra descritto, e proponiamo un’architettura di rete innovativa basata sul multitask principle. Questa tesi è stata realizzata sotto la supervisione congiunta di Politecnico di Milano e Harvard University. Abbiamo trascorso tre mesi a Cambridge, dove abbiamo avuto l'opportunità di presentare due workshop sul deep learning in occasione dell'Harvard ComputeFest 2017.
Tesi di laurea Magistrale
File allegati
File Dimensione Formato  
2017_04_Azzini_Conserva.pdf

accessibile in internet per tutti

Descrizione: Testo della tesi
Dimensione 9.71 MB
Formato Adobe PDF
9.71 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/133855