Nowadays depth information plays a pivotal role in many computer vision applications. For instance, self driving cars exploits depth information to understand the surrounding environment so they can drive safely and avoid accidents. This kind of applications usually relies on technologies, such as LiDAR, which using active illumination methods measures the time it takes for each laser pulse to bounce back from an obstacle to crate a 3D model of the environment. On the other hand, high resolution depth cameras are very expensive and not suitable for many applications. The solution proposed in this work is to use low resolution depth cameras and then enhance the depth estimation by performing upsample operations. Image upsample is a procedure which is used to reconstruct an High Resolution image starting from a Low Resolution image. In our scenario we deal with depthmap images, where each pixel has a distance information rather than a color one. There already exist algorithms performing upsample task, such as bilinear and bicubic interpolation. However in real time scenarios like self driving cars and autonomous mobile robots, where machine needs depth information for avoiding obstacles, recognizing and tracking objects, the reconstruction quality of the mentioned algorithms is negatively affected by the presence of artifacts and noise. The purpose of this research is to develop methods to reduce the artifacts and enhance the quality of high resolution depthmap, exploiting Deep Learning techniques. We rely on Convolution Neural Network to develop a model able to perform Super-Resolution task. Whereas standard depth map upsample algorithms rely only on low resolution depthmap, our model fuse high resolution information coming from a RGB camera with low resolution depthmap in order to create a high resolution depthmap. In this work two different scaling factor networks are proposed: 8x and 4x. The proposed method was trained and tested on two different dataset: one synthetic, composed of videogame frames that simulate outdoor scene, and another real, whose images of indoor scenes are taken by a Kinect device. After the training process, we measured the effectiveness in terms of quality enhancement using RMSE, SSIM and PSNR metrics. Our architecture shows better performance if compared to classical algorithms and also with respect to other state of the art methods.

Al giorno d'oggi, l'informazione di profondità gioca un ruolo importante in molte applicazioni relative all'analisi e al processamento di immagini. Un esempio sono le macchine a guida autonoma, che sfruttano questa informazione per mappare l'ambiente circostante. In questo ambiente si fa uso di tecnologie quali il LiDAR, il quale emana degli impulsi ed è in grado di misurarne il tempo di ritorno, dopo aver colpito un oggetto. Le camere di profondità ad alta risoluzione però sono molto costose e non si ha la disponibilità per usarle in ogni contesto. La soluzione qui proposta è quella di usare camere di prfondità a bassa risoluzione e aumentare quest'ultima tramite un processo di sovracampionamento. Nel nostro caso adoperiamo questo processo, ovvero la trasfomrazione di immagini da bassa ad alta risoluzione, sulle mappe di profondità, le quali non sono altro che delle fotografie che contengono informazioni sulla profondità degli oggetti in scena piuttosto che informazioni sul colore. Sono giá presenti dei metodi di sovracampionamento tra i quali l'interpolazione bilineare e bicubica. Tuttavia, se consideriamo scenari come macchine a guida autonoma in cui l'informazione sulla profondità è necessaria per evitare collisioni con oggetti circostanzi o ancora più importante con pedoni, la qualità del risultato dei metodi appena citati risulta insufficiente. Lo scopo di questo lavoro è di sviluppare un metodo per aumentare la risoluzione delle mappe di profondità migliorandone la qualità e riducendone possibili artefatti. Per fare ciò sfruttiamo tecniche di Deep Learning ed in particolare delle Reti Neurali Convoluzionali per sviluppare un modello in grado di eseguire la Super-Resolution. I classici algoritmi di sovracampionamento delle mappe diprofondità si basano solo sulla mappa di profodnità a bassa risoluzione, il nostro modello utilizza anche le informazioni provenienti dalla fotografia RGB ad alta risoluzione della stessa scena. Per il nostro progetto abbiamo testato due differenti rapporti d'incremento, uno di 4 e l'altro di 8. Abbiamo inoltre allenato la nostre rete con due differenti dataset, uno contenenti delle scene di un videogioco,che simula immagini di un ambiente all'aperto, e l'altro che contiene immagini reali di scene di interni, realizzate con un dispositivo Kinect. Dopo aver allenato la rete, abbiamo misurato la qualità del nostro risultato utilizzando i tre indici RMSE, SSIM e PSNR. Il nostro lavoro mostra migliori risultati se confrontato con i classici algoritmi di sovracampionamento e anche rispetto ad altri lavori precedenti.

Depth map super-resolution fusing color information

PALESANO, DAVIDE
2021/2022

Abstract

Nowadays depth information plays a pivotal role in many computer vision applications. For instance, self driving cars exploits depth information to understand the surrounding environment so they can drive safely and avoid accidents. This kind of applications usually relies on technologies, such as LiDAR, which using active illumination methods measures the time it takes for each laser pulse to bounce back from an obstacle to crate a 3D model of the environment. On the other hand, high resolution depth cameras are very expensive and not suitable for many applications. The solution proposed in this work is to use low resolution depth cameras and then enhance the depth estimation by performing upsample operations. Image upsample is a procedure which is used to reconstruct an High Resolution image starting from a Low Resolution image. In our scenario we deal with depthmap images, where each pixel has a distance information rather than a color one. There already exist algorithms performing upsample task, such as bilinear and bicubic interpolation. However in real time scenarios like self driving cars and autonomous mobile robots, where machine needs depth information for avoiding obstacles, recognizing and tracking objects, the reconstruction quality of the mentioned algorithms is negatively affected by the presence of artifacts and noise. The purpose of this research is to develop methods to reduce the artifacts and enhance the quality of high resolution depthmap, exploiting Deep Learning techniques. We rely on Convolution Neural Network to develop a model able to perform Super-Resolution task. Whereas standard depth map upsample algorithms rely only on low resolution depthmap, our model fuse high resolution information coming from a RGB camera with low resolution depthmap in order to create a high resolution depthmap. In this work two different scaling factor networks are proposed: 8x and 4x. The proposed method was trained and tested on two different dataset: one synthetic, composed of videogame frames that simulate outdoor scene, and another real, whose images of indoor scenes are taken by a Kinect device. After the training process, we measured the effectiveness in terms of quality enhancement using RMSE, SSIM and PSNR metrics. Our architecture shows better performance if compared to classical algorithms and also with respect to other state of the art methods.
MARCO, PARACCHINI
ING - Scuola di Ingegneria Industriale e dell'Informazione
4-mag-2023
2021/2022
Al giorno d'oggi, l'informazione di profondità gioca un ruolo importante in molte applicazioni relative all'analisi e al processamento di immagini. Un esempio sono le macchine a guida autonoma, che sfruttano questa informazione per mappare l'ambiente circostante. In questo ambiente si fa uso di tecnologie quali il LiDAR, il quale emana degli impulsi ed è in grado di misurarne il tempo di ritorno, dopo aver colpito un oggetto. Le camere di profondità ad alta risoluzione però sono molto costose e non si ha la disponibilità per usarle in ogni contesto. La soluzione qui proposta è quella di usare camere di prfondità a bassa risoluzione e aumentare quest'ultima tramite un processo di sovracampionamento. Nel nostro caso adoperiamo questo processo, ovvero la trasfomrazione di immagini da bassa ad alta risoluzione, sulle mappe di profondità, le quali non sono altro che delle fotografie che contengono informazioni sulla profondità degli oggetti in scena piuttosto che informazioni sul colore. Sono giá presenti dei metodi di sovracampionamento tra i quali l'interpolazione bilineare e bicubica. Tuttavia, se consideriamo scenari come macchine a guida autonoma in cui l'informazione sulla profondità è necessaria per evitare collisioni con oggetti circostanzi o ancora più importante con pedoni, la qualità del risultato dei metodi appena citati risulta insufficiente. Lo scopo di questo lavoro è di sviluppare un metodo per aumentare la risoluzione delle mappe di profondità migliorandone la qualità e riducendone possibili artefatti. Per fare ciò sfruttiamo tecniche di Deep Learning ed in particolare delle Reti Neurali Convoluzionali per sviluppare un modello in grado di eseguire la Super-Resolution. I classici algoritmi di sovracampionamento delle mappe diprofondità si basano solo sulla mappa di profodnità a bassa risoluzione, il nostro modello utilizza anche le informazioni provenienti dalla fotografia RGB ad alta risoluzione della stessa scena. Per il nostro progetto abbiamo testato due differenti rapporti d'incremento, uno di 4 e l'altro di 8. Abbiamo inoltre allenato la nostre rete con due differenti dataset, uno contenenti delle scene di un videogioco,che simula immagini di un ambiente all'aperto, e l'altro che contiene immagini reali di scene di interni, realizzate con un dispositivo Kinect. Dopo aver allenato la rete, abbiamo misurato la qualità del nostro risultato utilizzando i tre indici RMSE, SSIM e PSNR. Il nostro lavoro mostra migliori risultati se confrontato con i classici algoritmi di sovracampionamento e anche rispetto ad altri lavori precedenti.
File allegati
File Dimensione Formato  
2023_05_Palesano_Tesi_01.pdf

accessibile in internet per tutti

Descrizione: contenuto tesi
Dimensione 5.85 MB
Formato Adobe PDF
5.85 MB Adobe PDF Visualizza/Apri
2023_05_Palesano_Executive_Summary_02.pdf

accessibile in internet per tutti

Descrizione: contenuto executive summary
Dimensione 1.52 MB
Formato Adobe PDF
1.52 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/211753