Using Deep Learning techniques, several Computer Vision and Image Processing tasks are being revisited and many improvements in terms of speed and accuracy have been recently shown. In dentistry, for example, the power of Computer Vision and Augmented Reality has been exploited just recently and the development of digital tools could improve the doctor/patient experience. In the future, the idea is to provide dentists with non-invasive digital tools that could help them communicate with the patients and in diagnosis phase. In this Master Project, the task we try to solve, using Deep Learning techniques, is the 3D pose estimation of the lower jaw in a face from a monocular image. This task is potentially relevant in dentistry and today there are neither digital tools solving this task, nor datasets of annotated images with the lower jaw pose. The main contributions of this project are the creation of an annotated dataset for the task and the implementation of a deep neural network capable of predicting an approximation of the pose of the lower jaw. The ARKit provided in iOS 11 for the iPhoneX and a Python graphics engine are used for the creation of the dataset. The implementation of the model that predicts the lower jaw pose is explained in this report and some variants of the network are discussed. The performances of the different networks are compared and the limitations and possible improvements to the model are examined.

Utilizzando tecniche di Deep Learning, sono stati rivisitati diversi problemi nel campo di Computer Vision e Image Processing e sono stati recentemente mostrati drastici miglioramenti in termini di velocità e accuratezza. Nell'ambito dell'industria dentaria, ad esempio, le potenzialità di Computer Vision e Augmented Reality sono state sfruttate solo di recente e lo sviluppo di strumenti digitali potrebbe migliorare l'esperienza medico / paziente. In futuro, l'idea è di fornire ai dentisti strumenti digitali non invasivi che potrebbero aiutarli a comunicare con i pazienti e in fase di diagnosi. In questo progetto, l'obiettivo è fornire una stima della posa 3D della mascella inferiore a partire da un'immagine. Questa applicazione è potenzialmente rilevante per i dentisti. Inoltre oggi non ci sono strumenti digitali adibiti alla stima della posa della mascella inferiore, né dataset di immagini con annotazioni. I principali contributi di questo progetto sono la creazione di un dataset con annotazioni e l'implementazione di una rete neurale in grado di fornire una approssimazione della posa della mascella inferiore. Sono stati utilizzati per la creazione del dataset sia ARKit, disponibile in iOS 11 per iPhoneX, sia Panda3D, un motore grafico utilizzato per videogiochi e scritto in Python. In questo elaborato, è spiegata l'implementazione del modello che produce una stima della posa della mascella inferiore e vengono discusse alcune varianti del neural network. Le prestazioni delle diverse varianti vengono confrontate e vengono esaminate le limitazioni e i possibili miglioramenti sul modello.

Deep Learning estimation of the lower jaw pose and position in a face from a monocular camera

GIOIA, SANTO
2017/2018

Abstract

Using Deep Learning techniques, several Computer Vision and Image Processing tasks are being revisited and many improvements in terms of speed and accuracy have been recently shown. In dentistry, for example, the power of Computer Vision and Augmented Reality has been exploited just recently and the development of digital tools could improve the doctor/patient experience. In the future, the idea is to provide dentists with non-invasive digital tools that could help them communicate with the patients and in diagnosis phase. In this Master Project, the task we try to solve, using Deep Learning techniques, is the 3D pose estimation of the lower jaw in a face from a monocular image. This task is potentially relevant in dentistry and today there are neither digital tools solving this task, nor datasets of annotated images with the lower jaw pose. The main contributions of this project are the creation of an annotated dataset for the task and the implementation of a deep neural network capable of predicting an approximation of the pose of the lower jaw. The ARKit provided in iOS 11 for the iPhoneX and a Python graphics engine are used for the creation of the dataset. The implementation of the model that predicts the lower jaw pose is explained in this report and some variants of the network are discussed. The performances of the different networks are compared and the limitations and possible improvements to the model are examined.
SALZMANN, MATHIEU
LANCELLE, MARCEL
ING - Scuola di Ingegneria Industriale e dell'Informazione
3-ott-2018
2017/2018
Utilizzando tecniche di Deep Learning, sono stati rivisitati diversi problemi nel campo di Computer Vision e Image Processing e sono stati recentemente mostrati drastici miglioramenti in termini di velocità e accuratezza. Nell'ambito dell'industria dentaria, ad esempio, le potenzialità di Computer Vision e Augmented Reality sono state sfruttate solo di recente e lo sviluppo di strumenti digitali potrebbe migliorare l'esperienza medico / paziente. In futuro, l'idea è di fornire ai dentisti strumenti digitali non invasivi che potrebbero aiutarli a comunicare con i pazienti e in fase di diagnosi. In questo progetto, l'obiettivo è fornire una stima della posa 3D della mascella inferiore a partire da un'immagine. Questa applicazione è potenzialmente rilevante per i dentisti. Inoltre oggi non ci sono strumenti digitali adibiti alla stima della posa della mascella inferiore, né dataset di immagini con annotazioni. I principali contributi di questo progetto sono la creazione di un dataset con annotazioni e l'implementazione di una rete neurale in grado di fornire una approssimazione della posa della mascella inferiore. Sono stati utilizzati per la creazione del dataset sia ARKit, disponibile in iOS 11 per iPhoneX, sia Panda3D, un motore grafico utilizzato per videogiochi e scritto in Python. In questo elaborato, è spiegata l'implementazione del modello che produce una stima della posa della mascella inferiore e vengono discusse alcune varianti del neural network. Le prestazioni delle diverse varianti vengono confrontate e vengono esaminate le limitazioni e i possibili miglioramenti sul modello.
Tesi di laurea Magistrale
File allegati
File Dimensione Formato  
MasterProjectReport_GioiaSanto_def.pdf

non accessibile

Descrizione: Elaborato della tesi
Dimensione 42.23 MB
Formato Adobe PDF
42.23 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/142597