Nowadays deep learning-based solutions are widely spread among different fields. The employment in the surgical domain may result a useful tool to address the challenges proposed by the new frontiers of medicine. Indeed, telementoring, teleoperation and remote diagnosis, now realities thanks to advances in telecommunication technology and video coding system, require sophisticated system to storage and transmit big data, e.g., high-resolution videos. Focusing on video transmission, constrains are present in terms of latency and bandwidth to guarantee the real time application, without losing quality. In the specific case of remote surgery, low-latency and bandwidth are essential to ensure the stability of the system employed. Even though traditional approaches are highly performant, a further improvement would increase the efficiency, thus the employment, of these services. Since the leading standards for video compression, i.e., H.264/AVC and H.265/HEVC, have reached a turning point in terms of performance, alternative solutions for their optimizations and brand-new schemes needs to be explored. Deep Learning (DL) techniques may be well suited for the purpose, as they can overcome the limitations featured by the traditional video codecs. In this work, a deep learning-based method is proposed to enhance the performance of H.264/AVC in terms of quality, bandwidth and latency for Robot Assisted Minimally Invasive Surgery (RAMIS), namely for the Robotic Assisted Radical Prostatectomy (RARP). A binary autoencoder is proposed to compress the residual, thus the difference between the original and the compressed frame. The output of the network is summed to the one of H.264/AVC to obtain a better image reconstruction while saving compression time. The scheme proposed overcomes the traditional codec both in terms of quality and speed in a low bitrate scenario. Moreover, it is computational friendly and it could be further optimized to become a powerful tool for telemedicine applications.

Oggigiorno le soluzioni basate sul deep learning sono ampiamente diffuse in differenti contesti. Il loro utilizzo nel dominio chirurgico potrebbe risultare uno strumento utile per affrontare le sfide proposte dalle nuove frontiere della medicina. Infatti, le applicazioni di telemedicina sono divenute ormai realtà grazie ai progressi della tecnologia nel campo delle telecomunicazioni e del sistema di codifica video, e richiedono sistemi sofisticati per archiviare e trasmettere big-data, quali ad esempio video ad alta risoluzione. Nel caso specifico della trasmissione video, sono presenti vincoli in termini di latenza e larghezza di banda per garantire l'applicazione in tempo reale. La qualità deve essere comunque preservata. Per la chirurgia da remoto, bassa latenza e larghezza di banda sono essenziali per assicurare la stabilità del sistema impiegato. Anche se gli approcci tradizionali sono altamente performanti, un miglioramento ulteriore consentirebbe un aumento dell'efficienza con conseguente diffusione di questi servizi. Poiché gli standard correnti utilizzati per la compressione video, i.e., H.264/AVC e H.265/HEVC, hanno raggiunto altissimi livelli in termini di prestazioni, è necessario esplorare soluzioni alternative per la loro ottimizzazione, oppure sviluppare nuove tecniche di compressione. I metodi di Deep Learning (DL) possono considerarsi adatte allo scopo, poichè in grado di superare le limitazioni proprie dei codec tradizionali. In questa tesi si propone una rete neurale per migliorare le prestazioni di H.264/AVC in termini di qualità, larghezza di banda e latenza per la chirurgia mini-invasiva assistita da robot. Si propone un autoencoder binario per comprimere il residuo, ossia la differenza tra il frame originale e quello compresso. L'output prodotto dalla rete è sommato a quello di H.264/AVC al fine di ottenere una migliore ricostruzione dell'immagine, riducendo tempo di compressione. Lo schema proposto supera il codec tradizionale sia in termini di qualità che di velocità nello scenario dei bassi bitrate. Inoltre, è di facile implementazione e potrebbe essere ulteriormente ottimizzato, divenendo un potente strumento per la telemedicina.

Real-time and high-quality video compression for telesurgery

Golini, Martina
2020/2021

Abstract

Nowadays deep learning-based solutions are widely spread among different fields. The employment in the surgical domain may result a useful tool to address the challenges proposed by the new frontiers of medicine. Indeed, telementoring, teleoperation and remote diagnosis, now realities thanks to advances in telecommunication technology and video coding system, require sophisticated system to storage and transmit big data, e.g., high-resolution videos. Focusing on video transmission, constrains are present in terms of latency and bandwidth to guarantee the real time application, without losing quality. In the specific case of remote surgery, low-latency and bandwidth are essential to ensure the stability of the system employed. Even though traditional approaches are highly performant, a further improvement would increase the efficiency, thus the employment, of these services. Since the leading standards for video compression, i.e., H.264/AVC and H.265/HEVC, have reached a turning point in terms of performance, alternative solutions for their optimizations and brand-new schemes needs to be explored. Deep Learning (DL) techniques may be well suited for the purpose, as they can overcome the limitations featured by the traditional video codecs. In this work, a deep learning-based method is proposed to enhance the performance of H.264/AVC in terms of quality, bandwidth and latency for Robot Assisted Minimally Invasive Surgery (RAMIS), namely for the Robotic Assisted Radical Prostatectomy (RARP). A binary autoencoder is proposed to compress the residual, thus the difference between the original and the compressed frame. The output of the network is summed to the one of H.264/AVC to obtain a better image reconstruction while saving compression time. The scheme proposed overcomes the traditional codec both in terms of quality and speed in a low bitrate scenario. Moreover, it is computational friendly and it could be further optimized to become a powerful tool for telemedicine applications.
FROSIO, IURI
MARZULLO, ALDO
ING - Scuola di Ingegneria Industriale e dell'Informazione
28-apr-2022
2020/2021
Oggigiorno le soluzioni basate sul deep learning sono ampiamente diffuse in differenti contesti. Il loro utilizzo nel dominio chirurgico potrebbe risultare uno strumento utile per affrontare le sfide proposte dalle nuove frontiere della medicina. Infatti, le applicazioni di telemedicina sono divenute ormai realtà grazie ai progressi della tecnologia nel campo delle telecomunicazioni e del sistema di codifica video, e richiedono sistemi sofisticati per archiviare e trasmettere big-data, quali ad esempio video ad alta risoluzione. Nel caso specifico della trasmissione video, sono presenti vincoli in termini di latenza e larghezza di banda per garantire l'applicazione in tempo reale. La qualità deve essere comunque preservata. Per la chirurgia da remoto, bassa latenza e larghezza di banda sono essenziali per assicurare la stabilità del sistema impiegato. Anche se gli approcci tradizionali sono altamente performanti, un miglioramento ulteriore consentirebbe un aumento dell'efficienza con conseguente diffusione di questi servizi. Poiché gli standard correnti utilizzati per la compressione video, i.e., H.264/AVC e H.265/HEVC, hanno raggiunto altissimi livelli in termini di prestazioni, è necessario esplorare soluzioni alternative per la loro ottimizzazione, oppure sviluppare nuove tecniche di compressione. I metodi di Deep Learning (DL) possono considerarsi adatte allo scopo, poichè in grado di superare le limitazioni proprie dei codec tradizionali. In questa tesi si propone una rete neurale per migliorare le prestazioni di H.264/AVC in termini di qualità, larghezza di banda e latenza per la chirurgia mini-invasiva assistita da robot. Si propone un autoencoder binario per comprimere il residuo, ossia la differenza tra il frame originale e quello compresso. L'output prodotto dalla rete è sommato a quello di H.264/AVC al fine di ottenere una migliore ricostruzione dell'immagine, riducendo tempo di compressione. Lo schema proposto supera il codec tradizionale sia in termini di qualità che di velocità nello scenario dei bassi bitrate. Inoltre, è di facile implementazione e potrebbe essere ulteriormente ottimizzato, divenendo un potente strumento per la telemedicina.
File allegati
File Dimensione Formato  
2022_04_Golini.pdf

accessibile in internet per tutti

Descrizione: TESI
Dimensione 3.45 MB
Formato Adobe PDF
3.45 MB Adobe PDF Visualizza/Apri
2022_04_Golini_Executive_Summary.pdf

accessibile in internet per tutti

Descrizione: Executive Summary
Dimensione 1.11 MB
Formato Adobe PDF
1.11 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/186954