Low-light vision enhancement is critical for surveillance, autonomous driving, and night vision systems. Visible imaging systems capture rich textures but struggle under low-light conditions, while infrared sensors provide consistent quality but lack color and textural details. However, high-precision infrared sensors cost thousands of dollars for 640×480 resolution, while UHD visible sensors are much cheaper. This cost gap necessitates simultaneously addressing super-resolution and fusion tasks for high-resolution enhancement. We propose a multi-scale efficient framework enabling direct 2560×1920 output under limited resources, avoiding patch-based prediction. Our U-Net backbone features novel Triple-Grouped Window Attention (TGWA) encoding and Adaptive Multi-Dilated Convolutional (AMDC) decoding. TGWA captures global dependencies while reducing complexity through grouped attention. AMDC employs Mixture of Experts-inspired routing for multi-branch adaptive dilated convolution with variable receptive fields. Our contributions are: (1) a unified model for guided super-resolution and infrared-visible fusion, (2) efficient TGWA and AMDC modules achieving superior performance, and (3) competitive results with significantly reduced parameters, establishing a new performance efficiency frontier. Our method achieves 28.74 dB PSNR on PBVS24 using only 1.12M parameters and 85.44G FLOPs while maintaining competitive performance. For fusion tasks, we achieve competitive results on MSRS and HDRT-Night datasets with the lowest FLOPs among all compared methods. In object detection on FLIR_aligned, our method achieves 69.42% mAP@0.5, representing a 3.8% improvement over the second-best approach. This significantly enhances driver situational awareness in nighttime conditions, providing valuable support for intelligent transportation and driver assistance systems.

Il miglioramento della visione in condizioni di scarsa illuminazione è fondamentale per sorveglianza, guida autonoma e visione notturna. I sistemi di imaging visibile catturano ricche texture ma hanno difficoltà in condizioni di scarsa illuminazione, mentre i sensori a infrarossi forniscono qualità costante ma mancano di dettagli cromatici e tessiturali. Tuttavia, i sensori a infrarossi ad alta precisione costano migliaia di dollari per risoluzione 640×480, mentre i sensori visibili UHD sono molto più economici. Proponiamo un framework efficiente multi-scala che consente un output diretto di 2560×1920 con risorse limitate, evitando la predizione basata su patch. La nostra architettura U-Net presenta una codifica Triple-Grouped Window Attention (TGWA) innovativa e una decodifica Adaptive Multi-Dilated Convolutional (AMDC). TGWA cattura le dipendenze globali riducendo la complessità attraverso l’attenzione raggruppata. AMDC impiega un routing ispirato al Mixture of Experts per la convoluzione dilatata adattiva multi-ramo con campi ricettivi variabili. I nostri contributi sono: (1) un modello unificato per la super-risoluzione guidata e la fusione infrarosso-visibile, (2) moduli TGWA e AMDC efficienti che raggiungono prestazioni superiori, e (3) risultati competitivi con parametri significativamente ridotti, stabilendo una nuova frontiera prestazioni-efficienza. Il nostro metodo raggiunge un PSNR di 28,74 dB su PBVS24 utilizzando solo 1,12 M di parametri e 85,44 G di FLOP mantenendo prestazioni competitive. Per i compiti di fusione, otteniamo risultati competitivi sui dataset MSRS e HDRT-Night con i FLOPs più bassi tra tutti i metodi confrontati. Nella rilevazione di oggetti su FLIR_aligned, il nostro metodo raggiunge il 69.42% mAP@0.5, rappresentando un miglioramento del 3.8% rispetto al secondo miglior approccio. Questa disparità di costi rende necessario affrontare simultaneamente i compiti di super-risoluzione e fusione per il miglioramento ad alta risoluzione.

Enhancing low-light vision: an efficient infrared-visible fusion approach

Lu, Jiajie
2024/2025

Abstract

Low-light vision enhancement is critical for surveillance, autonomous driving, and night vision systems. Visible imaging systems capture rich textures but struggle under low-light conditions, while infrared sensors provide consistent quality but lack color and textural details. However, high-precision infrared sensors cost thousands of dollars for 640×480 resolution, while UHD visible sensors are much cheaper. This cost gap necessitates simultaneously addressing super-resolution and fusion tasks for high-resolution enhancement. We propose a multi-scale efficient framework enabling direct 2560×1920 output under limited resources, avoiding patch-based prediction. Our U-Net backbone features novel Triple-Grouped Window Attention (TGWA) encoding and Adaptive Multi-Dilated Convolutional (AMDC) decoding. TGWA captures global dependencies while reducing complexity through grouped attention. AMDC employs Mixture of Experts-inspired routing for multi-branch adaptive dilated convolution with variable receptive fields. Our contributions are: (1) a unified model for guided super-resolution and infrared-visible fusion, (2) efficient TGWA and AMDC modules achieving superior performance, and (3) competitive results with significantly reduced parameters, establishing a new performance efficiency frontier. Our method achieves 28.74 dB PSNR on PBVS24 using only 1.12M parameters and 85.44G FLOPs while maintaining competitive performance. For fusion tasks, we achieve competitive results on MSRS and HDRT-Night datasets with the lowest FLOPs among all compared methods. In object detection on FLIR_aligned, our method achieves 69.42% mAP@0.5, representing a 3.8% improvement over the second-best approach. This significantly enhances driver situational awareness in nighttime conditions, providing valuable support for intelligent transportation and driver assistance systems.
ING - Scuola di Ingegneria Industriale e dell'Informazione
22-lug-2025
2024/2025
Il miglioramento della visione in condizioni di scarsa illuminazione è fondamentale per sorveglianza, guida autonoma e visione notturna. I sistemi di imaging visibile catturano ricche texture ma hanno difficoltà in condizioni di scarsa illuminazione, mentre i sensori a infrarossi forniscono qualità costante ma mancano di dettagli cromatici e tessiturali. Tuttavia, i sensori a infrarossi ad alta precisione costano migliaia di dollari per risoluzione 640×480, mentre i sensori visibili UHD sono molto più economici. Proponiamo un framework efficiente multi-scala che consente un output diretto di 2560×1920 con risorse limitate, evitando la predizione basata su patch. La nostra architettura U-Net presenta una codifica Triple-Grouped Window Attention (TGWA) innovativa e una decodifica Adaptive Multi-Dilated Convolutional (AMDC). TGWA cattura le dipendenze globali riducendo la complessità attraverso l’attenzione raggruppata. AMDC impiega un routing ispirato al Mixture of Experts per la convoluzione dilatata adattiva multi-ramo con campi ricettivi variabili. I nostri contributi sono: (1) un modello unificato per la super-risoluzione guidata e la fusione infrarosso-visibile, (2) moduli TGWA e AMDC efficienti che raggiungono prestazioni superiori, e (3) risultati competitivi con parametri significativamente ridotti, stabilendo una nuova frontiera prestazioni-efficienza. Il nostro metodo raggiunge un PSNR di 28,74 dB su PBVS24 utilizzando solo 1,12 M di parametri e 85,44 G di FLOP mantenendo prestazioni competitive. Per i compiti di fusione, otteniamo risultati competitivi sui dataset MSRS e HDRT-Night con i FLOPs più bassi tra tutti i metodi confrontati. Nella rilevazione di oggetti su FLIR_aligned, il nostro metodo raggiunge il 69.42% mAP@0.5, rappresentando un miglioramento del 3.8% rispetto al secondo miglior approccio. Questa disparità di costi rende necessario affrontare simultaneamente i compiti di super-risoluzione e fusione per il miglioramento ad alta risoluzione.
File allegati
File Dimensione Formato  
2025_07_JiajieLu_Thesis_01.pdf

accessibile in internet solo dagli utenti autorizzati

Descrizione: Text of the thesis
Dimensione 22.98 MB
Formato Adobe PDF
22.98 MB Adobe PDF   Visualizza/Apri
2025_07_JiajieLu_Executive_Summary_02.pdf

accessibile in internet per tutti

Descrizione: Executive summary of the thesis
Dimensione 15.1 MB
Formato Adobe PDF
15.1 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/240253