In recent years, waste management has become increasingly challenging due to the variety and vast quantities of materials produced daily. Professionals struggle with waste management due to high disposal costs, leading to illegal wastelands that pose serious environmental risks. Rapid detection and dismantling are a crucial aspect to account for, while technology has improved waste detection, manual inspections remain slow and resource-intensive. In this context, Computer Vision offers a powerful solution to process the vast amounts of collected data, enabling law enforcement to focus on relevant information and providing insights that might otherwise be overlooked by human inspectors. This thesis investigates the application of Deep Learning models and techniques to address the complex task of waste detection and classification. A major challenge in this field is the waste types' variability, which limits annotated data availability and complicates the application of standard deep learning techniques. To overcome these barriers, the study examines the use of prompting techniques within remote sensing, particularly for analyzing drone-captured images, to identify waste categories without relying on traditional training methods that require significant datasets and computational resources. Vision Transformers (ViT) and Vision-Language Models (VLMs) have proven to be an effective approach for these tasks. By leveraging extensive pretraining on large datasets, these models eliminate in fact the need for conventional training pipelines. Specifically, the research explores zero-shot and few-shot learning techniques, which enable waste detection with little to no prior image data. Results demonstrate that these methods achieve performance comparable to traditional models. The proposed models provide a valuable tool for law enforcement, facilitating the identification of waste types, optimizing disposal strategies, and dynamically adjusting search categories in real time. Overall, this study highlights the potential of prompting techniques in transforming waste management by enhancing detection accuracy, reducing operational costs, and improving environmental sustainability.

Negli ultimi anni, la gestione dei rifiuti è diventata sempre più complessa a causa della varietà e delle enormi quantità di materiali prodotti quotidianamente. I professionisti del settore affrontano alti costi di smaltimento, che portano spesso alla creazione di discariche abusive e conseguenti rischi ambientali. Nonostante i contributi della tecnologia, le ispezioni manuali, lente e dispendiose, restano l’approccio principale. In questo contesto, la visione artificiale offre una soluzione all'avanguardia per elaborare le grandi quantità di dati disponibili, consentendo alle forze dell'ordine di concentrarsi sulle informazioni più rilevanti e fornendo approfondimenti che potrebbero sfuggire a operatori umani. Questa tesi esplora l'applicazione di modelli e tecniche di Deep Learning applicati al rilevamento e classificazione di rifiuti. Unendo ciò all’uso di tecniche di prompting nell'ambito del telerilevamento, è possibile affrontare i principali problemi di questo contesto, ovvero l’alta variabilità dei rifiuti e la carenza di dati annotati. In particolare, questi metodi permettono l’identificazione delle categorie di rifiuti senza ricorrere ad un processo di addestramento, che richiede grandi quantità di dati e di risorse computazionali. Vision Transformers e Vision-Language Models dimostrano di essere gli approcci più efficaci per quanto descritto. Sfruttando il loro esteso pretraining è infatti possibile evitare di eseguire un addestramento convenzionale. Nello specifico, la ricerca esplora le tecniche di apprendimento zero-shot e few-shot, che consentono il rilevamento dei rifiuti con poche o nessuna immagine di riferimento. I risultati ottenuti mostrano prestazioni comparabili ai modelli tradizionali. I modelli proposti si rivelano strumenti preziosi per le forze dell’ordine, semplificando l’identificazione di rifiuti, adattandosi in tempo reale alle categorie ricercate e ottimizzando quindi le strategie di smaltimento. Complessivamente, questo studio evidenzia il potenziale impatto delle tecniche di prompting sulla gestione dei rifiuti, migliorando l'accuratezza del rilevamento, riducendo i costi operativi e contribuendo alla sostenibilità ambientale.

Exploring prompt engineering for waste detection in UAV imagery

MUNAFO', GABRIELE
2023/2024

Abstract

In recent years, waste management has become increasingly challenging due to the variety and vast quantities of materials produced daily. Professionals struggle with waste management due to high disposal costs, leading to illegal wastelands that pose serious environmental risks. Rapid detection and dismantling are a crucial aspect to account for, while technology has improved waste detection, manual inspections remain slow and resource-intensive. In this context, Computer Vision offers a powerful solution to process the vast amounts of collected data, enabling law enforcement to focus on relevant information and providing insights that might otherwise be overlooked by human inspectors. This thesis investigates the application of Deep Learning models and techniques to address the complex task of waste detection and classification. A major challenge in this field is the waste types' variability, which limits annotated data availability and complicates the application of standard deep learning techniques. To overcome these barriers, the study examines the use of prompting techniques within remote sensing, particularly for analyzing drone-captured images, to identify waste categories without relying on traditional training methods that require significant datasets and computational resources. Vision Transformers (ViT) and Vision-Language Models (VLMs) have proven to be an effective approach for these tasks. By leveraging extensive pretraining on large datasets, these models eliminate in fact the need for conventional training pipelines. Specifically, the research explores zero-shot and few-shot learning techniques, which enable waste detection with little to no prior image data. Results demonstrate that these methods achieve performance comparable to traditional models. The proposed models provide a valuable tool for law enforcement, facilitating the identification of waste types, optimizing disposal strategies, and dynamically adjusting search categories in real time. Overall, this study highlights the potential of prompting techniques in transforming waste management by enhancing detection accuracy, reducing operational costs, and improving environmental sustainability.
DIECIDUE, ANDREA
ING - Scuola di Ingegneria Industriale e dell'Informazione
3-apr-2025
2023/2024
Negli ultimi anni, la gestione dei rifiuti è diventata sempre più complessa a causa della varietà e delle enormi quantità di materiali prodotti quotidianamente. I professionisti del settore affrontano alti costi di smaltimento, che portano spesso alla creazione di discariche abusive e conseguenti rischi ambientali. Nonostante i contributi della tecnologia, le ispezioni manuali, lente e dispendiose, restano l’approccio principale. In questo contesto, la visione artificiale offre una soluzione all'avanguardia per elaborare le grandi quantità di dati disponibili, consentendo alle forze dell'ordine di concentrarsi sulle informazioni più rilevanti e fornendo approfondimenti che potrebbero sfuggire a operatori umani. Questa tesi esplora l'applicazione di modelli e tecniche di Deep Learning applicati al rilevamento e classificazione di rifiuti. Unendo ciò all’uso di tecniche di prompting nell'ambito del telerilevamento, è possibile affrontare i principali problemi di questo contesto, ovvero l’alta variabilità dei rifiuti e la carenza di dati annotati. In particolare, questi metodi permettono l’identificazione delle categorie di rifiuti senza ricorrere ad un processo di addestramento, che richiede grandi quantità di dati e di risorse computazionali. Vision Transformers e Vision-Language Models dimostrano di essere gli approcci più efficaci per quanto descritto. Sfruttando il loro esteso pretraining è infatti possibile evitare di eseguire un addestramento convenzionale. Nello specifico, la ricerca esplora le tecniche di apprendimento zero-shot e few-shot, che consentono il rilevamento dei rifiuti con poche o nessuna immagine di riferimento. I risultati ottenuti mostrano prestazioni comparabili ai modelli tradizionali. I modelli proposti si rivelano strumenti preziosi per le forze dell’ordine, semplificando l’identificazione di rifiuti, adattandosi in tempo reale alle categorie ricercate e ottimizzando quindi le strategie di smaltimento. Complessivamente, questo studio evidenzia il potenziale impatto delle tecniche di prompting sulla gestione dei rifiuti, migliorando l'accuratezza del rilevamento, riducendo i costi operativi e contribuendo alla sostenibilità ambientale.
File allegati
File Dimensione Formato  
2025_04_Munafò_Executive_Summary.pdf

accessibile in internet per tutti

Dimensione 9.77 MB
Formato Adobe PDF
9.77 MB Adobe PDF Visualizza/Apri
2025_04_Munafò_Tesi.pdf

accessibile in internet per tutti

Dimensione 44.02 MB
Formato Adobe PDF
44.02 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/235269