The ever-pressing need to increase efficiency and reduce the environmental impact of human activities involves many aspects of our society, including food production and the agricultural industry. Automation presents key solutions where vision systems capable of precise object detection and segmentation are crucial components. Nevertheless, challenges such as limited labelled data and varying environmental conditions hinder the development of effective solutions. This thesis tackles these issues, leveraging Few Shot Segmentation techniques to improve adaptability and speed up the development of agricultural robotics. This thesis begins by introducing the topic of agricultural robotics and then delves into Few Shot Segmentation methods. These methods are categorized by their architectural design, focusing on the new opportunities presented by foundational models. A thorough review of the literature ranks these approaches based on their performance. The thesis also critically compares Few Shot Segmentation models with traditional Semantic Segmentation ones, highlighting the trade-offs between accuracy and the labour required for data collection and labelling in real-world agricultural scenarios. One significant finding is that existing models struggle with accurately detecting small weeds. To address this challenge, an enhanced model is proposed, incorporating specific modifications to improve the segmentation of small weeds in a few shot regime. Further, this thesis explore the optimization of Few Shot Segmentation pipelines by analyzing the impact of different backbone architectures. We demonstrate that ensembling multiple backbones within a single model can significantly improve performance without additional data. The results present a novel approach that leverages the strengths of various backbone networks, offering a robust solution for segmentation tasks in data-scarce environments. Finally, this thesis presents a method levereging from novel foundational models in solving the task of Few Shot Segmentation by combining and taking advantage of visual and texutual modalities.

La pressante necessità di aumentare l’efficienza e ridurre l’impatto ambientale delle attività umane interessa numerosi settori della nostra società, tra cui la produzione alimentare e l’industria agricola. L’automazione offre soluzioni fondamentali, nelle quali i sistemi di visione capaci di rilevare e segmentare oggetti con precisione rappresentano componenti cruciali. Tuttavia, la disponibilità limitata di dati etichettati e le condizioni ambientali variabili ostacolano lo sviluppo di soluzioni efficaci. Questa tesi affronta tali problemi, sfruttando le tecniche di Few Shot Segmentation per migliorare l’adattabilità e accelerare l’innovazione nella robotica agricola. La tesi inizia introducendo la robotica agricola e approfondendo i metodi di Few Shot Segmentation, classificati in base al loro design architetturale con particolare attenzione alle nuove opportunità offerte dai modelli fondamentali (foundational models). Una revisione completa della letteratura ordina questi approcci secondo le loro prestazioni. Inoltre, la tesi confronta criticamente i modelli di Few Shot Segmentation con quelli tradizionali di Semantic Segmentation, evidenziando i compromessi tra accuratezza e lavoro richiesto per la raccolta e l’etichettatura dei dati in scenari agricoli reali. Un risultato rilevante è che i modelli esistenti hanno difficoltà a individuare accuratamente le infestanti di piccole dimensioni. Per superare questa sfida, viene proposto un modello migliorato che integra modifiche specifiche per segmentare in modo più preciso le piccole erbacce in regime few‑shot. Successivamente, la tesi esplora l’ottimizzazione delle pipeline di Few Shot Segmentation analizzando l’impatto di diverse architetture di backbone. Dimostriamo che l’ensembling di più backbone all’interno di un singolo modello può incrementare significativamente le prestazioni senza richiedere dati aggiuntivi. I risultati offrono un approccio innovativo che sfrutta i punti di forza di vari network backbone, proponendo una soluzione robusta alle attività di segmentazione in ambienti con carenza di dati. Infine, la tesi presenta un metodo che fa leva sui nuovi modelli fondamentali per risolvere il compito di Few Shot Segmentation, combinando e valorizzando le modalità visive e testuali.

Few shot segmentation: combat data drought in precision agricolture

Catalano, Nico
2024/2025

Abstract

The ever-pressing need to increase efficiency and reduce the environmental impact of human activities involves many aspects of our society, including food production and the agricultural industry. Automation presents key solutions where vision systems capable of precise object detection and segmentation are crucial components. Nevertheless, challenges such as limited labelled data and varying environmental conditions hinder the development of effective solutions. This thesis tackles these issues, leveraging Few Shot Segmentation techniques to improve adaptability and speed up the development of agricultural robotics. This thesis begins by introducing the topic of agricultural robotics and then delves into Few Shot Segmentation methods. These methods are categorized by their architectural design, focusing on the new opportunities presented by foundational models. A thorough review of the literature ranks these approaches based on their performance. The thesis also critically compares Few Shot Segmentation models with traditional Semantic Segmentation ones, highlighting the trade-offs between accuracy and the labour required for data collection and labelling in real-world agricultural scenarios. One significant finding is that existing models struggle with accurately detecting small weeds. To address this challenge, an enhanced model is proposed, incorporating specific modifications to improve the segmentation of small weeds in a few shot regime. Further, this thesis explore the optimization of Few Shot Segmentation pipelines by analyzing the impact of different backbone architectures. We demonstrate that ensembling multiple backbones within a single model can significantly improve performance without additional data. The results present a novel approach that leverages the strengths of various backbone networks, offering a robust solution for segmentation tasks in data-scarce environments. Finally, this thesis presents a method levereging from novel foundational models in solving the task of Few Shot Segmentation by combining and taking advantage of visual and texutual modalities.
PIRODDI, LUIGI
AMIGONI, FRANCESCO
28-apr-2025
La pressante necessità di aumentare l’efficienza e ridurre l’impatto ambientale delle attività umane interessa numerosi settori della nostra società, tra cui la produzione alimentare e l’industria agricola. L’automazione offre soluzioni fondamentali, nelle quali i sistemi di visione capaci di rilevare e segmentare oggetti con precisione rappresentano componenti cruciali. Tuttavia, la disponibilità limitata di dati etichettati e le condizioni ambientali variabili ostacolano lo sviluppo di soluzioni efficaci. Questa tesi affronta tali problemi, sfruttando le tecniche di Few Shot Segmentation per migliorare l’adattabilità e accelerare l’innovazione nella robotica agricola. La tesi inizia introducendo la robotica agricola e approfondendo i metodi di Few Shot Segmentation, classificati in base al loro design architetturale con particolare attenzione alle nuove opportunità offerte dai modelli fondamentali (foundational models). Una revisione completa della letteratura ordina questi approcci secondo le loro prestazioni. Inoltre, la tesi confronta criticamente i modelli di Few Shot Segmentation con quelli tradizionali di Semantic Segmentation, evidenziando i compromessi tra accuratezza e lavoro richiesto per la raccolta e l’etichettatura dei dati in scenari agricoli reali. Un risultato rilevante è che i modelli esistenti hanno difficoltà a individuare accuratamente le infestanti di piccole dimensioni. Per superare questa sfida, viene proposto un modello migliorato che integra modifiche specifiche per segmentare in modo più preciso le piccole erbacce in regime few‑shot. Successivamente, la tesi esplora l’ottimizzazione delle pipeline di Few Shot Segmentation analizzando l’impatto di diverse architetture di backbone. Dimostriamo che l’ensembling di più backbone all’interno di un singolo modello può incrementare significativamente le prestazioni senza richiedere dati aggiuntivi. I risultati offrono un approccio innovativo che sfrutta i punti di forza di vari network backbone, proponendo una soluzione robusta alle attività di segmentazione in ambienti con carenza di dati. Infine, la tesi presenta un metodo che fa leva sui nuovi modelli fondamentali per risolvere il compito di Few Shot Segmentation, combinando e valorizzando le modalità visive e testuali.
File allegati
File Dimensione Formato  
ClassicThesis.pdf

non accessibile

Dimensione 75.81 MB
Formato Adobe PDF
75.81 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/237818