Technology has become a constant in everyone’s day to day life, but there has not been any major innovation in the way we interact with computers since at least a decade. In fact, are still using small 2D rectangles to "immerse" ourselves in the digital world, which naturally causes a lot of friction. As these limits become more and more evident, we are finally entering a platform shift, fostered by AI and Extended Reality, where all-day wearable AR glasses promise to be the next “big thing” in computing. Nonetheless, many innovations across multiple fields are required to make this shift a reality: Smart Eyewear represent arguably the single most complex device ever imagined, due to its tight constraints and intrinsic limitations. In this work we focus on visual SLAM, a key technology which is concerned with the creation of a map of the environment, while simultaneously localizing the agent’s location within it. We have noted the absence in the literature of robust methods for validating these algorithms, which usually rely on small and noisy datasets. Thus, we propose a tool aimed at creating dataset through accurate simulations. This includes a sequence of steps that are typically time-consuming and prone to errors, which become straightforward and easy thanks to our customizable generation pipeline. Our first benchmark has been ORBSLAM3, a state of the art algorithm for SLAM, which has been used to verify the quality of our sequences. Moreover, at the core of many processes of the pipeline stands specifically designed interpolation technique, based on local spline fitting, that has shown remarkable performance.
La tecnologia è divenuta un elemento costante nella vita quotidiana di ciascuno, ma da almeno un decennio non ci sono innovazioni nel modo in cui interagiamo con i computer. Di fatto, continuiamo ad “immergerci” nel mondo virtuale attraverso piccoli rettangoli bidimensionali, nonostante gli evidenti limiti di questo approccio. Mentre questi ultimi diventano sempre più evidenti, stiamo finalmente entrando in una fase di transizione verso un nuovo modello, sostenuto dall’intelligenza artificiale, di cui gli occhiali per la realtà aumentata rappresenterebbero la punta di diamante. Nonostante ciò, perché questo diventi realtà occorrono numerose innovazioni suddivise trasversalmente tra vari campi: gli Smart Eyewear sono tra i dispositivi singoli più complessi mai immaginati, a causa delle numerose limitazioni intrinseche e dei vincoli progettuali. In questa tesi ci focalizziamo sulle tecniche di SLAM visivo, una tecnologia chiave che si occupa di costruire una mappa dell’ambiente, e di localizzare la posizione dell’utente all’interno di essa. Abbiamo infatti notato l’assenza nella letteratura accademica di tecniche robuste per la validazione di questi algoritmi, che solitamente devono ricorrere a dataset di piccole dimensioni e rumorosi. Per questo motivo, abbiamo sviluppato uno strumento per generare dataset sintetici attraverso simulazioni il più possibile accurate. Ciò richiede una sequenza di passaggi che sono tipicamente lunghi e proni ad errori, ma che diventano lineari grazie alla nostra pipeline generativa. Il primo banco di prova è stato ORBSLAM3, un algoritmo allo stato dell'arte per SLAM, che è stato utilizzato per verificare la qualità delle sequenze sintetiche. Oltre a questo, abbiamo sviluppato una tecnica di interpolazione, basata sull'adattamento locale di spline polinomiali, che rappresenta una delle basi della pipeline generativa.
Synthetic Dataset generation for robust validation of vSLAM algorithms
TOSINI, FRANCESCO
2023/2024
Abstract
Technology has become a constant in everyone’s day to day life, but there has not been any major innovation in the way we interact with computers since at least a decade. In fact, are still using small 2D rectangles to "immerse" ourselves in the digital world, which naturally causes a lot of friction. As these limits become more and more evident, we are finally entering a platform shift, fostered by AI and Extended Reality, where all-day wearable AR glasses promise to be the next “big thing” in computing. Nonetheless, many innovations across multiple fields are required to make this shift a reality: Smart Eyewear represent arguably the single most complex device ever imagined, due to its tight constraints and intrinsic limitations. In this work we focus on visual SLAM, a key technology which is concerned with the creation of a map of the environment, while simultaneously localizing the agent’s location within it. We have noted the absence in the literature of robust methods for validating these algorithms, which usually rely on small and noisy datasets. Thus, we propose a tool aimed at creating dataset through accurate simulations. This includes a sequence of steps that are typically time-consuming and prone to errors, which become straightforward and easy thanks to our customizable generation pipeline. Our first benchmark has been ORBSLAM3, a state of the art algorithm for SLAM, which has been used to verify the quality of our sequences. Moreover, at the core of many processes of the pipeline stands specifically designed interpolation technique, based on local spline fitting, that has shown remarkable performance.File | Dimensione | Formato | |
---|---|---|---|
2024_07_Tosini.pdf
non accessibile
Descrizione: Thesis
Dimensione
12.74 MB
Formato
Adobe PDF
|
12.74 MB | Adobe PDF | Visualizza/Apri |
2024_07_Tosini_01.pdf
non accessibile
Descrizione: Executive Summary
Dimensione
10.08 MB
Formato
Adobe PDF
|
10.08 MB | Adobe PDF | Visualizza/Apri |
I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/10589/223900