Recent advancements in Large Language Models have transformed how AI can support complex, real-world tasks, pushing researchers to try these models in multi-modal contexts. This opened new avenues for technical assistance, which we want to explore in this work. This thesis studies the capabilities of Multimodal Large Language Models (MLLMs) in assisting with procedural tasks, specifically focusing on complex, step-by-step furniture assembly scenarios. Through three main research questions, we examine (1) whether the reasoning abilities of MLLMs can be used to reduce the need for detailed labeling, allowing for more efficient, cost-effective annotation practices, (2) whether MLLMs are able to track the progression of assembly steps, (3) and recognize relevant instruction manual pages. To address these questions, we propose a dataset and a series of experiments evaluating models' step-tracking, step-detection, and step-prediction capabilities. Results indicate that while some models demonstrate a general understanding of procedural sequences, their performance remains limited by current architectural and hardware constraints, such as context window and memory limitations for multi-frame analysis. Moreover, our findings highlight the significance of multi-image and interleaved text-image reasoning in technical assistance tasks.

I recenti progressi nei Large Language Models hanno trasformato il modo in cui l'IA può supportare compiti complessi nel mondo reale, spingendo i ricercatori a sperimentare questi modelli in contesti multi-modali. Questo ha aperto nuove possibilità per l'assistenza tecnica, che intendiamo esplorare in questo lavoro. Questa tesi studia le capacità dei Multi-modal Large Language Models (MLLM) nell'assistere compiti procedurali, concentrandosi specificamente su scenari complessi di assemblaggio di mobili passo-passo. Attraverso tre principali domande di ricerca, esaminiamo (1) se le capacità di ragionamento degli MLLM possano essere utilizzate per ridurre la necessità di annotazioni dettagliate, permettendo pratiche di annotazione più efficienti ed economiche, (2) se gli MLLM siano in grado di seguire la progressione dei passaggi di assemblaggio, (3) e riconoscere le pagine rilevanti del manuale di istruzioni. Per rispondere a queste domande, proponiamo un dataset e una serie di esperimenti per valutare le capacità dei modelli nel tracciare i passaggi, rilevare i passaggi e prevedere i passaggi successivi. I risultati indicano che, sebbene alcuni modelli dimostrino una comprensione generale delle sequenze procedurali, le loro prestazioni sono ancora limitate dai vincoli attuali di architettura e hardware, come la context window e le limitazioni di memoria per l'analisi multi-frame. Inoltre, i nostri risultati evidenziano l'importanza del ragionamento multi-immagine e ragionamento tra testo e immagine negli scenari di assistenza tecnica.

From instructions to assistance: the manual-to-action dataset (M2AD) for the evaluation of multimodal LLMs

Toschi, Federico
2023/2024

Abstract

Recent advancements in Large Language Models have transformed how AI can support complex, real-world tasks, pushing researchers to try these models in multi-modal contexts. This opened new avenues for technical assistance, which we want to explore in this work. This thesis studies the capabilities of Multimodal Large Language Models (MLLMs) in assisting with procedural tasks, specifically focusing on complex, step-by-step furniture assembly scenarios. Through three main research questions, we examine (1) whether the reasoning abilities of MLLMs can be used to reduce the need for detailed labeling, allowing for more efficient, cost-effective annotation practices, (2) whether MLLMs are able to track the progression of assembly steps, (3) and recognize relevant instruction manual pages. To address these questions, we propose a dataset and a series of experiments evaluating models' step-tracking, step-detection, and step-prediction capabilities. Results indicate that while some models demonstrate a general understanding of procedural sequences, their performance remains limited by current architectural and hardware constraints, such as context window and memory limitations for multi-frame analysis. Moreover, our findings highlight the significance of multi-image and interleaved text-image reasoning in technical assistance tasks.
SCOTTI, VINCENZO
ING - Scuola di Ingegneria Industriale e dell'Informazione
11-dic-2024
2023/2024
I recenti progressi nei Large Language Models hanno trasformato il modo in cui l'IA può supportare compiti complessi nel mondo reale, spingendo i ricercatori a sperimentare questi modelli in contesti multi-modali. Questo ha aperto nuove possibilità per l'assistenza tecnica, che intendiamo esplorare in questo lavoro. Questa tesi studia le capacità dei Multi-modal Large Language Models (MLLM) nell'assistere compiti procedurali, concentrandosi specificamente su scenari complessi di assemblaggio di mobili passo-passo. Attraverso tre principali domande di ricerca, esaminiamo (1) se le capacità di ragionamento degli MLLM possano essere utilizzate per ridurre la necessità di annotazioni dettagliate, permettendo pratiche di annotazione più efficienti ed economiche, (2) se gli MLLM siano in grado di seguire la progressione dei passaggi di assemblaggio, (3) e riconoscere le pagine rilevanti del manuale di istruzioni. Per rispondere a queste domande, proponiamo un dataset e una serie di esperimenti per valutare le capacità dei modelli nel tracciare i passaggi, rilevare i passaggi e prevedere i passaggi successivi. I risultati indicano che, sebbene alcuni modelli dimostrino una comprensione generale delle sequenze procedurali, le loro prestazioni sono ancora limitate dai vincoli attuali di architettura e hardware, come la context window e le limitazioni di memoria per l'analisi multi-frame. Inoltre, i nostri risultati evidenziano l'importanza del ragionamento multi-immagine e ragionamento tra testo e immagine negli scenari di assistenza tecnica.
File allegati
File Dimensione Formato  
2024_12_Toschi_Executive_Summary.pdf

accessibile in internet per tutti

Dimensione 522.81 kB
Formato Adobe PDF
522.81 kB Adobe PDF Visualizza/Apri
2024_12_Toschi_Thesis.pdf

accessibile in internet solo dagli utenti autorizzati

Dimensione 3.92 MB
Formato Adobe PDF
3.92 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/231453