Quantitative information extraction from visual representations using multimodal LLMs

The thesis proposes and validates an automated methodology for the quantitative extraction of information from complex visual representations, such as graphs and tables contained in PDF documents. The goal is to transform unstructured graphical content into coherent numerical data, readable by analytical systems, overcoming the limitations of traditional computer vision and OCR methods. The work is placed in the context of multimodal models of language (Multimodal LLM), which integrate visual and textual understanding into a single semantic space. A Python-based end-to-end pipeline was developed, divided into phases of extraction, classification, interpretation and structuring of the results. The system uses Claude 3.5 models (Haiku and Sonnet) to recognize the type of representation and return data in JSON or CSV format, ensuring traceability, modularity and replicability. The experimentation, conducted on real documents from institutional sources, highlighted an average precision between 78% (Haiku) and 86% (Sonnet), with stable and coherent results even in the presence of heterogeneous images. Performance confirms the validity of the approach and the possibility of applying it on a large scale for automatic analyses of reports and publications. The project represents a concrete step towards transparent and verifiable artificial intelligence systems, capable of transforming visual knowledge into reliable numerical data, integrating engineering automation and cognitive capacity of multimodal language models.

La tesi propone e valida una metodologia automatizzata per l’estrazione quantitativa di informazioni da rappresentazioni visive complesse, come grafici e tabelle contenuti in documenti PDF. L’obiettivo è trasformare contenuti grafici non strutturati in dati numerici coerenti, leggibili da sistemi analitici, superando i limiti dei metodi tradizionali di computer vision e OCR. Il lavoro si colloca nel contesto dei modelli multimodali di linguaggio (Multimodal LLM), che integrano comprensione visiva e testuale in un unico spazio semantico. È stata sviluppata una pipeline end-to-end basata su Python, articolata in fasi di estrazione, classificazione, interpretazione e strutturazione dei risultati. Il sistema utilizza modelli Claude 3.5 (Haiku e Sonnet) per riconoscere il tipo di rappresentazione e restituire i dati in formato JSON o CSV, garantendo tracciabilità, modularità e replicabilità. La sperimentazione, condotta su documenti reali provenienti da fonti istituzionali, ha evidenziato una precisione media tra il 78% (Haiku) e 86% (Sonnet), con risultati stabili e coerenti anche in presenza di immagini eterogenee. Le prestazioni confermano la validità dell’approccio e la possibilità di applicarlo su larga scala per analisi automatiche di report e pubblicazioni. Il progetto rappresenta un passo concreto verso sistemi di intelligenza artificiale trasparenti e verificabili, capaci di trasformare la conoscenza visiva in dati numerici affidabili, integrando automazione ingegneristica e capacità cognitiva dei modelli linguistici multimodali.