This thesis work is placed in the context of B2B contract manufacturing for medical devices and addresses the topic of automation of company information processes. The activity carried out at Creaproduct s.r.l. highlighted two main critical issues: the absence of software tools to support the quotation process and the non-integrated management of passive electronic invoices within the CREACIS company ERP. To address these needs, two applications were designed and developed in Python: Excavator and Fiscus. The first is dedicated to the extraction and structuring of historical quotation data in PDF format, producing coherent and usable data-set for the training of future corporate Artificial Intelligence models. These models, based on data generated by Excavator, will provide support for the decisions during the project development stage. The second, Fiscus, automates the extraction and management of passive electronic invoices in XML format, implementing normalization and duplicate control processes to guarantee the integrity and consistency of accounting data. The processed data constitutes a structured and reliable resource, usable for performance analyzes and decision support in administrative and financial activities, with the aim of integrating the entire process into the CREACIS corporate ERP system in the future. Overall, the work contributed to the creation of two independent software tools, which contribute to improving the quality, coherence and accessibility of company data, marking a concrete advancement in the path of digitalisation and automation of information flows.
Il presente lavoro di tesi si colloca nel contesto del contract manufacturing B2B per dispositivi medicali e affronta il tema dell’automazione dei processi informativi aziendali. In tale ambito, l’attività svolta presso Creaproduct s.r.l. ha evidenziato due criticità principali: l’assenza di strumenti software a supporto del processo di quotazione e la gestione non integrata delle fatture elettroniche passive all’interno dell’ERP aziendale CREACIS. Per rispondere a queste esigenze, sono state progettate e sviluppate due applicazioni in Python: Excavator e Fiscus. La prima è dedicata all’estrazione e strutturazione dei dati storici delle quotazioni in formato PDF, producendo un data-set coerente e utilizzabile per l’addestramento dei futuri modelli di Intelligenza Artificiale aziendale. Questi modelli, basati sui dati generati da Excavator, forniranno supporto alle decisioni nella fase di sviluppo dei progetti. La seconda, Fiscus, automatizza l’estrazione e la gestione delle fatture elettroniche passive in formato XML, implementando logiche di normalizzazione e controllo dei duplicati per garantire integrità e coerenza dei dati contabili. I dati elaborati costituiscono una risorsa strutturata e affidabile, impiegabile per analisi di performance e per il supporto decisionale nelle attività amministrative e finanziarie, con l’obiettivo di integrare in futuro l’intero processo nel sistema ERP aziendale CREACIS. Nel complesso, il lavoro ha portato alla creazione di due strumenti software indipendenti che contribuiscono al miglioramento della qualità, coerenza e accessibilità dei dati aziendali, segnando un avanzamento concreto nel percorso di digitalizzazione e automazione dei flussi informativi.
Progettazione e sviluppo di pipeline per l'estrazione e la normalizzazione di dati eterogenei (PDF e XML) in un contesto B2B
MORETTI, LORENZO
2024/2025
Abstract
This thesis work is placed in the context of B2B contract manufacturing for medical devices and addresses the topic of automation of company information processes. The activity carried out at Creaproduct s.r.l. highlighted two main critical issues: the absence of software tools to support the quotation process and the non-integrated management of passive electronic invoices within the CREACIS company ERP. To address these needs, two applications were designed and developed in Python: Excavator and Fiscus. The first is dedicated to the extraction and structuring of historical quotation data in PDF format, producing coherent and usable data-set for the training of future corporate Artificial Intelligence models. These models, based on data generated by Excavator, will provide support for the decisions during the project development stage. The second, Fiscus, automates the extraction and management of passive electronic invoices in XML format, implementing normalization and duplicate control processes to guarantee the integrity and consistency of accounting data. The processed data constitutes a structured and reliable resource, usable for performance analyzes and decision support in administrative and financial activities, with the aim of integrating the entire process into the CREACIS corporate ERP system in the future. Overall, the work contributed to the creation of two independent software tools, which contribute to improving the quality, coherence and accessibility of company data, marking a concrete advancement in the path of digitalisation and automation of information flows.| File | Dimensione | Formato | |
|---|---|---|---|
|
2025_12_Moretti.pdf
non accessibile
Descrizione: Testo della tesi
Dimensione
961.21 kB
Formato
Adobe PDF
|
961.21 kB | Adobe PDF | Visualizza/Apri |
I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/10589/246686