This thesis project is part of the broader technological and infrastructural modernization program underway at the Fondazione IRCCS Cà Granda Ospedale Maggiore Policlinico di Milano, which also includes the implementation of a Real-Time Location System (RTLS) based on Bluetooth Low Energy technology for tracking biomedical equipment. Given the large number of devices comprising the hospital’s technological assets, an indiscriminate tracking approach would be unsustainable from both economic and management perspectives. In this context, it was therefore necessary to define objective criteria for identifying the devices with the highest tracking priority. The main goal of this thesis is the development of a classification model based on Machine Learning algorithms, designed to automatically assign each device a tracking priority level by integrating technical, managerial, and administrative data. The methodological workflow, implemented in Python, involved data extraction and pre-processing from the hospital’s management system, followed by a feature engineering phase aimed at representing the equipment more consistently with a tracking-oriented perspective. The generated features were then used in an unsupervised clustering process to identify groups of devices with similar characteristics and to select, in line with the Unsupervised Selective Labeling (USL) approach, a representative subset of devices for manual labeling. Among the different configurations analyzed, the combination consisting of the K-Prototypes algorithm associated with the StandardScaler normalization method, with a subdivision into five clusters, proved to be the most suitable in terms of internal cohesion and interpretability of the resulting groups. The manually labeled sample was subsequently used to train supervised classification models, aimed at extending the prediction to unlabeled devices. Numerical variables were normalized using RobustScaler, while categorical ones were encoded through One-Hot Encoding. Among the tested algorithms, the Multinomial Logistic Regression model achieved the best overall performance, enabling the classification to be extended to the entire dataset and providing a comprehensive mapping of the hospital’s technological assets by tracking priority level. This classification supported the launch of the project in the Monteggia Pavilion, offering an objective reference for the gradual implementation of the RTLS within the hospital.

Il presente progetto di tesi si inserisce nel più ampio panorama di rinnovamento tecnologico e infrastrutturale in atto presso la Fondazione IRCCS Cà Granda Ospedale Maggiore Policlinico di Milano, che prevede anche l’introduzione di un sistema di localizzazione in tempo reale (RTLS) basato su tecnologia Bluetooth Low Energy per il tracciamento delle apparecchiature biomediche. Considerato l’elevato numero di dispositivi che compongono il parco macchine, un tracciamento indiscriminato risulterebbe insostenibile dal punto di vista economico e gestionale. In questo scenario, dunque, si è resa necessaria la definizione di criteri oggettivi per l’individuazione delle apparecchiature prioritarie ai fini del tracciamento. L’obiettivo di questa tesi è, quindi, lo sviluppo di un modello di classificazione basato su algoritmi di Machine Learning, volto ad assegnare automaticamente a ciascun dispositivo un grado di priorità di tracciabilità, integrando dati tecnici, gestionali e amministrativi. Il workflow metodologico, implementato in Python, ha previsto l’estrazione e il pre-processing dei dati dal sistema gestionale della Fondazione, seguiti da una fase di feature engineering finalizzata a descrivere le apparecchiature in modo più coerente con l’ottica di tracciamento. Le feature generate sono state utilizzate per un processo di clustering non supervisionato, volto a individuare gruppi di apparecchiature con caratteristiche simili e a selezionare, in linea con l’approccio dell’Unsupervised Selective Labeling, un sottoinsieme rappresentativo di dispositivi da etichettare manualmente. Tra le diverse configurazioni analizzate, la combinazione costituita dall’algoritmo K-Prototypes associato al metodo di normalizzazione StandardScaler, con suddivisione in cinque cluster, è risultata la più adeguata in termini di coesione interna e interpretabilità dei gruppi ottenuti. Il campione etichettato manualmente è stato poi impiegato per l’addestramento di modelli di classificazione supervisionata, finalizzati a estendere la predizione alle apparecchiature prive di etichetta. Le variabili numeriche sono state normalizzate con RobustScaler, mentre le categoriche sono state codificate tramite One-Hot Encoding. Sono stati confrontati tre algoritmi e, tra questi, il modello di Regressione Logistica Multinomiale ha mostrato le prestazioni migliori, consentendo di estendere la classificazione all’intero dataset di apparecchiature e di fornire una mappatura completa del parco tecnologico per grado di priorità di tracciamento. Tale classificazione ha supportato l’avvio del progetto presso il Padiglione Monteggia, fornendo un riferimento oggettivo in ottica di una graduale espansione del sistema.

Sviluppo data-driven di un modello di classificazione per la prioritizzazione della tracciabilità RTLS delle apparecchiature biomedicali

Prizzi, Francesca
2024/2025

Abstract

This thesis project is part of the broader technological and infrastructural modernization program underway at the Fondazione IRCCS Cà Granda Ospedale Maggiore Policlinico di Milano, which also includes the implementation of a Real-Time Location System (RTLS) based on Bluetooth Low Energy technology for tracking biomedical equipment. Given the large number of devices comprising the hospital’s technological assets, an indiscriminate tracking approach would be unsustainable from both economic and management perspectives. In this context, it was therefore necessary to define objective criteria for identifying the devices with the highest tracking priority. The main goal of this thesis is the development of a classification model based on Machine Learning algorithms, designed to automatically assign each device a tracking priority level by integrating technical, managerial, and administrative data. The methodological workflow, implemented in Python, involved data extraction and pre-processing from the hospital’s management system, followed by a feature engineering phase aimed at representing the equipment more consistently with a tracking-oriented perspective. The generated features were then used in an unsupervised clustering process to identify groups of devices with similar characteristics and to select, in line with the Unsupervised Selective Labeling (USL) approach, a representative subset of devices for manual labeling. Among the different configurations analyzed, the combination consisting of the K-Prototypes algorithm associated with the StandardScaler normalization method, with a subdivision into five clusters, proved to be the most suitable in terms of internal cohesion and interpretability of the resulting groups. The manually labeled sample was subsequently used to train supervised classification models, aimed at extending the prediction to unlabeled devices. Numerical variables were normalized using RobustScaler, while categorical ones were encoded through One-Hot Encoding. Among the tested algorithms, the Multinomial Logistic Regression model achieved the best overall performance, enabling the classification to be extended to the entire dataset and providing a comprehensive mapping of the hospital’s technological assets by tracking priority level. This classification supported the launch of the project in the Monteggia Pavilion, offering an objective reference for the gradual implementation of the RTLS within the hospital.
ING - Scuola di Ingegneria Industriale e dell'Informazione
10-dic-2025
2024/2025
Il presente progetto di tesi si inserisce nel più ampio panorama di rinnovamento tecnologico e infrastrutturale in atto presso la Fondazione IRCCS Cà Granda Ospedale Maggiore Policlinico di Milano, che prevede anche l’introduzione di un sistema di localizzazione in tempo reale (RTLS) basato su tecnologia Bluetooth Low Energy per il tracciamento delle apparecchiature biomediche. Considerato l’elevato numero di dispositivi che compongono il parco macchine, un tracciamento indiscriminato risulterebbe insostenibile dal punto di vista economico e gestionale. In questo scenario, dunque, si è resa necessaria la definizione di criteri oggettivi per l’individuazione delle apparecchiature prioritarie ai fini del tracciamento. L’obiettivo di questa tesi è, quindi, lo sviluppo di un modello di classificazione basato su algoritmi di Machine Learning, volto ad assegnare automaticamente a ciascun dispositivo un grado di priorità di tracciabilità, integrando dati tecnici, gestionali e amministrativi. Il workflow metodologico, implementato in Python, ha previsto l’estrazione e il pre-processing dei dati dal sistema gestionale della Fondazione, seguiti da una fase di feature engineering finalizzata a descrivere le apparecchiature in modo più coerente con l’ottica di tracciamento. Le feature generate sono state utilizzate per un processo di clustering non supervisionato, volto a individuare gruppi di apparecchiature con caratteristiche simili e a selezionare, in linea con l’approccio dell’Unsupervised Selective Labeling, un sottoinsieme rappresentativo di dispositivi da etichettare manualmente. Tra le diverse configurazioni analizzate, la combinazione costituita dall’algoritmo K-Prototypes associato al metodo di normalizzazione StandardScaler, con suddivisione in cinque cluster, è risultata la più adeguata in termini di coesione interna e interpretabilità dei gruppi ottenuti. Il campione etichettato manualmente è stato poi impiegato per l’addestramento di modelli di classificazione supervisionata, finalizzati a estendere la predizione alle apparecchiature prive di etichetta. Le variabili numeriche sono state normalizzate con RobustScaler, mentre le categoriche sono state codificate tramite One-Hot Encoding. Sono stati confrontati tre algoritmi e, tra questi, il modello di Regressione Logistica Multinomiale ha mostrato le prestazioni migliori, consentendo di estendere la classificazione all’intero dataset di apparecchiature e di fornire una mappatura completa del parco tecnologico per grado di priorità di tracciamento. Tale classificazione ha supportato l’avvio del progetto presso il Padiglione Monteggia, fornendo un riferimento oggettivo in ottica di una graduale espansione del sistema.
File allegati
File Dimensione Formato  
2025_12_Prizzi_Executive_Summary.pdf

accessibile in internet solo dagli utenti autorizzati

Descrizione: Testo dell'Executive Summary
Dimensione 829.23 kB
Formato Adobe PDF
829.23 kB Adobe PDF   Visualizza/Apri
2025_12_Prizzi_Tesi.pdf

non accessibile

Descrizione: Testo della Tesi
Dimensione 2.61 MB
Formato Adobe PDF
2.61 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/246404