This thesis presents a Natural Language Processing (NLP)-based system developed to automate patient eligibility assessment for clinical trials, addressing complex challenges in healthcare documentation and cohort selection with lightweight large language models (LLMs). The healthcare domain is marked by highly specialized, diverse medical language, which makes manual extraction of relevant information from unstructured clinical notes labor-intensive and time-consuming. To address these issues, this system leverages lightweight LLMs such as Mistral and LLaMA 3, integrating a search engine and eligibility evaluation module into a unified, user-friendly interface. This interface supports healthcare professionals by facilitating the retrieval of patient records and providing automated eligibility determinations based on predefined clinical criteria. The methodology involves preprocessing synthetic clinical data, indexing documents in Elasticsearch, and implementing FastAPI with BM25 and FARMReader to enable efficient document retrieval and question answering. An LLM-based pipeline then evaluates eligibility by analyzing patient data in the context of specified criteria, delivering concise, explainable justifications that enhance transparency and trustworthiness in clinical decision-making. Experimental results show that lightweight LLMs can provide efficient and accurate eligibility assessments, with an emphasis on interpretability through explainability features. Although challenges related to data variability, model limitations, and ethical considerations were encountered, specific strategies were implemented to mitigate these issues. This research highlights the promise of NLP and LLM-based solutions in healthcare, demonstrating a valuable application of AI in automating patient selection for clinical trials and advancing clinical decision support.

Questa tesi presenta un sistema basato su Natural Language Processing (NLP) sviluppato per automatizzare la valutazione dell'idoneità dei pazienti per le sperimentazioni cliniche, affrontando sfide complesse nella documentazione sanitaria e nella selezione delle coorti mediante Large Language Model (LLM) di dimensioni contenute. Il settore sanitario è caratterizzato da un linguaggio medico altamente specializzato e diversificato, che rende l'estrazione manuale delle informazioni rilevanti dalle note cliniche non strutturate laboriosa e dispendiosa in termini di tempo. Per affrontare queste problematiche, il sistema utilizza LLM di dimensioni contenute come Mistral e LLaMA 3, integrando un motore di ricerca e un modulo di valutazione dell'idoneità in un'interfaccia unificata e intuitiva. Questa interfaccia supporta i professionisti sanitari facilitando il recupero delle cartelle cliniche dei pazienti e fornendo valutazioni automatizzate dell'idoneità basate su criteri clinici predefiniti. La metodologia prevede di preprocessare dati clinici sintetici, di indicizzare dei documenti in Elasticsearch e di integrare FastAPI con BM25 e FARMReader permettendo così sia una ricerca più efficiente dei documenti sia di rispondere a domande. Una pipeline basata su LLM valuta l'idoneità analizzando i dati dei pazienti nel contesto dei criteri specificati, fornendo giustificazioni concise e spiegabili che migliorano la trasparenza e la affidabilità nelle decisioni cliniche. I risultati sperimentali mostrano che questi LLM di dimensioni contenute possono fornire valutazioni di idoneità efficienti e accurate, con un'enfasi sull'interpretabilità attraverso funzionalità di spiegabilità. Sebbene siano emerse sfide legate alla variabilità dei dati, ai limiti dei modelli e a considerazioni etiche, sono state implementate strategie specifiche per mitigare tali problemi. Questa ricerca evidenzia il potenziale delle soluzioni basate su NLP e LLM nel settore sanitario, dimostrando un'applicazione preziosa dell'IA nell'automazione della selezione dei pazienti per le sperimentazioni cliniche e nel miglioramento del supporto decisionale clinico.

Application of lightweight LLMs in clinical document analysis for patient cohort selection

JAHEDNIA, MOHAMMADREZA
2023/2024

Abstract

This thesis presents a Natural Language Processing (NLP)-based system developed to automate patient eligibility assessment for clinical trials, addressing complex challenges in healthcare documentation and cohort selection with lightweight large language models (LLMs). The healthcare domain is marked by highly specialized, diverse medical language, which makes manual extraction of relevant information from unstructured clinical notes labor-intensive and time-consuming. To address these issues, this system leverages lightweight LLMs such as Mistral and LLaMA 3, integrating a search engine and eligibility evaluation module into a unified, user-friendly interface. This interface supports healthcare professionals by facilitating the retrieval of patient records and providing automated eligibility determinations based on predefined clinical criteria. The methodology involves preprocessing synthetic clinical data, indexing documents in Elasticsearch, and implementing FastAPI with BM25 and FARMReader to enable efficient document retrieval and question answering. An LLM-based pipeline then evaluates eligibility by analyzing patient data in the context of specified criteria, delivering concise, explainable justifications that enhance transparency and trustworthiness in clinical decision-making. Experimental results show that lightweight LLMs can provide efficient and accurate eligibility assessments, with an emphasis on interpretability through explainability features. Although challenges related to data variability, model limitations, and ethical considerations were encountered, specific strategies were implemented to mitigate these issues. This research highlights the promise of NLP and LLM-based solutions in healthcare, demonstrating a valuable application of AI in automating patient selection for clinical trials and advancing clinical decision support.
BRUNELLO, NICOLÒ
SCOTTI, VINCENZO
ING - Scuola di Ingegneria Industriale e dell'Informazione
11-dic-2024
2023/2024
Questa tesi presenta un sistema basato su Natural Language Processing (NLP) sviluppato per automatizzare la valutazione dell'idoneità dei pazienti per le sperimentazioni cliniche, affrontando sfide complesse nella documentazione sanitaria e nella selezione delle coorti mediante Large Language Model (LLM) di dimensioni contenute. Il settore sanitario è caratterizzato da un linguaggio medico altamente specializzato e diversificato, che rende l'estrazione manuale delle informazioni rilevanti dalle note cliniche non strutturate laboriosa e dispendiosa in termini di tempo. Per affrontare queste problematiche, il sistema utilizza LLM di dimensioni contenute come Mistral e LLaMA 3, integrando un motore di ricerca e un modulo di valutazione dell'idoneità in un'interfaccia unificata e intuitiva. Questa interfaccia supporta i professionisti sanitari facilitando il recupero delle cartelle cliniche dei pazienti e fornendo valutazioni automatizzate dell'idoneità basate su criteri clinici predefiniti. La metodologia prevede di preprocessare dati clinici sintetici, di indicizzare dei documenti in Elasticsearch e di integrare FastAPI con BM25 e FARMReader permettendo così sia una ricerca più efficiente dei documenti sia di rispondere a domande. Una pipeline basata su LLM valuta l'idoneità analizzando i dati dei pazienti nel contesto dei criteri specificati, fornendo giustificazioni concise e spiegabili che migliorano la trasparenza e la affidabilità nelle decisioni cliniche. I risultati sperimentali mostrano che questi LLM di dimensioni contenute possono fornire valutazioni di idoneità efficienti e accurate, con un'enfasi sull'interpretabilità attraverso funzionalità di spiegabilità. Sebbene siano emerse sfide legate alla variabilità dei dati, ai limiti dei modelli e a considerazioni etiche, sono state implementate strategie specifiche per mitigare tali problemi. Questa ricerca evidenzia il potenziale delle soluzioni basate su NLP e LLM nel settore sanitario, dimostrando un'applicazione preziosa dell'IA nell'automazione della selezione dei pazienti per le sperimentazioni cliniche e nel miglioramento del supporto decisionale clinico.
File allegati
File Dimensione Formato  
Thesis.pdf

accessibile in internet solo dagli utenti autorizzati

Descrizione: Thesis
Dimensione 2.07 MB
Formato Adobe PDF
2.07 MB Adobe PDF   Visualizza/Apri
Executive_Summary.pdf

accessibile in internet solo dagli utenti autorizzati

Descrizione: Executive Summary
Dimensione 551.1 kB
Formato Adobe PDF
551.1 kB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/230294