Natural Language Processing for clinical documents: addressing label scarcity to support healthcare policies and clinical practice

Clinical documents play a crucial role in modern healthcare, containing rich yet unstructured information about patient history, diagnoses, and treatments that are only partially captured by structured databases. In recent years, Natural Language Processing (NLP) has evolved rapidly, achieving remarkable results in various tasks. However, clinical NLP faces significant challenges, including the scarcity of labelled data, privacy constraints, the complexity of medical language, and the heterogeneity of medical documents. These limitations have historically slowed the adoption of NLP in healthcare, particularly in languages other than English. This thesis addresses these challenges, particularly the scarcity of labelled data, by proposing a wide spectrum of techniques, including unsupervised, weakly supervised, and data augmentation approaches for fully supervised learning. The algorithms and models developed span the entire range of NLP techniques, from rule-based methods to the most recent large language models, including a dedicated study on model interpretability. The main contribution of this thesis is the adaptation of all these diverse techniques to the clinical NLP setting, demonstrating how they can be effectively used to face the challenges posed by this domain. The studies presented in the thesis fall within the contexts of the Italian and Dutch healthcare systems, where research on clinical NLP has been particularly limited. Different types of textual data are analyzed, including referrals, discharge summaries, and progress notes, across various medical specialties such as cardiology, pediatrics, angiology, and gastroenterology. Each study addresses a real-world problem, working within computational and data constraints and proposing tailored methods to overcome them. The first two studies focus on public health applications, developed in collaboration with health authorities in the Lombardy Region, while the remaining studies tackle challenges in epidemiology and clinical practice, supporting medical researchers and clinicians across different institutions. By demonstrating how a broad range of NLP techniques can be applied effectively in clinical settings, overcoming the previously mentioned barriers, this thesis lays the groundwork for future advancements in healthcare text analysis. The findings highlight the potential of NLP to optimize healthcare administration, support clinicians, and facilitate epidemiological research. Continued progress in this field will require further interdisciplinary collaboration aimed at the development of multilingual, privacy-conscious models with limited computational requirements, that can be seamlessly integrated into real-world healthcare systems.

I documenti medici svolgono un ruolo cruciale nell'assistenza sanitaria moderna, in quanto contengono informazioni ricche ma non strutturate sulla storia clinica del paziente, sulle diagnosi e sui trattamenti, che vengono catturate solo parzialmente dai database strutturati. Negli ultimi anni, il Natural Language Processing (Elaborazione del Linguaggio Natural - NLP) si è evoluto rapidamente, ottenendo notevoli risultati in numerosi compiti. Tuttavia, l'NLP clinico deve affrontare sfide significative, tra cui la scarsità di dati annotati, i vincoli legati alla privacy, la complessità del linguaggio medico e l'eterogeneità dei documenti sanitari. Queste limitazioni hanno storicamente rallentato l'adozione dell'NLP in ambito sanitario, in particolare in lingue diverse dall'inglese. Questa tesi affronta queste sfide, in particolare la scarsità di dati annotati, proponendo un ampio spettro di tecniche, tra cui approcci non supervisionati, debolmente supervisionati e di data augmentation per un apprendimento completamente supervisionato. Gli algoritmi e i modelli sviluppati coprono l'intera gamma di tecniche NLP, dai metodi basati su regole ai più recenti modelli linguistici di grandi dimensioni, incluso uno studio specifico dedicato all'interpretabilità dei modelli. Il contributo principale di questa tesi è l'adattamento di queste diverse tecniche all'ambito dell'NLP clinico, dimostrando come possano essere utilizzate efficacemente per affrontare le sfide specifiche di questo settore. Gli studi presentati nella tesi si inseriscono nei contesti dei sistemi sanitari italiano e olandese, dove la ricerca sull'NLP clinico è stata particolarmente limitata. Vengono analizzati diversi tipi di dati testuali, tra cui richieste di esami specialistici, lettere di dimissione e note cliniche, in vari ambiti medici tra cui cardiologia, pediatria, angiologia e gastroenterologia. Ogni studio affronta un problema reale, lavorando con vincoli computazionali e di disponibilità dei dati e proponendo metodi specifici per superarli. I primi due studi si concentrano su applicazioni di sanità pubblica, sviluppate in collaborazione con le autorità sanitarie della Regione Lombardia, mentre i restanti studi affrontano sfide legate all'epidemiologia e alla pratica clinica, supportando ricercatori e medici in diverse istituzioni. Dimostrando come un'ampia gamma di tecniche NLP possa essere applicata efficacemente in ambito clinico, superando le barriere precedentemente menzionate, questa tesi pone le basi per futuri progressi nell'analisi dei documenti medici. I risultati evidenziano il potenziale dell'NLP nell'ottimizzazione della gestione sanitaria, nel supporto ai clinici e nella facilitazione della ricerca epidemiologica. Ulteriori progressi in questo settore richiederanno una collaborazione interdisciplinare mirata allo sviluppo di modelli multilingue, attenti alla privacy e con requisiti computazionali limitati, che possano essere integrati senza soluzione di continuità nei sistemi sanitari reali.