Breast cancer is one of the most common forms of neoplasm in Italy, with 53,686 new diagnoses estimated in 2024. Thanks to screening programs and greater awareness among women, most breast cancers are now detected at an early stage, preventing advanced morbidity and reducing mortality. However, once a screening program is established in a country, it becomes difficult to conduct randomized trials to assess its effectiveness. As a result, there is a strong interest in learning about the natural history of the disease from observational data collected administratively, in order to identify the optimal screening policy with respect to the age range of the women invited and the lag between successive examinations. This work aims to reconstruct the natural history of breast cancer by estimating latent quantities that govern disease progression. A cure-rate structure is proposed to model two unobserved subpopulations: those who will develop the disease in their lifetime and those who will not. Disease progression is modeled through multi-state models, with a focus on relaxing the Markov assumption to capture more realistic disease dynamics. Moreover, relying mainly on intermittently observed screening data makes the observed data likelihood of these models quite complex. The analysis is conducted within a Bayesian framework, which provides rigorous uncertainty quantification while enhancing the identifiability of model parameters. The results show that models incorporating a mixture component and relaxing the Markov assumption significantly outperform simpler models in describing the natural history of breast cancer. Specifically, posterior and predictive distributions demonstrate that these models offer more realistic estimates of transition intensities and sojourn times in disease states. As expected, although the observed proportion of diagnoses in the sample was around $4\%$, the cure-rate models reconstruct the frequency of many more lifetime diagnoses than those observed during the limited follow-up of the subjects in the study. Incorporating a cure-rate structure within multi-state models is crucial for accurately reconstructing latent disease histories. This approach provides a more comprehensive understanding of breast cancer progression and contributes to the design of evidence-based screening policies.

Il cancro al seno è una delle forme di neoplasia più comuni in Italia, con 53.686 nuove diagnosi stimate per il 2024. Grazie ai programmi di screening e a una maggiore consapevolezza tra le donne, la maggior parte dei tumori al seno viene diagnosticata in fase precoce, prevenendo così la morbilità avanzata e riducendo la mortalità. Tuttavia, una volta che un programma di screening è stato avviato in un paese, diventa difficile condurre studi randomizzati per valutarne l'efficacia. Di conseguenza, sorge l'esigenza di analizzare la storia naturale della malattia utilizzando dati osservazionali raccolti in modo amministrativo, al fine di identificare la strategia di screening ottimale in relazione alla fascia di età delle donne invitate e al periodo di tempo tra gli esami. Questo lavoro si propone di ricostruire la storia naturale del cancro al seno stimando le quantità latenti che governano la progressione della malattia. È stata adottato un modello di cura per modellare due sotto-popolazioni non osservabili: la prima considera le persone che svilupperanno la malattia nel corso della loro vita e la seconda quelle che non lo faranno. La progressione della malattia è stata modellata tramite modelli multi-stato, con particolare attenzione al rilassamento dell'assunzione di Markov, al fine di modellare dinamiche della malattia più realistiche. Inoltre, poiché i dati osservati derivano principalmente da screening, e quindi sono osservazioni intermittenti, la funzione di verosimiglianza di questi modelli risulta complessa. L'analisi è stata condotta utilizzando metodi bayesiani, che hanno consentito una rigorosa quantificazione dell'incertezza, migliorando al contempo l'identificabilità dei parametri del modello. I risultati mostrano che i modelli con mistura e che rilassano l'assunzione di Markov sovraperformano significativamente i modelli più semplici nel descrivere la storia naturale del cancro al seno. In particolare, le distribuzioni a posteriori evidenziano che questi modelli offrono stime più realistiche dei tempi di permanenza nei diversi stati di malattia. Come previsto, sebbene la proporzione osservata di diagnosi nel campione fosse circa del 4\%, i modelli con mistura ricostruiscono una frequenza di diagnosi molto più alta rispetto a quelle osservate durante il periodo di follow-up. L'inclusione di questo tipo di modello si è rivelata fondamentale per ricostruire la storia naturale della malattia e potrebbe contribuire alla progettazione di migliori strategie di screening.

Reconstructing the natural history of breast cancer from screening data: Bayesian estimation of semi-Markov mixture models

TRIZIO, LUCA
2023/2024

Abstract

Breast cancer is one of the most common forms of neoplasm in Italy, with 53,686 new diagnoses estimated in 2024. Thanks to screening programs and greater awareness among women, most breast cancers are now detected at an early stage, preventing advanced morbidity and reducing mortality. However, once a screening program is established in a country, it becomes difficult to conduct randomized trials to assess its effectiveness. As a result, there is a strong interest in learning about the natural history of the disease from observational data collected administratively, in order to identify the optimal screening policy with respect to the age range of the women invited and the lag between successive examinations. This work aims to reconstruct the natural history of breast cancer by estimating latent quantities that govern disease progression. A cure-rate structure is proposed to model two unobserved subpopulations: those who will develop the disease in their lifetime and those who will not. Disease progression is modeled through multi-state models, with a focus on relaxing the Markov assumption to capture more realistic disease dynamics. Moreover, relying mainly on intermittently observed screening data makes the observed data likelihood of these models quite complex. The analysis is conducted within a Bayesian framework, which provides rigorous uncertainty quantification while enhancing the identifiability of model parameters. The results show that models incorporating a mixture component and relaxing the Markov assumption significantly outperform simpler models in describing the natural history of breast cancer. Specifically, posterior and predictive distributions demonstrate that these models offer more realistic estimates of transition intensities and sojourn times in disease states. As expected, although the observed proportion of diagnoses in the sample was around $4\%$, the cure-rate models reconstruct the frequency of many more lifetime diagnoses than those observed during the limited follow-up of the subjects in the study. Incorporating a cure-rate structure within multi-state models is crucial for accurately reconstructing latent disease histories. This approach provides a more comprehensive understanding of breast cancer progression and contributes to the design of evidence-based screening policies.
BONDI, LAURA
ING - Scuola di Ingegneria Industriale e dell'Informazione
3-apr-2025
2023/2024
Il cancro al seno è una delle forme di neoplasia più comuni in Italia, con 53.686 nuove diagnosi stimate per il 2024. Grazie ai programmi di screening e a una maggiore consapevolezza tra le donne, la maggior parte dei tumori al seno viene diagnosticata in fase precoce, prevenendo così la morbilità avanzata e riducendo la mortalità. Tuttavia, una volta che un programma di screening è stato avviato in un paese, diventa difficile condurre studi randomizzati per valutarne l'efficacia. Di conseguenza, sorge l'esigenza di analizzare la storia naturale della malattia utilizzando dati osservazionali raccolti in modo amministrativo, al fine di identificare la strategia di screening ottimale in relazione alla fascia di età delle donne invitate e al periodo di tempo tra gli esami. Questo lavoro si propone di ricostruire la storia naturale del cancro al seno stimando le quantità latenti che governano la progressione della malattia. È stata adottato un modello di cura per modellare due sotto-popolazioni non osservabili: la prima considera le persone che svilupperanno la malattia nel corso della loro vita e la seconda quelle che non lo faranno. La progressione della malattia è stata modellata tramite modelli multi-stato, con particolare attenzione al rilassamento dell'assunzione di Markov, al fine di modellare dinamiche della malattia più realistiche. Inoltre, poiché i dati osservati derivano principalmente da screening, e quindi sono osservazioni intermittenti, la funzione di verosimiglianza di questi modelli risulta complessa. L'analisi è stata condotta utilizzando metodi bayesiani, che hanno consentito una rigorosa quantificazione dell'incertezza, migliorando al contempo l'identificabilità dei parametri del modello. I risultati mostrano che i modelli con mistura e che rilassano l'assunzione di Markov sovraperformano significativamente i modelli più semplici nel descrivere la storia naturale del cancro al seno. In particolare, le distribuzioni a posteriori evidenziano che questi modelli offrono stime più realistiche dei tempi di permanenza nei diversi stati di malattia. Come previsto, sebbene la proporzione osservata di diagnosi nel campione fosse circa del 4\%, i modelli con mistura ricostruiscono una frequenza di diagnosi molto più alta rispetto a quelle osservate durante il periodo di follow-up. L'inclusione di questo tipo di modello si è rivelata fondamentale per ricostruire la storia naturale della malattia e potrebbe contribuire alla progettazione di migliori strategie di screening.
File allegati
File Dimensione Formato  
2025_04_Trizio.pdf

accessibile in internet per tutti a partire dal 11/03/2028

Descrizione: Testo della tesi
Dimensione 6.28 MB
Formato Adobe PDF
6.28 MB Adobe PDF   Visualizza/Apri
2025_04_Trizio_Executive_Summary.pdf

accessibile in internet per tutti a partire dal 11/03/2028

Descrizione: Executive summary
Dimensione 756.73 kB
Formato Adobe PDF
756.73 kB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/235261