The Healthcare Sector appears to be by design subject to fraud, and being the recipient for huge public and private investments, it results to be an interesting target for fraudsters. Traditional manual audits are not sufficient to grant satisfactory results, but the availability of great amount of data makes it possible to tackle this issue with the adoption of data mining techniques. This approach – more and more adopted in the healthcare domain – can provide better results and more efficient controls’ processes, in terms of costs and time. This Work of Thesis has the objective of developing a novel data mining model devoted to fraud detection among hospitals. In particular, it is focused on the DRG upcoding practice, i.e. the tendency of coding within Hospital Discharge Charts (HDC) in Administrative Databases, codes for provided services and inpatients health status so to make the hospitalization fall within a more remunerative DRG class. The model here proposed is constituted by two steps: one first step entails the clustering of providers according to their characteristics and behavior in the treatment of a specific disease, in order to spot outliers within this groups of peers; in the second step, a cross-validation is performed, with the information relative to HDCs, hospitals’ characteristics, and patients. This second phase is useful for controllers to verify whether within the list of suspects identified in the first step, any hospital exists, which may be justified in its outlierness by its particular characteristics (such as the specialization on that specific disease), or by the treatment of a more complex patients’ base. The proposed model was tested on a database relative to HDC collected by Regione Lombardia in a time period of three years (2013-2015), focusing on the treatment of heart failure. The obtained results demonstrate a good potential to detect anomalous behavior among hospitals, even in the case of more cautious approaches to fraud. Indeed, clustering providers allows to spot those outliers which would be neglected considering the group of hospitals as a whole. The Work is concluded by a series of considerations regarding the policy making implications of the model, with the aim of reducing the general level of fraud within the Healthcare System in the long term.

Il settore sanitario appare strutturalmente soggetto alla frode, ed essendo destinatario di ingenti investimenti pubblici e privati risulta un obiettivo particolarmente interessante. I controlli manuali tradizionali non sono sufficienti a garantire risultati soddisfacenti, ma la disponibilità sempre maggiore di grosse moli di dati rende possibile affrontare il problema con l’adozione di tecniche di data mining. Questo approccio sempre più diffuso nell’ambito della sanità può garantire migliori risultati e processi di controllo più efficienti in termini di tempi e costi. Questo Lavoro di Tesi si propone di costruire un nuovo modello di data mining dedicato al riconoscimento di frodi tra gli ospedali. In particolare, il comportamento anomalo su cui si focalizza è la pratica del DRG upcoding, ovvero registrare nelle Schede di Dimissione Ospedaliera (SDO), all’interno dei Database Amministrativi, codici di trattamenti forniti e stato di salute dell’assistito che facciano ricadere il ricovero all’interno di una classe di DRG più remunerativa. Il modello ivi proposto si compone di due fasi: in una prima fase gli ospedali vengono raggruppati per caratteristiche e comportamento relativo al trattamento di una specifica patologia, per poi riconoscere gli outlier all’interno di questi gruppi di pari; nella seconda fase viene invece implementata una validazione incrociata con le informazioni relative alle SDO, alle caratteristiche dell’ospedale ed ai pazienti. Questa seconda fase è utile ai responsabili dei controlli per verificare se all’interno della lista dei sospetti identificati nel primo step, esista qualche ospedale che possa essere giustificato dalle sue particolari caratteristiche (come la specializzazione rispetto a quella patologia), o dall’aver trattato una popolazione di pazienti particolarmente complessa. Il modello proposto è stato testato su una base di dati relativa alle SDO raccolte dalla Regione Lombardia, nell’arco di tre anni (2013-2015), concentrandosi sul trattamento dello scompenso cardiaco. I risultati dimostrano un buon potenziale per riconoscere comportamenti anomali tra gli ospedali, anche quando tali devianze siano meno evidenti. Raggruppare i provider in cluster permette infatti di riconoscere quegli outlier che verrebbero invece ignorati considerando l’intera popolazione di ospedali. Il Lavoro si conclude poi con una serie di considerazioni riguardo le implicazioni di tale modello in termini di policy making, per ridurre il livello generale di frode all’interno del Sistema Sanitario nel lungo periodo.

Data mining application to healthcare fraud detection. Two-step unsupervised clustering model for outlier detection with administrative databases

MASSI, MICHELA CARLOTTA
2016/2017

Abstract

The Healthcare Sector appears to be by design subject to fraud, and being the recipient for huge public and private investments, it results to be an interesting target for fraudsters. Traditional manual audits are not sufficient to grant satisfactory results, but the availability of great amount of data makes it possible to tackle this issue with the adoption of data mining techniques. This approach – more and more adopted in the healthcare domain – can provide better results and more efficient controls’ processes, in terms of costs and time. This Work of Thesis has the objective of developing a novel data mining model devoted to fraud detection among hospitals. In particular, it is focused on the DRG upcoding practice, i.e. the tendency of coding within Hospital Discharge Charts (HDC) in Administrative Databases, codes for provided services and inpatients health status so to make the hospitalization fall within a more remunerative DRG class. The model here proposed is constituted by two steps: one first step entails the clustering of providers according to their characteristics and behavior in the treatment of a specific disease, in order to spot outliers within this groups of peers; in the second step, a cross-validation is performed, with the information relative to HDCs, hospitals’ characteristics, and patients. This second phase is useful for controllers to verify whether within the list of suspects identified in the first step, any hospital exists, which may be justified in its outlierness by its particular characteristics (such as the specialization on that specific disease), or by the treatment of a more complex patients’ base. The proposed model was tested on a database relative to HDC collected by Regione Lombardia in a time period of three years (2013-2015), focusing on the treatment of heart failure. The obtained results demonstrate a good potential to detect anomalous behavior among hospitals, even in the case of more cautious approaches to fraud. Indeed, clustering providers allows to spot those outliers which would be neglected considering the group of hospitals as a whole. The Work is concluded by a series of considerations regarding the policy making implications of the model, with the aim of reducing the general level of fraud within the Healthcare System in the long term.
IEVA, FRANCESCA
ING - Scuola di Ingegneria Industriale e dell'Informazione
3-ott-2017
2016/2017
Il settore sanitario appare strutturalmente soggetto alla frode, ed essendo destinatario di ingenti investimenti pubblici e privati risulta un obiettivo particolarmente interessante. I controlli manuali tradizionali non sono sufficienti a garantire risultati soddisfacenti, ma la disponibilità sempre maggiore di grosse moli di dati rende possibile affrontare il problema con l’adozione di tecniche di data mining. Questo approccio sempre più diffuso nell’ambito della sanità può garantire migliori risultati e processi di controllo più efficienti in termini di tempi e costi. Questo Lavoro di Tesi si propone di costruire un nuovo modello di data mining dedicato al riconoscimento di frodi tra gli ospedali. In particolare, il comportamento anomalo su cui si focalizza è la pratica del DRG upcoding, ovvero registrare nelle Schede di Dimissione Ospedaliera (SDO), all’interno dei Database Amministrativi, codici di trattamenti forniti e stato di salute dell’assistito che facciano ricadere il ricovero all’interno di una classe di DRG più remunerativa. Il modello ivi proposto si compone di due fasi: in una prima fase gli ospedali vengono raggruppati per caratteristiche e comportamento relativo al trattamento di una specifica patologia, per poi riconoscere gli outlier all’interno di questi gruppi di pari; nella seconda fase viene invece implementata una validazione incrociata con le informazioni relative alle SDO, alle caratteristiche dell’ospedale ed ai pazienti. Questa seconda fase è utile ai responsabili dei controlli per verificare se all’interno della lista dei sospetti identificati nel primo step, esista qualche ospedale che possa essere giustificato dalle sue particolari caratteristiche (come la specializzazione rispetto a quella patologia), o dall’aver trattato una popolazione di pazienti particolarmente complessa. Il modello proposto è stato testato su una base di dati relativa alle SDO raccolte dalla Regione Lombardia, nell’arco di tre anni (2013-2015), concentrandosi sul trattamento dello scompenso cardiaco. I risultati dimostrano un buon potenziale per riconoscere comportamenti anomali tra gli ospedali, anche quando tali devianze siano meno evidenti. Raggruppare i provider in cluster permette infatti di riconoscere quegli outlier che verrebbero invece ignorati considerando l’intera popolazione di ospedali. Il Lavoro si conclude poi con una serie di considerazioni riguardo le implicazioni di tale modello in termini di policy making, per ridurre il livello generale di frode all’interno del Sistema Sanitario nel lungo periodo.
Tesi di laurea Magistrale
File allegati
File Dimensione Formato  
2017_10_Massi.pdf

accessibile in internet solo dagli utenti autorizzati

Descrizione: Thesis text
Dimensione 8.31 MB
Formato Adobe PDF
8.31 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/136316