The research work focusses on addressing the challenge of performing automated conversions between different data formats, which is significant to achieving interoperability between heterogeneous systems. This process involves defining the mappings between concepts in separate data specifications, which is often a complex and time-intensive task. To address this issue, we propose a technique that leverages semantic web technologies to automatically suggest mappings. This approach takes into account both linguistic and structural similarities between terms from different data specifications. By analyzing the linguistic characteristics and the structural relationships of the terms, the proposed technique can identify potential mappings. Furthermore, to enhance the accuracy of suggested mappings, we have employed various machine-learned models. When comparing the outputs of different models, one can assess their performance and determine which approaches yield the best results for the proposed technique. Additionally, we utilize a machine-learned linguistic model that has been trained on domain-specific data set. This model helps enhance the accuracy of the suggested mappings by leveraging the knowledge and patterns learned from the specific domain. By incorporating domain-specific information, our proposed technique can provide more precise and context-aware suggestions for mappings between data specifications. The approach has been implemented in our prototype tool, SMART (SPRINT Mapping \& Annotation Recommendation Tool). The experiments were conducted on various test cases using specifications from the transportation domain. Specifically, we utilized custom-trained machine learning models on domain-specific datasets and compared their performance against pre-trained machine learning models on their respective datasets. Upon validating the output results, we observed that the custom-trained models on the domain-specific dataset outperformed the pre-trained models in the majority of cases.

Il lavoro di ricerca si concentra sull'affrontare la sfida di eseguire conversioni automatizzate tra diversi formati di dati, il che è significativo per raggiungere l'interoperabilità tra sistemi eterogenei. Questo processo implica la definizione delle mappature tra i concetti in specifiche di dati separate, che è spesso un compito complesso e dispendioso in termini di tempo. Per affrontare questo problema, proponiamo una tecnica che sfrutta le tecnologie del web semantico per suggerire automaticamente le mappature. Questo approccio tiene conto delle somiglianze sia linguistiche che strutturali tra termini provenienti da specifiche di dati diverse. Analizzando le caratteristiche linguistiche e le relazioni strutturali dei termini, la tecnica proposta può identificare potenziali mappature. Inoltre, per migliorare la precisione delle mappature suggerite, abbiamo utilizzato vari modelli di apprendimento automatico. Confrontando i risultati di diversi modelli, è possibile valutarne le prestazioni e determinare quali approcci producono i migliori risultati per la tecnica proposta. Inoltre, utilizziamo un modello linguistico appreso dal computer che è stato addestrato su set di dati specifici del dominio. Questo modello aiuta a migliorare l'accuratezza delle mappature suggerite sfruttando la conoscenza e i modelli appresi dal dominio specifico. Incorporando informazioni specifiche del dominio, la nostra tecnica proposta può fornire suggerimenti più precisi e consapevoli del contesto per le mappature tra le specifiche dei dati. L'approccio è stato implementato nel nostro strumento prototipo, SMART (SPRINT Mapping \& Annotation Recommendation Tool). Gli esperimenti sono stati condotti su vari casi di test utilizzando le specifiche del settore dei trasporti. Nello specifico, abbiamo utilizzato modelli di machine learning personalizzati su set di dati specifici del dominio e abbiamo confrontato le loro prestazioni con modelli di machine learning pre-addestrati sui rispettivi set di dati. Dopo aver convalidato i risultati di output, abbiamo osservato che i modelli con addestramento personalizzato sul set di dati specifico del dominio hanno sovraperformato i modelli preaddestrati nella maggior parte dei casi.

Tools and techniques for creating automated mapping between heterogenous data specifications

Kalwar, Safia
2023/2024

Abstract

The research work focusses on addressing the challenge of performing automated conversions between different data formats, which is significant to achieving interoperability between heterogeneous systems. This process involves defining the mappings between concepts in separate data specifications, which is often a complex and time-intensive task. To address this issue, we propose a technique that leverages semantic web technologies to automatically suggest mappings. This approach takes into account both linguistic and structural similarities between terms from different data specifications. By analyzing the linguistic characteristics and the structural relationships of the terms, the proposed technique can identify potential mappings. Furthermore, to enhance the accuracy of suggested mappings, we have employed various machine-learned models. When comparing the outputs of different models, one can assess their performance and determine which approaches yield the best results for the proposed technique. Additionally, we utilize a machine-learned linguistic model that has been trained on domain-specific data set. This model helps enhance the accuracy of the suggested mappings by leveraging the knowledge and patterns learned from the specific domain. By incorporating domain-specific information, our proposed technique can provide more precise and context-aware suggestions for mappings between data specifications. The approach has been implemented in our prototype tool, SMART (SPRINT Mapping \& Annotation Recommendation Tool). The experiments were conducted on various test cases using specifications from the transportation domain. Specifically, we utilized custom-trained machine learning models on domain-specific datasets and compared their performance against pre-trained machine learning models on their respective datasets. Upon validating the output results, we observed that the custom-trained models on the domain-specific dataset outperformed the pre-trained models in the majority of cases.
PIRODDI, LUIGI
BARESI, LUCIANO
Sadeghi, Mersedeh
20-dic-2023
Tools and techniques for creating automated mapping between heterogenous data specifications
Il lavoro di ricerca si concentra sull'affrontare la sfida di eseguire conversioni automatizzate tra diversi formati di dati, il che è significativo per raggiungere l'interoperabilità tra sistemi eterogenei. Questo processo implica la definizione delle mappature tra i concetti in specifiche di dati separate, che è spesso un compito complesso e dispendioso in termini di tempo. Per affrontare questo problema, proponiamo una tecnica che sfrutta le tecnologie del web semantico per suggerire automaticamente le mappature. Questo approccio tiene conto delle somiglianze sia linguistiche che strutturali tra termini provenienti da specifiche di dati diverse. Analizzando le caratteristiche linguistiche e le relazioni strutturali dei termini, la tecnica proposta può identificare potenziali mappature. Inoltre, per migliorare la precisione delle mappature suggerite, abbiamo utilizzato vari modelli di apprendimento automatico. Confrontando i risultati di diversi modelli, è possibile valutarne le prestazioni e determinare quali approcci producono i migliori risultati per la tecnica proposta. Inoltre, utilizziamo un modello linguistico appreso dal computer che è stato addestrato su set di dati specifici del dominio. Questo modello aiuta a migliorare l'accuratezza delle mappature suggerite sfruttando la conoscenza e i modelli appresi dal dominio specifico. Incorporando informazioni specifiche del dominio, la nostra tecnica proposta può fornire suggerimenti più precisi e consapevoli del contesto per le mappature tra le specifiche dei dati. L'approccio è stato implementato nel nostro strumento prototipo, SMART (SPRINT Mapping \& Annotation Recommendation Tool). Gli esperimenti sono stati condotti su vari casi di test utilizzando le specifiche del settore dei trasporti. Nello specifico, abbiamo utilizzato modelli di machine learning personalizzati su set di dati specifici del dominio e abbiamo confrontato le loro prestazioni con modelli di machine learning pre-addestrati sui rispettivi set di dati. Dopo aver convalidato i risultati di output, abbiamo osservato che i modelli con addestramento personalizzato sul set di dati specifico del dominio hanno sovraperformato i modelli preaddestrati nella maggior parte dei casi.
File allegati
File Dimensione Formato  
SafiaThesis.pdf

accessibile in internet solo dagli utenti autorizzati

Descrizione: This file contains the dissertation of Phd work.
Dimensione 3.88 MB
Formato Adobe PDF
3.88 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/215973