With pervasiveness of internet connections and growing availability of information in their hands, the decision journey of customers has deeply changed. Consequently, a retailer operating in the digital era cannot be missing pricing comparison features embedded in its information system. But despite data integration is a well known problem in information theory, real-world quality of grocery data imposes not to use structured approaches. The lack of retrievable unique identifiers for products, indeed urges to use textual descriptions of products; hence, the integration has to be carried in an unstructured manner. While interest is growing toward the field of unstructured data, it is still not easy to assess their quality, and thus there are no standard procedures to follow when information is missing or incomplete. In such scenarios, and specifically when textual descriptions are abbreviated by truncation, the approach presented in this work extracts and generalizes a sequence of operations to be carried on when pre-processing grocery data to be integrated with corresponding ones of a different data source; a procedure that becomes critical when a comparative analysis of pricing needs to be conducted. By means of a semantic network built with an abbreviation-free data source, truncated strings are expanded while traversing the network itself, thus completing missing information. Moreover, for extremely poor-structured data sources, some syntactic techniques are presented to maximize, along with the above semantic approach, the number of product matches that will support a pricing evaluation. Results are verified with real-world data, and the accuracy of the approach is tested by producing a comparative pricing analysis.
La disponibilità costante e rapida di informazioni sul prezzo dei prodotti sta cambiando l’approccio agli acquisti da parte dei consumatori. Il moderno distributore, attivo nel settore di vendita al dettaglio, dovrà quindi avere un sistema di confronto dei propri prezzi con quelli della sua diretta concorrenza, che operi in tempo reale ed in modo integrato rispetto al suo sistema informativo. Sebbene l’integrazione dati sia un problema lungamente affrontato in letteratura, in un contesto di informazioni provenienti dal settore applicativo dei prodotti grocery spesso non è possibile utilizzare tecniche strutturate. La carenza di identificatori univoci per i prodotti, che siano esposti sotto forma di dati recuperabili, porta infatti a trattare il problema come un caso di integrazione dati non strutturati, basato sulle stringhe testuali di descrizione. Non è semplice attestare la qualità per dati di questo tipo e, di conseguenza, non sono presenti procedure standard che consentano di trattare casi nei quali l’informazione è incompleta. In questo ambito, ed in particolare nel caso in cui le stringhe di descrizione prodotto risultino abbreviate per troncamento, la metodologia proposta estrae una sequenza di operazioni da compiere per normalizzare i dati di una sorgente e renderli confrontabili con un’altra, in modo da poterne trarre analisi significative a livello gestionale. Utilizzando una sorgente dati priva di abbreviazioni si costruisce una rete semantica che, debitamente attraversata sulla base di una stringa abbreviata, porta a completare le informazioni mancanti in quest’ultima. Il lavoro propone inoltre, per sorgenti dati particolarmente povere di attributi strutturati, delle tecniche sintattiche che, insieme alla metodologia precedente, aiutano a massimizzare il numero di corrispondenze tra una sorgente e l’altra. I risultati ottenuti sono verificati su sorgenti dati reali, e provano l’efficacia dell’approccio proposto al fine di ottenere analisi comparate di più listini prezzi.
Una metodologia per l'espansione semantica di stringhe abbreviate per troncamento
ARCIDIACO, ANTONINO
2015/2016
Abstract
With pervasiveness of internet connections and growing availability of information in their hands, the decision journey of customers has deeply changed. Consequently, a retailer operating in the digital era cannot be missing pricing comparison features embedded in its information system. But despite data integration is a well known problem in information theory, real-world quality of grocery data imposes not to use structured approaches. The lack of retrievable unique identifiers for products, indeed urges to use textual descriptions of products; hence, the integration has to be carried in an unstructured manner. While interest is growing toward the field of unstructured data, it is still not easy to assess their quality, and thus there are no standard procedures to follow when information is missing or incomplete. In such scenarios, and specifically when textual descriptions are abbreviated by truncation, the approach presented in this work extracts and generalizes a sequence of operations to be carried on when pre-processing grocery data to be integrated with corresponding ones of a different data source; a procedure that becomes critical when a comparative analysis of pricing needs to be conducted. By means of a semantic network built with an abbreviation-free data source, truncated strings are expanded while traversing the network itself, thus completing missing information. Moreover, for extremely poor-structured data sources, some syntactic techniques are presented to maximize, along with the above semantic approach, the number of product matches that will support a pricing evaluation. Results are verified with real-world data, and the accuracy of the approach is tested by producing a comparative pricing analysis.File | Dimensione | Formato | |
---|---|---|---|
2016_07_Arcidiaco.pdf
non accessibile
Descrizione: Testo della tesi
Dimensione
2.33 MB
Formato
Adobe PDF
|
2.33 MB | Adobe PDF | Visualizza/Apri |
I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/10589/123449