Una metodologia per l'espansione semantica
di stringhe abbreviate per troncamento

With pervasiveness of internet connections and growing availability of information in their hands, the decision journey of customers has deeply changed. Consequently, a retailer operating in the digital era cannot be missing pricing comparison features embedded in its information system. But despite data integration is a well known problem in information theory, real-world quality of grocery data imposes not to use structured approaches. The lack of retrievable unique identifiers for products, indeed urges to use textual descriptions of products; hence, the integration has to be carried in an unstructured manner. While interest is growing toward the field of unstructured data, it is still not easy to assess their quality, and thus there are no standard procedures to follow when information is missing or incomplete. In such scenarios, and specifically when textual descriptions are abbreviated by truncation, the approach presented in this work extracts and generalizes a sequence of operations to be carried on when pre-processing grocery data to be integrated with corresponding ones of a different data source; a procedure that becomes critical when a comparative analysis of pricing needs to be conducted. By means of a semantic network built with an abbreviation-free data source, truncated strings are expanded while traversing the network itself, thus completing missing information. Moreover, for extremely poor-structured data sources, some syntactic techniques are presented to maximize, along with the above semantic approach, the number of product matches that will support a pricing evaluation. Results are verified with real-world data, and the accuracy of the approach is tested by producing a comparative pricing analysis.

La disponibilità costante e rapida di informazioni sul prezzo dei prodotti sta cambiando l’approccio agli acquisti da parte dei consumatori. Il moderno distributore, attivo nel settore di vendita al dettaglio, dovrà quindi avere un sistema di confronto dei propri prezzi con quelli della sua diretta concorrenza, che operi in tempo reale ed in modo integrato rispetto al suo sistema informativo. Sebbene l’integrazione dati sia un problema lungamente affrontato in letteratura, in un contesto di informazioni provenienti dal settore applicativo dei prodotti grocery spesso non è possibile utilizzare tecniche strutturate. La carenza di identificatori univoci per i prodotti, che siano esposti sotto forma di dati recuperabili, porta infatti a trattare il problema come un caso di integrazione dati non strutturati, basato sulle stringhe testuali di descrizione. Non è semplice attestare la qualità per dati di questo tipo e, di conseguenza, non sono presenti procedure standard che consentano di trattare casi nei quali l’informazione è incompleta. In questo ambito, ed in particolare nel caso in cui le stringhe di descrizione prodotto risultino abbreviate per troncamento, la metodologia proposta estrae una sequenza di operazioni da compiere per normalizzare i dati di una sorgente e renderli confrontabili con un’altra, in modo da poterne trarre analisi significative a livello gestionale. Utilizzando una sorgente dati priva di abbreviazioni si costruisce una rete semantica che, debitamente attraversata sulla base di una stringa abbreviata, porta a completare le informazioni mancanti in quest’ultima. Il lavoro propone inoltre, per sorgenti dati particolarmente povere di attributi strutturati, delle tecniche sintattiche che, insieme alla metodologia precedente, aiutano a massimizzare il numero di corrispondenze tra una sorgente e l’altra. I risultati ottenuti sono verificati su sorgenti dati reali, e provano l’efficacia dell’approccio proposto al fine di ottenere analisi comparate di più listini prezzi.

Una metodologia per l'espansione semantica di stringhe abbreviate per troncamento

ARCIDIACO, ANTONINO

2015/2016

Abstract

With pervasiveness of internet connections and growing availability of information in their hands, the decision journey of customers has deeply changed. Consequently, a retailer operating in the digital era cannot be missing pricing comparison features embedded in its information system. But despite data integration is a well known problem in information theory, real-world quality of grocery data imposes not to use structured approaches. The lack of retrievable unique identifiers for products, indeed urges to use textual descriptions of products; hence, the integration has to be carried in an unstructured manner. While interest is growing toward the field of unstructured data, it is still not easy to assess their quality, and thus there are no standard procedures to follow when information is missing or incomplete. In such scenarios, and specifically when textual descriptions are abbreviated by truncation, the approach presented in this work extracts and generalizes a sequence of operations to be carried on when pre-processing grocery data to be integrated with corresponding ones of a different data source; a procedure that becomes critical when a comparative analysis of pricing needs to be conducted. By means of a semantic network built with an abbreviation-free data source, truncated strings are expanded while traversing the network itself, thus completing missing information. Moreover, for extremely poor-structured data sources, some syntactic techniques are presented to maximize, along with the above semantic approach, the number of product matches that will support a pricing evaluation. Results are verified with real-world data, and the accuracy of the approach is tested by producing a comparative pricing analysis.

Scheda breve

Scheda completa

	Relatore
	
				FRANCALANCI, CHIARA
			
	Scuola / Dip.
	
				ING  - Scuola di Ingegneria Industriale e dell'Informazione
			
	Data
	
				28-lug-2016
			
	Anno accademico
	
				2015/2016
			
	Abstract in italiano
	
				La disponibilità costante e rapida di informazioni sul prezzo dei prodotti sta cambiando l’approccio agli acquisti da parte dei consumatori. Il moderno distributore, attivo nel settore di vendita al dettaglio, dovrà quindi avere un sistema di confronto dei propri prezzi con quelli della sua diretta concorrenza, che operi in tempo reale ed in modo integrato rispetto al suo sistema informativo. Sebbene l’integrazione dati sia un problema lungamente affrontato in letteratura, in un contesto di informazioni provenienti dal settore applicativo dei prodotti grocery spesso non è possibile utilizzare tecniche strutturate. La carenza di identificatori univoci per i prodotti, che siano esposti sotto forma di dati recuperabili, porta infatti a trattare il problema come un caso di integrazione dati non strutturati, basato sulle stringhe testuali di descrizione. Non è semplice attestare la qualità per dati di questo tipo e, di conseguenza, non sono presenti procedure standard che consentano di trattare casi nei quali l’informazione è incompleta. In questo ambito, ed in particolare nel caso in cui le stringhe di descrizione prodotto risultino abbreviate per troncamento, la metodologia proposta estrae una sequenza di operazioni da compiere per normalizzare i dati di una sorgente e renderli confrontabili con un’altra, in modo da poterne trarre analisi significative a livello gestionale. Utilizzando una sorgente dati priva di abbreviazioni si costruisce una rete semantica che, debitamente attraversata sulla base di una stringa abbreviata, porta a completare le informazioni mancanti in quest’ultima. Il lavoro propone inoltre, per sorgenti dati particolarmente povere di attributi strutturati, delle tecniche sintattiche che, insieme alla metodologia precedente, aiutano a massimizzare il numero di corrispondenze tra una sorgente e l’altra. I risultati ottenuti sono verificati su sorgenti dati reali, e provano l’efficacia dell’approccio proposto al fine di ottenere analisi comparate di più listini prezzi.
			
	Tipo di documento
	
				Tesi di laurea Magistrale
			
	Appare nelle tipologie:
	
				Tesi di laurea Magistrale

File allegati

File	Dimensione	Formato
2016_07_Arcidiaco.pdf non accessibile Descrizione: Testo della tesi Dimensione 2.33 MB Formato Adobe PDF Visualizza/Apri	2.33 MB	Adobe PDF	Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/123449

Una metodologia per l'espansione semantica di stringhe abbreviate per troncamento

ARCIDIACO, ANTONINO

2015/2016

Abstract

Scheda breve Scheda completa

----- Informazioni -----

Conferma cancellazione

Scheda breve

Scheda completa