Many data analysis efforts have been made during the time in order to optimize the market sale. One of the most critical sales optimizers in today online world is recommender system. Recommender systems guess the needs of customers and provide them the products which the clients are supposed to buy. In this way, they tempt customers to buy more products. In this thesis, I have tried to provide a topological data analysis and a conventional market basket analysis algorithm to predict the next purchases of the customers, by comparing the results it could be understood if the TDA is a suitable method for purchase prediction. In addition, this research is not only about the application of market basket analysis but also about data extraction from the text data. In order to prepare the data for the algorithms, many different machine learning algorithms have been applied. A greedy algorithm is used to detect prices indicated in the offers with a high accuracy. Two different term weighting methods are compared with a linear regression model to determine if an offer is relative to buy or sell something. Finally, a term weighting method is compared with a one vs. all technique to determine the category and the product indicated in the offer. In addition to these data extractors, some other external tools have been employed such as Google cloud vision API to extract data from the pictures on the dataset. All these analyses are fed as input for the market basket analysis algorithms.

Molti sforzi di analisi dei dati sono stati fatti durante il tempo al fine di ottimizzare la vendita sul mercato. Uno dei più importanti ottimizzatori di vendita nel mondo online di oggi è il sistema recommender. I sistemi Recommender indovinano le esigenze dei clienti e forniscono loro i prodotti che i clienti dovrebbero acquistare. In questo modo, invogliano i clienti ad acquistare più prodotti. In questa tesi, ho cercato di fornire un'analisi dei dati topologici e un algoritmo di analisi del paniere di mercato convenzionale per prevedere i prossimi acquisti dei clienti, confrontando i risultati che si potrebbero capire se il TDA è un metodo adatto per la previsione di acquisto. Inoltre, questa ricerca non riguarda solo l'applicazione dell'analisi del paniere di mercato, ma anche l'estrazione dei dati dai dati testuali. Per preparare i dati per gli algoritmi, sono stati applicati molti algoritmi di apprendimento automatico. Un algoritmo greedy viene utilizzato per rilevare i prezzi indicati nelle offerte con una precisione elevata. Due diversi metodi di ponderazione dei termini vengono confrontati con un modello di regressione lineare per determinare se un'offerta è relativa all'acquisto o alla vendita di qualcosa. Infine, un metodo di ponderazione del termine viene confrontato con una tecnica uno contro tutti per determinare la categoria e il prodotto indicato nell'offerta. Oltre a questi estrattori di dati, sono stati utilizzati alcuni altri strumenti esterni come l'API di Google Cloud Vision per estrarre i dati dalle immagini sul set di dati. Tutte queste analisi sono fornite come input per gli algoritmi di analisi del paniere di mercato.

Topological data analysis application to market transaction data

SALEHI, SAJJAD
2016/2017

Abstract

Many data analysis efforts have been made during the time in order to optimize the market sale. One of the most critical sales optimizers in today online world is recommender system. Recommender systems guess the needs of customers and provide them the products which the clients are supposed to buy. In this way, they tempt customers to buy more products. In this thesis, I have tried to provide a topological data analysis and a conventional market basket analysis algorithm to predict the next purchases of the customers, by comparing the results it could be understood if the TDA is a suitable method for purchase prediction. In addition, this research is not only about the application of market basket analysis but also about data extraction from the text data. In order to prepare the data for the algorithms, many different machine learning algorithms have been applied. A greedy algorithm is used to detect prices indicated in the offers with a high accuracy. Two different term weighting methods are compared with a linear regression model to determine if an offer is relative to buy or sell something. Finally, a term weighting method is compared with a one vs. all technique to determine the category and the product indicated in the offer. In addition to these data extractors, some other external tools have been employed such as Google cloud vision API to extract data from the pictures on the dataset. All these analyses are fed as input for the market basket analysis algorithms.
ING - Scuola di Ingegneria Industriale e dell'Informazione
22-dic-2017
2016/2017
Molti sforzi di analisi dei dati sono stati fatti durante il tempo al fine di ottimizzare la vendita sul mercato. Uno dei più importanti ottimizzatori di vendita nel mondo online di oggi è il sistema recommender. I sistemi Recommender indovinano le esigenze dei clienti e forniscono loro i prodotti che i clienti dovrebbero acquistare. In questo modo, invogliano i clienti ad acquistare più prodotti. In questa tesi, ho cercato di fornire un'analisi dei dati topologici e un algoritmo di analisi del paniere di mercato convenzionale per prevedere i prossimi acquisti dei clienti, confrontando i risultati che si potrebbero capire se il TDA è un metodo adatto per la previsione di acquisto. Inoltre, questa ricerca non riguarda solo l'applicazione dell'analisi del paniere di mercato, ma anche l'estrazione dei dati dai dati testuali. Per preparare i dati per gli algoritmi, sono stati applicati molti algoritmi di apprendimento automatico. Un algoritmo greedy viene utilizzato per rilevare i prezzi indicati nelle offerte con una precisione elevata. Due diversi metodi di ponderazione dei termini vengono confrontati con un modello di regressione lineare per determinare se un'offerta è relativa all'acquisto o alla vendita di qualcosa. Infine, un metodo di ponderazione del termine viene confrontato con una tecnica uno contro tutti per determinare la categoria e il prodotto indicato nell'offerta. Oltre a questi estrattori di dati, sono stati utilizzati alcuni altri strumenti esterni come l'API di Google Cloud Vision per estrarre i dati dalle immagini sul set di dati. Tutte queste analisi sono fornite come input per gli algoritmi di analisi del paniere di mercato.
Tesi di laurea Magistrale
File allegati
File Dimensione Formato  
thesis-v2.2.pdf

accessibile in internet per tutti

Descrizione: Last version
Dimensione 5.59 MB
Formato Adobe PDF
5.59 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/138857