Advanced analysis of web generated logs in model driven development approach

In today’s competing world, many web applications are developed in the field of marketing such as selling products and other marketing needs. The examples can be giant Ecommerce, shopping web portals such as Amazon and eBay which have evolved their applications over years by paying attention to the customer needs. The predefined available tools such as Google analytics and some others can track user activity and do tasks like calculating Bounce rate, Exit rate, total visits per page, most visited products, analysis by error codes and so on. The data flow is implemented using the parameter binding between different containers. Therefore, in the Agile framework, models are part of a production service and may need to be rebuilt in several periods or even in real time form. The Apache Spark platform is super-fast technology that is used to process huge amount of data in clusters which was created in 2009 based on Hadoop. The Spark comprises of four components which are SparkSQL, Spark Streaming, MLib (machine learning) and GraphX and it supports three types of RDD , datasets and data frames. We use mainly SparkSQL and Spark Streaming features which take care about converting streaming large scale data into tabular format to perform accurate and clean processing of the data sets. Spark runs on Hadoop which is a distributed infrastructure which distributes the streaming large data through several processing nodes and Spark does the data processing on those nodes. Since Spark does the complex analytics in memory which makes it so fast and ideal for analytics.

Nell'odierno mondo in competizione, molte applicazioni web sono sviluppate nel campo del marketing come la vendita di prodotti e altre esigenze di marketing. Gli esempi possono essere Ecommerce giganti, portali web di shopping come Amazon e eBay che hanno evoluto le loro applicazioni nel corso degli anni prestando attenzione alle esigenze dei clienti. Gli strumenti predefiniti disponibili come Google Analytics e alcuni altri possono tracciare le attività degli utenti e svolgere attività come il calcolo della frequenza di rimbalzo, la frequenza di uscita, le visite totali per pagina, i prodotti più visitati, l'analisi per codici di errore e così via. Il flusso di dati viene implementato utilizzando il legame dei parametri tra diversi contenitori. Pertanto, nel framework Agile, i modelli fanno parte di un servizio di produzione e potrebbero dover essere ricostruiti in più periodi o anche in tempo reale. La piattaforma Apache Spark è una tecnologia superveloce che viene utilizzata per elaborare enormi quantità di dati in cluster creati nel 2009 sulla base di Hadoop. Spark comprende quattro componenti SparkSQL, Spark Streaming, MLib (machine learning) e GraphX e supporta tre tipi di RDD, dataset e frame di dati. Utilizziamo principalmente le funzionalità SparkSQL e Spark Streaming che si occupano di convertire lo streaming di dati su larga scala in formato tabellare per eseguire un'elaborazione accurata e pulita dei set di dati. Spark funziona su Hadoop che è un'infrastruttura distribuita che distribuisce lo streaming di dati di grandi dimensioni attraverso diversi nodi di elaborazione e Spark esegue l'elaborazione dei dati su quei nodi. Dal momento che Spark fa la complessa analisi in memoria che lo rende così veloce e ideale per l'analisi.