We live in a non-stationary world in which each second million terabytes of data are being produced. Therefore, we cannot rely on human to analyze and interpret this huge amount of data. In order to be able to analyze this data sufficiently, we need to use machine learning techniques. Otherwise it will be a big challenge because at each second new events happen and we need to take them into account to have a reasonable result. In order to be able to analyze real time events, we need to use the technology which is called “Stream Processing”. As advantages of stream processing we can mention that streaming systems like Kafka are fault-tolerant and can restore the application state in case of failures. Furthermore, the most continues data series such as activity logs, health sensors, transaction logs, traffic sensors and almost all Internet of Things (IoT) data are time series data. Streaming is a more natural way to deal with these type of use cases. More suitable solution in dealing with streams of data is to update the existing model after receiving new events. This learning approach which refers to the situation of continuous adaptation of the model over period of time with respect to stream of events is called “Online Machine Learning”. In the following article, Soft Confidence-Weighted (SCW) learning method will be presented by extending the Confidence-Weighted learning for soft margin learning. Which is a more resilient method in compare to the traditional CW learning in case of handling noisy and non-separable data. These characteristics make SCW more efficient and effective than the state-of-the-art AROW algorithm. Following to the already mentioned, the Soft Confidence-Weighted learning algorithms to solve the online multivariate classification problems will also be extended. Lastly, by performing several experiments, we can reach to the understating that generally, SCW by using a smaller number of updates and lower time cost, outperforms or at least has similar predictive performance and efficiency in compare to a variety of state-of-the-art algorithms such as Passive-Aggressive algorithm.

Viviamo in un mondo in continua evoluzione in cui ogni secondo vengono prodotti miliardi di dati; pertanto non possiamo fare affidamento sugli esseri umani per analizzarne e interpretarne una così smisurata quantità. Al fine di analizzare sufficientemente questi dati, è necessario utilizzare tecniche di apprendimento automatico (machine learning), senza le quali ciò risulterebbe una grande sfida in quanto ogni secondo accadono nuovi eventi di cui dovremmo tenere conto per ottenere un risultato ragionevole. Per poter analizzare eventi in tempo reale, un'alternativa valida ed efficace, è la tecnologia "Stream Processing", ovvero l'elaborazione dei flussi di dati. Tra i vantaggi di questa tecnologia possiamo menzionare, in primis, la tollerabilità ai guasti, che permette a sistemi di streaming come Kafka di ripristinare lo stato dell'applicazione in caso di guasti. Questa caratteristica è molto importante soprattutto per le applicazioni "real-time". Inoltre, questa tecnologia è utile per serie di dati più continue, come registri di attività, sensori di integrità, registri di transazioni, sensori di traffico e quasi tutti i dati di "Internet of Things" (IoT).. Infatti, lo streaming è uno dei modi migliori per gestire questi dati di serie temporali. Una soluzione ancora più adatta per gestire i flussi di dati sarebbe provedere ad un aggiornamento del modello esistente dopo aver ricevuto nuovi eventi. Questo approccio di apprendimento che si riferisce alla situazione di adattamento continuo del modello nel periodo di tempo rispetto al flusso di eventi si chiama “Online Machine Learning”. Nel seguente lavoro, verrà presentato il metodo di apprendimento ponderato chiamato Soft Confidence-Weighted (SCW) learning, estendendo "Confidence-Weighted learning", metodo usado per apprendere dei margini "morbidi". Questo metodo risulta essere il più resiliente rispetto all'apprendimento tradizionale in CW, in caso di gestione di dati rumorosi e non separabili. Queste caratteristiche rendono SCW più efficiente ed efficace dell'algoritmo dello stato dell'arte, AROW. Inoltre, saranno anche estesi gli algoritmi di apprendimento ponderati per la confidenza soft per risolvere i problemi di classificazione multivariata online. Infine, eseguendo diversi esperimenti, possiamo arrivare alla conclusione che, in genere, SCW utilizzando un numero minore di aggiornamenti e costi di tempo inferiori, sovraperforma o almeno presenta prestazioni ed efficienza predittive simili rispetto a una varietà di soluzioni all'avanguardia come l'algoritmo Passive-Aggressive.

Robust adaptive learning of data streams in real time using distributed systems

HOSSEINIMOTLAGH, SEYEDMASIH
2018/2019

Abstract

We live in a non-stationary world in which each second million terabytes of data are being produced. Therefore, we cannot rely on human to analyze and interpret this huge amount of data. In order to be able to analyze this data sufficiently, we need to use machine learning techniques. Otherwise it will be a big challenge because at each second new events happen and we need to take them into account to have a reasonable result. In order to be able to analyze real time events, we need to use the technology which is called “Stream Processing”. As advantages of stream processing we can mention that streaming systems like Kafka are fault-tolerant and can restore the application state in case of failures. Furthermore, the most continues data series such as activity logs, health sensors, transaction logs, traffic sensors and almost all Internet of Things (IoT) data are time series data. Streaming is a more natural way to deal with these type of use cases. More suitable solution in dealing with streams of data is to update the existing model after receiving new events. This learning approach which refers to the situation of continuous adaptation of the model over period of time with respect to stream of events is called “Online Machine Learning”. In the following article, Soft Confidence-Weighted (SCW) learning method will be presented by extending the Confidence-Weighted learning for soft margin learning. Which is a more resilient method in compare to the traditional CW learning in case of handling noisy and non-separable data. These characteristics make SCW more efficient and effective than the state-of-the-art AROW algorithm. Following to the already mentioned, the Soft Confidence-Weighted learning algorithms to solve the online multivariate classification problems will also be extended. Lastly, by performing several experiments, we can reach to the understating that generally, SCW by using a smaller number of updates and lower time cost, outperforms or at least has similar predictive performance and efficiency in compare to a variety of state-of-the-art algorithms such as Passive-Aggressive algorithm.
SPINA, ANDREA
ING - Scuola di Ingegneria Industriale e dell'Informazione
17-dic-2019
2018/2019
Viviamo in un mondo in continua evoluzione in cui ogni secondo vengono prodotti miliardi di dati; pertanto non possiamo fare affidamento sugli esseri umani per analizzarne e interpretarne una così smisurata quantità. Al fine di analizzare sufficientemente questi dati, è necessario utilizzare tecniche di apprendimento automatico (machine learning), senza le quali ciò risulterebbe una grande sfida in quanto ogni secondo accadono nuovi eventi di cui dovremmo tenere conto per ottenere un risultato ragionevole. Per poter analizzare eventi in tempo reale, un'alternativa valida ed efficace, è la tecnologia "Stream Processing", ovvero l'elaborazione dei flussi di dati. Tra i vantaggi di questa tecnologia possiamo menzionare, in primis, la tollerabilità ai guasti, che permette a sistemi di streaming come Kafka di ripristinare lo stato dell'applicazione in caso di guasti. Questa caratteristica è molto importante soprattutto per le applicazioni "real-time". Inoltre, questa tecnologia è utile per serie di dati più continue, come registri di attività, sensori di integrità, registri di transazioni, sensori di traffico e quasi tutti i dati di "Internet of Things" (IoT).. Infatti, lo streaming è uno dei modi migliori per gestire questi dati di serie temporali. Una soluzione ancora più adatta per gestire i flussi di dati sarebbe provedere ad un aggiornamento del modello esistente dopo aver ricevuto nuovi eventi. Questo approccio di apprendimento che si riferisce alla situazione di adattamento continuo del modello nel periodo di tempo rispetto al flusso di eventi si chiama “Online Machine Learning”. Nel seguente lavoro, verrà presentato il metodo di apprendimento ponderato chiamato Soft Confidence-Weighted (SCW) learning, estendendo "Confidence-Weighted learning", metodo usado per apprendere dei margini "morbidi". Questo metodo risulta essere il più resiliente rispetto all'apprendimento tradizionale in CW, in caso di gestione di dati rumorosi e non separabili. Queste caratteristiche rendono SCW più efficiente ed efficace dell'algoritmo dello stato dell'arte, AROW. Inoltre, saranno anche estesi gli algoritmi di apprendimento ponderati per la confidenza soft per risolvere i problemi di classificazione multivariata online. Infine, eseguendo diversi esperimenti, possiamo arrivare alla conclusione che, in genere, SCW utilizzando un numero minore di aggiornamenti e costi di tempo inferiori, sovraperforma o almeno presenta prestazioni ed efficienza predittive simili rispetto a una varietà di soluzioni all'avanguardia come l'algoritmo Passive-Aggressive.
Tesi di laurea Magistrale
File allegati
File Dimensione Formato  
Tesi_Masih.pdf

non accessibile

Descrizione: Tesi_SeyedMasih HosseiniMotlagh_862787
Dimensione 4.47 MB
Formato Adobe PDF
4.47 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/150622