Today data are increasing in volume and in complexity every day, to follow this exponential growth are necessary new methods to analyze the enormous amount of data generated. Companies have understood that data are essential to compete, and they are collecting even more data, but sometime happens that they do not have the resources to analyze them. The actual problem is not how to generate data but how to analyze data. The real problem today for companies is the scarcity of expert data scientists able to extract value from Big Data. To solve this problem are arising new technologies of data management and analysis. One of the most potential innovation in this field is the automated machine learning. The thesis aims to define it considering different perspectives to increase knowledge and to test how these systems work. Automated machine learning is the new technology enabling the development of machine learning models autonomously by the machine. These systems reduce the level of interaction human-machine, letting the machine to decide how to create complex models to solve complex problems. Machine learning is in the hand of few skilled people, data scientists, having deep knowledge in computer science, mathematics and statistics. With AutoML systems this equilibrium is wrecked since even persons without strong skills can rapidly develop machine learning solutions. To create a comprehensive ‘big picture’ of this world, different analysis both qualitative and quantitative were executed. Qualitative researches were carried about understanding what automated machine learning is, researching the reasons why this new technology is becoming even more requested by companies and studying the potential impact that it could bring to data science professional figures in doing their jobs. Quantitative analysis was about both quantification and classification of the actual AutoML systems, trying to define the number of different solutions in existence today and their target customers. Always regarding the quantitative researches were tested different automated machine learning systems, precisely five, comparing their performances with those one of two different machine learning solutions really implemented to solve a prediction problem for a gas dispatching company. The comparison was conducted considering a specific trade-off composed by three main drivers: MAPE as metric to establish the goodness of the different models compared; the economic return, directly correlated to MAPE, brought by the different solutions in order to understand if AutoML can achieve the same results obtained by traditional machine learning; the set of time, cost and effort needed to develop the different model of prediction both for AutoML and traditional machine learning. This final part of the thesis aims to answer to the question: could AutoML be considered as a valid alternative to traditional machine learning workflow? As will be seen from the conclusions drawn from the tests carried out on the business case under consideration, this new technology drastically reduces development time and costs, but does not always respect the level of performance desired. The choice whether to adopt these systems or not is based on the triple trade-off performance-time-development costs.

Ogni giorno i dati stanno aumentando di volume e complessità, per seguire questa crescita esponenziale sono necessari nuovi metodi per analizzare l'enorme quantità di dati generati. Le aziende hanno capito l’importanza dei dati per competere nel mercato e per questo stanno aumentando la quantità di dati raccolti, ma capita che sempre più spesso non dispongono delle risorse per analizzarli. In effetti, oggi il problema non è come generare dati ma come analizzare i dati. Il problema per le aziende oggi è la scarsità di esperti data scientist capaci di estrarre valore dai Big Data. Per risolvere questo problema stanno nascendo nuove tecnologie di gestione e analisi dei dati. Una delle innovazioni col più grande potenziale in questo campo è il machine learning automatizzato. La tesi mira a definire questa tecnologia considerando diverse prospettive per aumentare la conoscenza su di essa e testare come effettivamente questi sistemi performano. Il machine learning automatizzato è una nuova tecnologia che permette alla macchina di sviluppare autonomamente modelli di machine learning. Questi nuovi sistemi riducono il livello di interazione uomo-macchina, permettendo alla macchina di decidere come creare un modello di machine learning per risolvere problemi complessi. Il machine learning è nelle mani di poche persone, i data scientist, i quali hanno profonde conoscenze in computer science, matematica e statistica. Con i sistemi di AutoML questo equilibrio potrebbe vacillare, dato che anche persone senza forti competenze possono rapidamente sviluppare soluzioni di machine learning. Per creare una comprensiva ‘big picture’ di questa tecnologia sono state eseguite diverse analisi sia qualitative che quantitative. Le ricerche qualitative sono focalizzate nel definire il machine learning automatizzato, ricercando le ragioni del perché questa nuova tecnologia stia diventando sempre più richiesta dalle aziende. Inoltre, è stato oggetto di ricerca indagare sul potenziale impatto che l’AutoML potrebbe portare nel metodo di lavoro dei data scientist durante il tipico processo di sviluppo di un modello di machine learning. Le analisi quantitative, invece, sono state condotte al fine di classificare e quantificare i sistemi AutoML presenti oggi nel mercato e per definire quale sia la loro strategia di targeting. Sempre riguardo le ricerche quantitative sono stati testati diversi sistemi di machine learning automatizzato, precisamente cinque, comparando le loro performance con quelle di due soluzioni di machine learning tradizionale realmente implementati per risolvere un problema di previsione per una compagnia che si occupa di dispacciamento di gas. La comparazione è stata fatta considerando uno specifico trade-off composto da tre driver principali: il MAPE come metrica per definire la bontà dei diversi modelli confrontati; il ritorno economico, direttamente correlato al MAPE, portato dalle diverse soluzioni per capire se l’AutoML può ottenere gli stessi risultati ottenuti dal machine learning tradizionale; l’insieme di tempo, costi e sforzo necessario per sviluppare i diversi modelli di previsione sia delle soluzioni automatiche che di quelle tradizionali. Questa parte finale della tesi cerca di rispondere alla domanda: l’AutoML potrebbe essere una valida alternativa al tradizionale metodo di lavoro per sviluppare modelli di machine learning? Come si evincerà dalle conclusioni tratte dai test effettuati sul business case preso in considerazione, questa nuova tecnologia riduce drasticamente il tempo e i costi di sviluppo, ma non sempre rispetta il livello di performance voluto. La scelta se adottare questi sistemi o meno è basata sul triplice trade-off performance-tempo-costi di sviluppo.

Automated machine learning : competence development, market analysis and tools evaluation on a business case

CUROTTI, TOMMASO
2018/2019

Abstract

Today data are increasing in volume and in complexity every day, to follow this exponential growth are necessary new methods to analyze the enormous amount of data generated. Companies have understood that data are essential to compete, and they are collecting even more data, but sometime happens that they do not have the resources to analyze them. The actual problem is not how to generate data but how to analyze data. The real problem today for companies is the scarcity of expert data scientists able to extract value from Big Data. To solve this problem are arising new technologies of data management and analysis. One of the most potential innovation in this field is the automated machine learning. The thesis aims to define it considering different perspectives to increase knowledge and to test how these systems work. Automated machine learning is the new technology enabling the development of machine learning models autonomously by the machine. These systems reduce the level of interaction human-machine, letting the machine to decide how to create complex models to solve complex problems. Machine learning is in the hand of few skilled people, data scientists, having deep knowledge in computer science, mathematics and statistics. With AutoML systems this equilibrium is wrecked since even persons without strong skills can rapidly develop machine learning solutions. To create a comprehensive ‘big picture’ of this world, different analysis both qualitative and quantitative were executed. Qualitative researches were carried about understanding what automated machine learning is, researching the reasons why this new technology is becoming even more requested by companies and studying the potential impact that it could bring to data science professional figures in doing their jobs. Quantitative analysis was about both quantification and classification of the actual AutoML systems, trying to define the number of different solutions in existence today and their target customers. Always regarding the quantitative researches were tested different automated machine learning systems, precisely five, comparing their performances with those one of two different machine learning solutions really implemented to solve a prediction problem for a gas dispatching company. The comparison was conducted considering a specific trade-off composed by three main drivers: MAPE as metric to establish the goodness of the different models compared; the economic return, directly correlated to MAPE, brought by the different solutions in order to understand if AutoML can achieve the same results obtained by traditional machine learning; the set of time, cost and effort needed to develop the different model of prediction both for AutoML and traditional machine learning. This final part of the thesis aims to answer to the question: could AutoML be considered as a valid alternative to traditional machine learning workflow? As will be seen from the conclusions drawn from the tests carried out on the business case under consideration, this new technology drastically reduces development time and costs, but does not always respect the level of performance desired. The choice whether to adopt these systems or not is based on the triple trade-off performance-time-development costs.
VOLPE, ALESSANDRO
ING - Scuola di Ingegneria Industriale e dell'Informazione
18-dic-2019
2018/2019
Ogni giorno i dati stanno aumentando di volume e complessità, per seguire questa crescita esponenziale sono necessari nuovi metodi per analizzare l'enorme quantità di dati generati. Le aziende hanno capito l’importanza dei dati per competere nel mercato e per questo stanno aumentando la quantità di dati raccolti, ma capita che sempre più spesso non dispongono delle risorse per analizzarli. In effetti, oggi il problema non è come generare dati ma come analizzare i dati. Il problema per le aziende oggi è la scarsità di esperti data scientist capaci di estrarre valore dai Big Data. Per risolvere questo problema stanno nascendo nuove tecnologie di gestione e analisi dei dati. Una delle innovazioni col più grande potenziale in questo campo è il machine learning automatizzato. La tesi mira a definire questa tecnologia considerando diverse prospettive per aumentare la conoscenza su di essa e testare come effettivamente questi sistemi performano. Il machine learning automatizzato è una nuova tecnologia che permette alla macchina di sviluppare autonomamente modelli di machine learning. Questi nuovi sistemi riducono il livello di interazione uomo-macchina, permettendo alla macchina di decidere come creare un modello di machine learning per risolvere problemi complessi. Il machine learning è nelle mani di poche persone, i data scientist, i quali hanno profonde conoscenze in computer science, matematica e statistica. Con i sistemi di AutoML questo equilibrio potrebbe vacillare, dato che anche persone senza forti competenze possono rapidamente sviluppare soluzioni di machine learning. Per creare una comprensiva ‘big picture’ di questa tecnologia sono state eseguite diverse analisi sia qualitative che quantitative. Le ricerche qualitative sono focalizzate nel definire il machine learning automatizzato, ricercando le ragioni del perché questa nuova tecnologia stia diventando sempre più richiesta dalle aziende. Inoltre, è stato oggetto di ricerca indagare sul potenziale impatto che l’AutoML potrebbe portare nel metodo di lavoro dei data scientist durante il tipico processo di sviluppo di un modello di machine learning. Le analisi quantitative, invece, sono state condotte al fine di classificare e quantificare i sistemi AutoML presenti oggi nel mercato e per definire quale sia la loro strategia di targeting. Sempre riguardo le ricerche quantitative sono stati testati diversi sistemi di machine learning automatizzato, precisamente cinque, comparando le loro performance con quelle di due soluzioni di machine learning tradizionale realmente implementati per risolvere un problema di previsione per una compagnia che si occupa di dispacciamento di gas. La comparazione è stata fatta considerando uno specifico trade-off composto da tre driver principali: il MAPE come metrica per definire la bontà dei diversi modelli confrontati; il ritorno economico, direttamente correlato al MAPE, portato dalle diverse soluzioni per capire se l’AutoML può ottenere gli stessi risultati ottenuti dal machine learning tradizionale; l’insieme di tempo, costi e sforzo necessario per sviluppare i diversi modelli di previsione sia delle soluzioni automatiche che di quelle tradizionali. Questa parte finale della tesi cerca di rispondere alla domanda: l’AutoML potrebbe essere una valida alternativa al tradizionale metodo di lavoro per sviluppare modelli di machine learning? Come si evincerà dalle conclusioni tratte dai test effettuati sul business case preso in considerazione, questa nuova tecnologia riduce drasticamente il tempo e i costi di sviluppo, ma non sempre rispetta il livello di performance voluto. La scelta se adottare questi sistemi o meno è basata sul triplice trade-off performance-tempo-costi di sviluppo.
Tesi di laurea Magistrale
File allegati
File Dimensione Formato  
Final Thesis.pdf

Open Access dal 28/11/2020

Descrizione: Thesis text
Dimensione 3.8 MB
Formato Adobe PDF
3.8 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/150973