Aim of this thesis is to classify Olive Oil from Gas Chromatography coupled to Ion Mobility Spectrometry (GC-IMS) using Machine Learning methods based on a totally data-driven approach. With the scope of improving the performance of current models, we have proposed a solution that allows us to analyze specific areas of Gas Chromatography and use this information in order to make a better classification of the oil in three main categories: Extra Virgin Olive Oil (EVOO), Virgin Olive Oil (VOO) and Lamp Olive Oil (LOO). The study is focused on the analysis of particular substances present in the oil that can be traced back to the presence of peaks within three-dimensional spectrography. The presence and the different structure of these peaks will allow us to instruct the model to make it able to carry out the classification among the different typologies. This project was carried out during the period of International Mobility in Spain, at the University of Seville and afterward the work continued in Italy. These two nations are currently the largest global oil producers. The classification of the oil performed in a more accurate way allows to create significant benefits for the whole community. First of all, for what concerns farmers: being able to correctly classify olive oil makes it possible to bottle all the top quality oil and sell it on the market at a higher price and with maximum profit. Second, but not least, frauds linked to the voluntary wrong classification of oil are increasingly frequent. In the international markets, in recent years, the quantity of substandard oil sold as oil of higher quality has increased drastically. The problem of oil classification is currently dealt with analytically methods. Experienced chemists are in charge of detecting markers in a three-dimensional spectrograph and based on these values ​​classify the oil with fairly poor results. This is because the detection of markers is a very difficult problem and only experienced oil chemists are able to apply this technique. The process therefore tends to assume very high costs both in terms of time and money. Achieving better results through advanced data-driven models would make it possible to carry out the same procedure with drastically low costs, reaching infinitely short prediction time compared to the analog model. Through this project we were able to improve the accuracy of the classification by 14%, reaching a result of 122 oils correctly classified into three types, out of a total of 140 test samples. We have published a scientific publication on this subject, which was presented on 6 June in Almería, Spain, at the "International Work-Conference on the Interplay between Natural and Artificial Computation". Following the presentation of the project carried out, the commission was enthusiastic.

Obiettivo di questa tesi è di classificare l’olio da immagini di Gascromatografie accoppiate a Spettrometria di Mobilità Ionica usando metodi di Machine Learning basati su un approccio totalmente Data-Driven. Con lo scopo di migliorare le performance dei modelli attuali abbiamo proposto una soluzione che ci permette di analizzare specifiche aree della Gas Cromatografia, utilizzando queste informazioni al fine di effettuare una migliore classificazione dell'olio in tre tipologie: extra vergine, vergine e lampante. Lo studio si è focalizzato sull'analisi di particolari sostanze presenti nell'olio che si possono ricondurre alla presenza di picchi all'interno della spettrografia tridimensionale. La presenza e la diversa struttura di questi picchi ci permetterà di istruire il modello per fare in modo che sia in grado di effettuare la classificazione tra le diverse tipologie. Questo progetto è stato portato avanti durante il periodo di Mobilità Internazionale in Spagna, presso l'Università di Siviglia e successivamente il lavoro è proseguito in Italia. Queste due nazioni sono attualmente le maggiori produttrici di olio a livello globale. La classificazione dell'olio eseguita in maniera più accurata permette di creare notevoli benefici per l'intera comunità. Innanzitutto per quanto riguarda gli agricoltori: riuscire a classificare correttamente l'olio d'oliva permette di imbottigliare tutto l'olio di qualità superiore e venderlo sul mercato ad un prezzo più alto e con il massimo della resa. Secondo, ma non meno importante, le frodi legate alla classificazione volontariamente sbagliata dell'olio sono sempre più frequenti. Sui mercati internazionali negli ultimi anni è aumentata drasticamente la quantità di oli spacciati per oli di qualità superiore. Il problema di classificazione dell'olio attualmente viene affrontato in maniera analitica. Dei chimici esperti si occupano di rilevare dei marcatori all'interno di una spettrografia tridimensionale e in base a questi valori classificano l'olio con risultati abbastanza scadenti. Questo perché il rilevamento di marcatori è un problema parecchio difficile e solo chimici esperti di olio sono in grado di poter applicare questa tecnica. Il processo dunque tende ad assumere costi molto elevati sia in termine di tempo che di denaro. Riuscire a ottenere risultati migliori attraverso modelli di Machine Learning avanzati permetterebbe di effettuare lo stesso procedimento con costi drasticamente inferiori, raggiungendo tempi di predizione infinitesimamente brevi rispetto al modello analogico. Attraverso questo progetto siamo riusciti a migliorare del 14% l'accuratezza della classificazione, arrivando fino ad una risultato di 122 oli correttamente classificati nelle tre tipologie su un totale di 140 campioni di test. Una pubblicazione scientifica a riguardo che è stata presentata il 6 giugno ad Almería, in Spagna presso “International Work-Conference on the Interplay between Natural and Artificial Computation”. A seguito dell’esposizione del progetto svolto, la commissione si è definita entusiasta.

Machine learning techniques to improve olive oil classification

CARMINATI, ANDREA
2018/2019

Abstract

Aim of this thesis is to classify Olive Oil from Gas Chromatography coupled to Ion Mobility Spectrometry (GC-IMS) using Machine Learning methods based on a totally data-driven approach. With the scope of improving the performance of current models, we have proposed a solution that allows us to analyze specific areas of Gas Chromatography and use this information in order to make a better classification of the oil in three main categories: Extra Virgin Olive Oil (EVOO), Virgin Olive Oil (VOO) and Lamp Olive Oil (LOO). The study is focused on the analysis of particular substances present in the oil that can be traced back to the presence of peaks within three-dimensional spectrography. The presence and the different structure of these peaks will allow us to instruct the model to make it able to carry out the classification among the different typologies. This project was carried out during the period of International Mobility in Spain, at the University of Seville and afterward the work continued in Italy. These two nations are currently the largest global oil producers. The classification of the oil performed in a more accurate way allows to create significant benefits for the whole community. First of all, for what concerns farmers: being able to correctly classify olive oil makes it possible to bottle all the top quality oil and sell it on the market at a higher price and with maximum profit. Second, but not least, frauds linked to the voluntary wrong classification of oil are increasingly frequent. In the international markets, in recent years, the quantity of substandard oil sold as oil of higher quality has increased drastically. The problem of oil classification is currently dealt with analytically methods. Experienced chemists are in charge of detecting markers in a three-dimensional spectrograph and based on these values ​​classify the oil with fairly poor results. This is because the detection of markers is a very difficult problem and only experienced oil chemists are able to apply this technique. The process therefore tends to assume very high costs both in terms of time and money. Achieving better results through advanced data-driven models would make it possible to carry out the same procedure with drastically low costs, reaching infinitely short prediction time compared to the analog model. Through this project we were able to improve the accuracy of the classification by 14%, reaching a result of 122 oils correctly classified into three types, out of a total of 140 test samples. We have published a scientific publication on this subject, which was presented on 6 June in Almería, Spain, at the "International Work-Conference on the Interplay between Natural and Artificial Computation". Following the presentation of the project carried out, the commission was enthusiastic.
NEPOMUCENO-CHAMORRO, ISABEL
RUBIO-ESCUDERO, CRISTINA
ING - Scuola di Ingegneria Industriale e dell'Informazione
25-lug-2019
2018/2019
Obiettivo di questa tesi è di classificare l’olio da immagini di Gascromatografie accoppiate a Spettrometria di Mobilità Ionica usando metodi di Machine Learning basati su un approccio totalmente Data-Driven. Con lo scopo di migliorare le performance dei modelli attuali abbiamo proposto una soluzione che ci permette di analizzare specifiche aree della Gas Cromatografia, utilizzando queste informazioni al fine di effettuare una migliore classificazione dell'olio in tre tipologie: extra vergine, vergine e lampante. Lo studio si è focalizzato sull'analisi di particolari sostanze presenti nell'olio che si possono ricondurre alla presenza di picchi all'interno della spettrografia tridimensionale. La presenza e la diversa struttura di questi picchi ci permetterà di istruire il modello per fare in modo che sia in grado di effettuare la classificazione tra le diverse tipologie. Questo progetto è stato portato avanti durante il periodo di Mobilità Internazionale in Spagna, presso l'Università di Siviglia e successivamente il lavoro è proseguito in Italia. Queste due nazioni sono attualmente le maggiori produttrici di olio a livello globale. La classificazione dell'olio eseguita in maniera più accurata permette di creare notevoli benefici per l'intera comunità. Innanzitutto per quanto riguarda gli agricoltori: riuscire a classificare correttamente l'olio d'oliva permette di imbottigliare tutto l'olio di qualità superiore e venderlo sul mercato ad un prezzo più alto e con il massimo della resa. Secondo, ma non meno importante, le frodi legate alla classificazione volontariamente sbagliata dell'olio sono sempre più frequenti. Sui mercati internazionali negli ultimi anni è aumentata drasticamente la quantità di oli spacciati per oli di qualità superiore. Il problema di classificazione dell'olio attualmente viene affrontato in maniera analitica. Dei chimici esperti si occupano di rilevare dei marcatori all'interno di una spettrografia tridimensionale e in base a questi valori classificano l'olio con risultati abbastanza scadenti. Questo perché il rilevamento di marcatori è un problema parecchio difficile e solo chimici esperti di olio sono in grado di poter applicare questa tecnica. Il processo dunque tende ad assumere costi molto elevati sia in termine di tempo che di denaro. Riuscire a ottenere risultati migliori attraverso modelli di Machine Learning avanzati permetterebbe di effettuare lo stesso procedimento con costi drasticamente inferiori, raggiungendo tempi di predizione infinitesimamente brevi rispetto al modello analogico. Attraverso questo progetto siamo riusciti a migliorare del 14% l'accuratezza della classificazione, arrivando fino ad una risultato di 122 oli correttamente classificati nelle tre tipologie su un totale di 140 campioni di test. Una pubblicazione scientifica a riguardo che è stata presentata il 6 giugno ad Almería, in Spagna presso “International Work-Conference on the Interplay between Natural and Artificial Computation”. A seguito dell’esposizione del progetto svolto, la commissione si è definita entusiasta.
Tesi di laurea Magistrale
File allegati
File Dimensione Formato  
Carminati - MSc Thesis.pdf

accessibile in internet per tutti

Descrizione: Thesis text
Dimensione 3.65 MB
Formato Adobe PDF
3.65 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/149400