This study explores the application of deep learning techniques for inferring parameters of diversification models from extant phylogenies, providing an alternative to the slow and computationally expensive Maximum Likelihood Estimation (MLE) methods, which often lack analytical solutions. The research evaluates Convolutional Neural Networks (CNNs), Linear models, Feed Forward Neural Networks (FFNNs), Gated Recurrent Units (GRUs), and Long Short-Term Memory (LSTM) Networks. Despite computational constraints, promising results were achieved. The analysis focused on two types of encoding: CDV and Summary Statistics. A significant contribution of this work is the introduction of a Random Forest Classifier for parameter inference, which exhibited superior predictive accuracy and faster training times compared to other deep learning models. The study also highlighted the limitations of previous research due to overly stringent constraints. A novel tool capable of inferring the mathematical model of a given phylogeny was developed, dramatically reducing computational time from minutes to milliseconds and achieving an impressive test accuracy of 88\%. This advancement enables efficient and accurate inference of diversification models, even in scenarios where MLE was infeasible. The research leverages the diversitree package for simulating phylogenetic trees under various models, selecting it for its comprehensive and customizable functions. This study represents a significant step towards developing sophisticated and scalable analytical tools for evolutionary biology.

Questo studio esplora l'applicazione delle tecniche di deep learning per dedurre i parametri dei modelli di diversificazione dalle filogenie (gli alberi genealogici che mostrano le relazioni evolutive tra specie), fornendo un'alternativa ai metodi di Massima Verosimiglianza (MLE), che sono lenti e computazionalmente costosi e spesso privi di soluzioni analitiche. La ricerca valuta Convolutional Neural Networks (CNNs), modelli Lineari, Feed Forward Neural Networks (FFNNs), Gated Recurrent Units (GRUs) e Long Short-Term Memory (LSTM) Networks. Nonostante i vincoli computazionali, sono stati ottenuti risultati promettenti. L'analisi si è concentrata su due tipi di codifica: CDV e Summary Statistics. Un contributo significativo di questo lavoro è l'introduzione di un Random Forest Classifier per l'inferenza dei parametri, che ha mostrato una precisione predittiva superiore e tempi di addestramento più rapidi rispetto agli altri modelli di deep learning. Lo studio ha anche evidenziato i limiti delle ricerche precedenti dovuti a vincoli eccessivamente rigidi. È stato sviluppato un nuovo strumento capace di inferire il modello matematico di una data filogenia, riducendo drasticamente il tempo computazionale da minuti a millisecondi e raggiungendo un'accuratezza dell' 88\%. Questo progresso consente un'inferenza efficiente e accurata dei modelli di diversificazione, anche in scenari in cui l'MLE era impraticabile. La ricerca sfrutta il pacchetto diversitree per simulare alberi filogenetici sotto vari modelli, selezionandolo per le sue funzioni complete e personalizzabili. Questo studio rappresenta un passo significativo verso lo sviluppo di strumenti analitici sofisticati e scalabili per la biologia evolutiva.

Machine learning for species diversification dynamics

COLBERTALDO, MATTIA
2023/2024

Abstract

This study explores the application of deep learning techniques for inferring parameters of diversification models from extant phylogenies, providing an alternative to the slow and computationally expensive Maximum Likelihood Estimation (MLE) methods, which often lack analytical solutions. The research evaluates Convolutional Neural Networks (CNNs), Linear models, Feed Forward Neural Networks (FFNNs), Gated Recurrent Units (GRUs), and Long Short-Term Memory (LSTM) Networks. Despite computational constraints, promising results were achieved. The analysis focused on two types of encoding: CDV and Summary Statistics. A significant contribution of this work is the introduction of a Random Forest Classifier for parameter inference, which exhibited superior predictive accuracy and faster training times compared to other deep learning models. The study also highlighted the limitations of previous research due to overly stringent constraints. A novel tool capable of inferring the mathematical model of a given phylogeny was developed, dramatically reducing computational time from minutes to milliseconds and achieving an impressive test accuracy of 88\%. This advancement enables efficient and accurate inference of diversification models, even in scenarios where MLE was infeasible. The research leverages the diversitree package for simulating phylogenetic trees under various models, selecting it for its comprehensive and customizable functions. This study represents a significant step towards developing sophisticated and scalable analytical tools for evolutionary biology.
Wit, Ernst
Richter Mendoza, Francisco
ING - Scuola di Ingegneria Industriale e dell'Informazione
16-lug-2024
2023/2024
Questo studio esplora l'applicazione delle tecniche di deep learning per dedurre i parametri dei modelli di diversificazione dalle filogenie (gli alberi genealogici che mostrano le relazioni evolutive tra specie), fornendo un'alternativa ai metodi di Massima Verosimiglianza (MLE), che sono lenti e computazionalmente costosi e spesso privi di soluzioni analitiche. La ricerca valuta Convolutional Neural Networks (CNNs), modelli Lineari, Feed Forward Neural Networks (FFNNs), Gated Recurrent Units (GRUs) e Long Short-Term Memory (LSTM) Networks. Nonostante i vincoli computazionali, sono stati ottenuti risultati promettenti. L'analisi si è concentrata su due tipi di codifica: CDV e Summary Statistics. Un contributo significativo di questo lavoro è l'introduzione di un Random Forest Classifier per l'inferenza dei parametri, che ha mostrato una precisione predittiva superiore e tempi di addestramento più rapidi rispetto agli altri modelli di deep learning. Lo studio ha anche evidenziato i limiti delle ricerche precedenti dovuti a vincoli eccessivamente rigidi. È stato sviluppato un nuovo strumento capace di inferire il modello matematico di una data filogenia, riducendo drasticamente il tempo computazionale da minuti a millisecondi e raggiungendo un'accuratezza dell' 88\%. Questo progresso consente un'inferenza efficiente e accurata dei modelli di diversificazione, anche in scenari in cui l'MLE era impraticabile. La ricerca sfrutta il pacchetto diversitree per simulare alberi filogenetici sotto vari modelli, selezionandolo per le sue funzioni complete e personalizzabili. Questo studio rappresenta un passo significativo verso lo sviluppo di strumenti analitici sofisticati e scalabili per la biologia evolutiva.
File allegati
File Dimensione Formato  
Executive_Summary___Scuola_di_Ingegneria_Industriale_e_dell_Informazione___Politecnico_di_Milano (2).pdf

accessibile in internet per tutti

Descrizione: Executive summary
Dimensione 950.94 kB
Formato Adobe PDF
950.94 kB Adobe PDF Visualizza/Apri
Classical_Format_Thesis___Scuola_di_Ingegneria_Industriale_e_dell_Informazione___Politecnico_di_Milano (2).pdf

accessibile in internet per tutti

Descrizione: Classical format thesis
Dimensione 2.74 MB
Formato Adobe PDF
2.74 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/222507