The Quantitative Real-Time Polymerase Chain Reaction (qPCR) defines one of the most used quantification methods in modern molecular biology. This technique allows to quantify, employing peculiar fluorescent dyes, the exponential synthesis of a single DNA filament. The amplification reaction occurs in a specific thermo-cycler within a fixed number of cycles. Most of the quantification strategies employ the cycle threshold Ct, defined as the cycle presenting a notable rise in fluorescence from the baseline. Biologically, Ct states when the DNA amplification begins to occur significantly. An ideal qPCR fluorescence kinetics follows an S-shaped curve, through which the Ct value can be easily computed. However, there exist several biochemical and technical issues that make an actual curve diverge from the ideal trajectory, hardening the process of identifying the Ct value. This thesis presents machine learning-based techniques that can be applied to manage qPCR fluorescence kinetics. In particular, the thesis tackles the problem of developing a binary classification framework able to identify the curves from which a Ct value can be calculated from those from which it cannot. Two valuable curves’ representations are found in the control points of a Bézier parametrization and the embedding of an encoder-decoder recurrent neural network. A random forest and a multi-layer perceptron are trained respectively exploiting those features.

La Quantitative Real-Time Polymerase Chain Reaction (qPCR) è uno dei metodi di quantificazione più utilizzati nella biologia molecolare moderna. Questa tecnica permette di quantificare la sintesi esponenziale di un singolo filamento di DNA attraverso degli specifici fluorofori. La reazione avviene all’interno di un particolare termo-ciclatore, in un numero prefissato di cicli. La maggior parte dei metodi di quantificazione utilizza il cosiddetto ciclo threshold Ct, che definisce il ciclo dove è possibile notare un aumento significativo di fluorescenza rispetto alla fluorescenza di fondo. Biologicamente, il valore Ct definisce l’inizio significativo della sintesi. Idealmente, la curva di fluorescenza derivata da una qPCR segue una traiettoria ad S, tramite la quale è possibile calcolare il valore del Ct. Tuttavia esistono una serie di complicazioni di tipo sia biochimico che tecnico per cui una curva reale può divergere sostanzialmente da quella ideale, rendendo difficoltosa l’identificazione di un Ct. Questa tesi presenta l’applicazione di tecniche di machine learning alle curve ricavate da qPCR, sviluppando un classificatore binario per distinguere le curve per le quali è possibile calcolare il valore Ct da quelle per le quali non è possibile. Le curve vengono rappresentate da due insiemi di feature: i punti di controllo di una parametrizzazione tramite curva di Bézier e l’embedding ottenuto da una rete neurale di tipo encoder-decoder. Vengono quindi allenati una random forest ed un multi-layer perceptron sfruttando i due insiemi di feature.

Study on the applicability of machine learning-based techniques to the interpretation of fluorescent amplification curves acquired from real-time PCR (qPCR) assays

BISICA, LEONARDO
2019/2020

Abstract

The Quantitative Real-Time Polymerase Chain Reaction (qPCR) defines one of the most used quantification methods in modern molecular biology. This technique allows to quantify, employing peculiar fluorescent dyes, the exponential synthesis of a single DNA filament. The amplification reaction occurs in a specific thermo-cycler within a fixed number of cycles. Most of the quantification strategies employ the cycle threshold Ct, defined as the cycle presenting a notable rise in fluorescence from the baseline. Biologically, Ct states when the DNA amplification begins to occur significantly. An ideal qPCR fluorescence kinetics follows an S-shaped curve, through which the Ct value can be easily computed. However, there exist several biochemical and technical issues that make an actual curve diverge from the ideal trajectory, hardening the process of identifying the Ct value. This thesis presents machine learning-based techniques that can be applied to manage qPCR fluorescence kinetics. In particular, the thesis tackles the problem of developing a binary classification framework able to identify the curves from which a Ct value can be calculated from those from which it cannot. Two valuable curves’ representations are found in the control points of a Bézier parametrization and the embedding of an encoder-decoder recurrent neural network. A random forest and a multi-layer perceptron are trained respectively exploiting those features.
COLOMBO, LORENZO
AZZALINI, DAVIDE
ING - Scuola di Ingegneria Industriale e dell'Informazione
2-ott-2020
2019/2020
La Quantitative Real-Time Polymerase Chain Reaction (qPCR) è uno dei metodi di quantificazione più utilizzati nella biologia molecolare moderna. Questa tecnica permette di quantificare la sintesi esponenziale di un singolo filamento di DNA attraverso degli specifici fluorofori. La reazione avviene all’interno di un particolare termo-ciclatore, in un numero prefissato di cicli. La maggior parte dei metodi di quantificazione utilizza il cosiddetto ciclo threshold Ct, che definisce il ciclo dove è possibile notare un aumento significativo di fluorescenza rispetto alla fluorescenza di fondo. Biologicamente, il valore Ct definisce l’inizio significativo della sintesi. Idealmente, la curva di fluorescenza derivata da una qPCR segue una traiettoria ad S, tramite la quale è possibile calcolare il valore del Ct. Tuttavia esistono una serie di complicazioni di tipo sia biochimico che tecnico per cui una curva reale può divergere sostanzialmente da quella ideale, rendendo difficoltosa l’identificazione di un Ct. Questa tesi presenta l’applicazione di tecniche di machine learning alle curve ricavate da qPCR, sviluppando un classificatore binario per distinguere le curve per le quali è possibile calcolare il valore Ct da quelle per le quali non è possibile. Le curve vengono rappresentate da due insiemi di feature: i punti di controllo di una parametrizzazione tramite curva di Bézier e l’embedding ottenuto da una rete neurale di tipo encoder-decoder. Vengono quindi allenati una random forest ed un multi-layer perceptron sfruttando i due insiemi di feature.
File allegati
File Dimensione Formato  
Leonardo_Bisica_Master_thesis.pdf

non accessibile

Dimensione 5.72 MB
Formato Adobe PDF
5.72 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/167003