Nowadays people who want to improve the running performances relies on schedules made by personal trainers that could be either a physical person or a website/application entity. Sometimes the schedules of training offered to the athlete are not driven by scientific studies but they are more related to experience and they are often not tailored to the single person. In this scenario, thanks to the advent of online platforms in which athletes upload and store their training, it is possible to obtain data to perform data driven analysis in order to find scientific answers to the important question: "How to improve my performances?". The focus of the thesis will be on endurance runners and the data are extracted from a framework built in a previous work. After a data cleaning process of the dataset, a Kmeans clustering technique is applied to distinguish different categories of athletes based on the difficulty level of the training they perform, based on features like distance, speed, elevation and frequency of workouts. After applying a feature selection technique, a regression technique is adopted in order to predict a performance parameter called VDOT. The built model showed good performances with a prediction accuracy on the test set of around 0.80 and, after that, some techniques have been used to draw conclusions from the results, in particular Individual Conditional Expectation and permutation importance highlighted how the mean speed of an endurance athlete is the main KPI that characterizes is performances, the correctness of the clustering realized, since the athletes performing less demanding workouts contribute negatively to the prediction of the VDOT. The obtained results showed the potential that a data science approach can bring in the endurance running field but it showed also that there is a large margin of improvement for what concerns the machine learning techniques used for prediction, more complex model can in fact be used to discover more deep insight on training performances.

Al giorno d’oggi le persone che vogliono migliorare le loro prestazioni nella corsa si affidano a programmi realizzati da personal trainer i quali possono essere sia persone fisiche che siti web/applicazioni. Spesso i programmi di allenamento offerti all’atleta non sono frutto di studi scientifici ma sono più legati all’esperienza e non sono realizzati su misura per la singola persona. In questo scenario, grazie all’avvento di piattaforme online in cui gli atleti possono caricare e salvare i propri allenamenti, è possibile ottenere i dati necessari per applicare nuove analisi data driven per trovare risposte scientifiche all’importante domanda: "Come posso migliorare le mie prestazioni?". In particolare in questa tesi il focus dello studio sarà su gli endurance runner e i dati a disposizione sono estratti da un framework costruito in un precedente lavoro. Dopo aver sottoposto i dati a un processo di cleaning è stato applicato un clustering per distinguere diverse categorie di atleti in base al livello di difficoltà dell’allenamento che solitamente sostengono. Dopo aver utilizzato tecniche di feature selection per ridurre la complessità del modello, è stata applicata una tecnica di regressione con l’obiettivo di predire un parametro di performance, il VDOT. Il modello finale ha dimostrato buone prestazioni con un accuracy sul test set di circa 0,80. Successivamente, sono state utilizzate alcune tecniche per trarre importanti conclusioni dai risultati. In particolare sono stati adottati il Individual Conditional Expectation e la permutation importance che hanno evidenziato come la velocità media di un atleta di endurance run è il principale KPI che caratterizza le sue prestazioni. E’ stata dimostrata anche la correttezza della segmentazione realizzata, poiché gli atleti che eseguono allenamenti meno impegnativi contribuiscono negativamente alla previsione del vdot. I risultati ottenuti hanno mostrato il potenziale che un approccio di data science può portare nel campo dell’endurance run ma hanno anche mostrato che esiste un ampio margine di miglioramento per quanto riguarda le tecniche di machine learning utilizzate per la previsione, infatti possono essere impiegati modelli più complessi per ottenere informazioni altrimenti non visibili sulle prestazioni di allenamento.

A data science framework for the analysis and prediction of endurance runner performances

TRIBI, EMANUELE
2020/2021

Abstract

Nowadays people who want to improve the running performances relies on schedules made by personal trainers that could be either a physical person or a website/application entity. Sometimes the schedules of training offered to the athlete are not driven by scientific studies but they are more related to experience and they are often not tailored to the single person. In this scenario, thanks to the advent of online platforms in which athletes upload and store their training, it is possible to obtain data to perform data driven analysis in order to find scientific answers to the important question: "How to improve my performances?". The focus of the thesis will be on endurance runners and the data are extracted from a framework built in a previous work. After a data cleaning process of the dataset, a Kmeans clustering technique is applied to distinguish different categories of athletes based on the difficulty level of the training they perform, based on features like distance, speed, elevation and frequency of workouts. After applying a feature selection technique, a regression technique is adopted in order to predict a performance parameter called VDOT. The built model showed good performances with a prediction accuracy on the test set of around 0.80 and, after that, some techniques have been used to draw conclusions from the results, in particular Individual Conditional Expectation and permutation importance highlighted how the mean speed of an endurance athlete is the main KPI that characterizes is performances, the correctness of the clustering realized, since the athletes performing less demanding workouts contribute negatively to the prediction of the VDOT. The obtained results showed the potential that a data science approach can bring in the endurance running field but it showed also that there is a large margin of improvement for what concerns the machine learning techniques used for prediction, more complex model can in fact be used to discover more deep insight on training performances.
ING - Scuola di Ingegneria Industriale e dell'Informazione
28-apr-2022
2020/2021
Al giorno d’oggi le persone che vogliono migliorare le loro prestazioni nella corsa si affidano a programmi realizzati da personal trainer i quali possono essere sia persone fisiche che siti web/applicazioni. Spesso i programmi di allenamento offerti all’atleta non sono frutto di studi scientifici ma sono più legati all’esperienza e non sono realizzati su misura per la singola persona. In questo scenario, grazie all’avvento di piattaforme online in cui gli atleti possono caricare e salvare i propri allenamenti, è possibile ottenere i dati necessari per applicare nuove analisi data driven per trovare risposte scientifiche all’importante domanda: "Come posso migliorare le mie prestazioni?". In particolare in questa tesi il focus dello studio sarà su gli endurance runner e i dati a disposizione sono estratti da un framework costruito in un precedente lavoro. Dopo aver sottoposto i dati a un processo di cleaning è stato applicato un clustering per distinguere diverse categorie di atleti in base al livello di difficoltà dell’allenamento che solitamente sostengono. Dopo aver utilizzato tecniche di feature selection per ridurre la complessità del modello, è stata applicata una tecnica di regressione con l’obiettivo di predire un parametro di performance, il VDOT. Il modello finale ha dimostrato buone prestazioni con un accuracy sul test set di circa 0,80. Successivamente, sono state utilizzate alcune tecniche per trarre importanti conclusioni dai risultati. In particolare sono stati adottati il Individual Conditional Expectation e la permutation importance che hanno evidenziato come la velocità media di un atleta di endurance run è il principale KPI che caratterizza le sue prestazioni. E’ stata dimostrata anche la correttezza della segmentazione realizzata, poiché gli atleti che eseguono allenamenti meno impegnativi contribuiscono negativamente alla previsione del vdot. I risultati ottenuti hanno mostrato il potenziale che un approccio di data science può portare nel campo dell’endurance run ma hanno anche mostrato che esiste un ampio margine di miglioramento per quanto riguarda le tecniche di machine learning utilizzate per la previsione, infatti possono essere impiegati modelli più complessi per ottenere informazioni altrimenti non visibili sulle prestazioni di allenamento.
File allegati
File Dimensione Formato  
Executive_Summary Tribi.pdf

accessibile in internet solo dagli utenti autorizzati

Descrizione: Executive summary
Dimensione 902.93 kB
Formato Adobe PDF
902.93 kB Adobe PDF   Visualizza/Apri
Tribi_Master_Thesis.pdf

accessibile in internet solo dagli utenti autorizzati

Descrizione: Thesis
Dimensione 4.09 MB
Formato Adobe PDF
4.09 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/187697