Self-supervised 3D Human Pose Estimation in sports aerial videos

3D Human Pose Estimation (3D HPE) aims to recover the three-dimensional configuration of the human body from visual data and has achieved remarkable progress in recent years thanks to deep learning and large-scale datasets. In sports, accurate 3D pose reconstruction can support performance analysis, injury prevention, and tactical evaluation. However, current state-of-the-art methods are mainly designed for controlled environments or ground-level cameras, and are not tailored to aerial videos. Drone platforms offer a flexible and scalable solution for outdoor sports scenarios, where the monitored area can be very large and the installation of multiple calibrated fixed cameras is impractical or economically unfeasible. Unmanned Aerial Vehicles (UAVs) can dynamically adjust viewpoint, height, and coverage, enabling data acquisition in complex environments. Nevertheless, aerial footage introduces additional challenges, including viewpoint variability, motion blur, scale changes, and frequent occlusions. In this thesis, I propose Brancher, a deep learning framework built upon a state-of-the-art backbone for single-person, single-view 3D HPE from sports aerial videos. To the best of our knowledge, this is among the first works to explicitly address 3D human pose reconstruction from monocular drone footage using a fully deep learning approach. The model follows a self-supervised training strategy and extends standard 3D regression by jointly modeling spatio-temporal joint dynamics, limb rotations, and prediction uncertainty. By explicitly accounting for rotational alignment and heteroscedastic uncertainty, Brancher improves robustness to noisy pseudo-labels and limited visibility, enabling stable and temporally coherent 3D motion reconstruction from challenging aerial sports footage. These results highlight the potential of uncertainty-aware self-supervision for advancing 3D HPE in real-world UAV applications.

La stima della posa umana 3D (3D HPE) mira a ricostruire la configurazione tridimensionale del corpo umano a partire da dati visivi e ha compiuto progressi significativi negli ultimi anni grazie al deep learning e alla disponibilità di dataset su larga scala. In ambito sportivo, una ricostruzione della posa 3D può supportare l'analisi delle prestazioni, la prevenzione degli infortuni e la valutazione tattica. Tuttavia, gli attuali metodi allo stato dell'arte sono progettati principalmente per ambienti controllati o telecamere poste ad altezza uomo, e non risultano ottimizzati per le riprese aeree. Le piattaforme basate su droni offrono una soluzione flessibile e scalabile per scenari sportivi all'aperto, dove l'area monitorata può essere molto vasta e l'installazione di sistemi multicamera fissi e calibrati risulta spesso logisticamente o economicamente proibitiva. Gli aeromobili a pilotaggio remoto (UAV) possono regolare dinamicamente il punto di vista, l'altezza e la copertura, consentendo l'acquisizione di dati in ambienti complessi. Ciononostante, i filmati aerei introducono ulteriori sfide, tra cui la variabilità del punto di vista, il motion blur, i cambiamenti di scala e le frequenti occlusioni. In questa tesi, si propone Brancher, un framework di deep learning basato su una backbone allo stato dell'arte per la 3D HPE monoculare di un singolo oggetto da video sportivi aerei. Questo lavoro è tra i primi ad affrontare esplicitamente la ricostruzione della posa umana 3D da riprese monoculari di droni attraverso un approccio basato sul deep learning. Il modello adotta una strategia di addestramento auto-supervisionata ed estende la regressione 3D standard modellando congiuntamente la dinamica spazio-temporale delle articolazioni, le rotazioni degli arti e l'incertezza della predizione. Tenendo esplicitamente conto dell'allineamento rotazionale e dell'incertezza eteroschedastica, Brancher migliora la robustezza rispetto a pseudo-label rumorose e alla visibilità limitata, consentendo una ricostruzione del movimento 3D stabile e temporalmente coerente da riprese aeree complesse. Questi risultati evidenziano il potenziale dell'auto-supervisione consapevole dell'incertezza per l'avanzamento della 3D HPE in applicazioni reali con sistemi UAV.