In the ever renewing community of Artificial Intelligence, the branch of Human Pose Esti- mation aims at extracting from a video or an image the pose of a human being (or multiple ones). Its aim is to detect the main joints and skeletal structure of the individual, to infer the position of the body either in a two or three-dimensional space. This is very useful in applications such as augmented reality (where it is possible to integrate virtual objects in the real world monitoring the movements), human-computer interaction (where gestures can function as input for robots) and even applications such as sports and fitness (the network could be able to detect the posture and signal if the movements are correct or not). In this thesis we discuss about what work has been done up to this day, with a chrono- logical approach to understand how we have come so far. We also consider the datasets and measures, which are quite different from other branches, and that influence the performances just as much as the network itself. Lastly, we select the best network, able to outperform the others both in terms of preci- sion and inference time. We ameliorated it, in order to reach real-time inference speed, while still mantaining the highest possible precision. This has been done using the Onnx runtime, a promising library claiming to be able to speed up all computations of neural networks. We finish by providing our opinion on which network to use depending on the needs.
Nel comunità sempre sempre crescente dell’Intelligenza Artificiale, il ramo della Human Pose Estimation (Stima della posizione umana) ha come obiettivo quello di estrarre da un video o immagine la posizione dell’individuo. Rilevando le articolazioni e la struttura dello scheletro, lo scopo è ricostruire in tempo reale in due o tre dimensioni la posizione del soggetto. Questo è molto utile in diverse applicazioni come la realtà aumentata (dove è possi- bile integrare oggetti virtuali nel mondo reale monitorando i movimenti), l’interazione computer-umano (dove i gesti possono fornire da input ai comandi del robot), o anche applicazioni come il fitness, in cui il network rilevando la postura può segnalare se il movi- mento è quello corretto o meno. In questa tesi abbiamo discusso di tutto ciò che è stato fatto finora, con un approccio cronologico che ci permetterà di capire come ne siamo arrivati fino a qui. Abbiamo parlato anche dei datasets e delle misure usati in questo settore, in quanto dif- feriscono in maniera importante da quelle degli altri settori, e in quanto sono egualmente importanti per l’allenamento delle reti. Infine, abbiamo selezionato la migliore rete neurale disponibile attualmente, che sia capace di superare le altre concorrenti sia in termini di precisione che di velocità. La abbiamo migliorata, aumentandone la velocità di inferenza mantenendo la precisione del modello. Ciò è stato portato a termine usando una promettente libreria, Onnx Runtime, che risulta in grado di migliorare le reti neurali aumentandone la velocità. Abbiamo infine riassunto consigliando il migliore modello in funzione delle necessità di una persona a cui servirebbe usare un modello di Human Pose Estimation.
State of the art analysis and optimization of human pose estimation algorithms
NARDI, VITTORIO
2022/2023
Abstract
In the ever renewing community of Artificial Intelligence, the branch of Human Pose Esti- mation aims at extracting from a video or an image the pose of a human being (or multiple ones). Its aim is to detect the main joints and skeletal structure of the individual, to infer the position of the body either in a two or three-dimensional space. This is very useful in applications such as augmented reality (where it is possible to integrate virtual objects in the real world monitoring the movements), human-computer interaction (where gestures can function as input for robots) and even applications such as sports and fitness (the network could be able to detect the posture and signal if the movements are correct or not). In this thesis we discuss about what work has been done up to this day, with a chrono- logical approach to understand how we have come so far. We also consider the datasets and measures, which are quite different from other branches, and that influence the performances just as much as the network itself. Lastly, we select the best network, able to outperform the others both in terms of preci- sion and inference time. We ameliorated it, in order to reach real-time inference speed, while still mantaining the highest possible precision. This has been done using the Onnx runtime, a promising library claiming to be able to speed up all computations of neural networks. We finish by providing our opinion on which network to use depending on the needs.File | Dimensione | Formato | |
---|---|---|---|
Human_body_pose_estimation-4.pdf
accessibile in internet per tutti
Dimensione
1.96 MB
Formato
Adobe PDF
|
1.96 MB | Adobe PDF | Visualizza/Apri |
I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/10589/210640