The realm of Human Pose Estimation (HPE) has witnessed significant evolution both in its applications and methodologies over the years. Notably, the utilization of such technology has expanded into artistic and performative domains. This thesis concentrates on exploring a novel approach for real-time multi-person AI human pose estimation in performative environments, notably ones marked by challenging lighting conditions that pose difficulties for Computer Vision tasks. Collaborating closely with Fuse*, a multidisciplinary artistic studio, this research project aligns with their performative showcases intertwining live dance performances with the real-time creation of immersive virtual spaces. The primary aim of this work revolves around attaining real-time, wearable-sensor-free 3D human pose estimation presented as keypoints, regardless of lighting circumstances. To achieve this, we harnessed Infrared (IR) cameras and IR lights to illuminate the scene in a multifaceted view configuration. Central to this initiative is a fully adaptable modular design capable of seamlessly accommodating diverse scenarios and venues. The system architecture comprises independent 2D estimators operating for each camera view, subsequently transmitting their data via OSC (Open Sound Control), followed by the elevation of this information into 3D coordinates through a triangulation process executed on a separate computing unit. The data extracted concerning the keypoints is subsequently transmitted to TouchDesigner for visualization and further processing. This system achieved the capability to predict 3D human poses irrespective of lighting intricacies and diverse environmental scenarios. The system's responsiveness stands commendable, enabling real-time functionality, particularly in less densely populated scenes. However, this proficiency is accompanied by a compromise in precision, lacking robustness due to the deliberate omission of a methodology that could otherwise confer consistency to our estimates.

Il campo della Stima della Posa Umana (HPE) ha visto un'importante evoluzione sia nelle sue applicazioni che nelle metodologie nel corso degli anni. In particolare, l'utilizzo di tale tecnologia si è esteso anche nei domini artistici e performativi. Questa tesi si concentra sull'esplorazione di un nuovo approccio per la stima in tempo reale della postura umana multi-persona tramite intelligenza artificiale in ambienti performativi, specialmente quelli contraddistinti da condizioni di illuminazione impegnative che creano difficoltà per i task di Computer Vision. Collaborando strettamente con Fuse*, uno studio artistico multidisciplinare, questo progetto di ricerca si allinea alle loro esposizioni performative che intrecciano esibizioni di danza dal vivo con la creazione in tempo reale di spazi virtuali immersivi. L'obiettivo principale di questo lavoro ruota attorno all'ottenimento in tempo reale della posa umana 3D senza l'uso di sensori indossabili, presentata come insieme di punti chiave, indipendentemente dalle condizioni di illuminazione. Per raggiungere questo obiettivo, abbiamo sfruttato telecamere ad infrarossi (IR) e luci IR per illuminare la scena in una configurazione di più camere. Al centro di questo progetto c'è un design modulare completamente adattabile capace di accogliere senza intoppi scenari e location diverse. L'architettura del sistema comprende estimatori 2D indipendenti operanti per ciascuna visuale della telecamera, che trasmettono successivamente i loro dati tramite OSC (Open Sound Control), per procedere all'elevazione di queste informazioni in coordinate 3D attraverso un processo di triangolazione eseguito su un'unità di calcolo separata. I dati estratti relativi ai punti chiave vengono successivamente trasmessi a TouchDesigner per la visualizzazione e l'elaborazione ulteriore. Questo sistema ha raggiunto la capacità di prevedere le pose umane 3D indipendentemente dalle difficili condizioni dell'illuminazione e da scenari ambientali diversificati. La reattività del sistema è notevole, consentendo funzionalità in tempo reale, specialmente in scene meno popolate. Tuttavia, questa caratteristica è accompagnata da un compromesso nella precisione, mancando di robustezza a causa dell'omissione deliberata di una metodologia che avrebbe altrimenti conferito coerenza alle nostre stime.

A real-time 3D pose estimation approach for low-light performative environments

Molteni, Alessandro
2022/2023

Abstract

The realm of Human Pose Estimation (HPE) has witnessed significant evolution both in its applications and methodologies over the years. Notably, the utilization of such technology has expanded into artistic and performative domains. This thesis concentrates on exploring a novel approach for real-time multi-person AI human pose estimation in performative environments, notably ones marked by challenging lighting conditions that pose difficulties for Computer Vision tasks. Collaborating closely with Fuse*, a multidisciplinary artistic studio, this research project aligns with their performative showcases intertwining live dance performances with the real-time creation of immersive virtual spaces. The primary aim of this work revolves around attaining real-time, wearable-sensor-free 3D human pose estimation presented as keypoints, regardless of lighting circumstances. To achieve this, we harnessed Infrared (IR) cameras and IR lights to illuminate the scene in a multifaceted view configuration. Central to this initiative is a fully adaptable modular design capable of seamlessly accommodating diverse scenarios and venues. The system architecture comprises independent 2D estimators operating for each camera view, subsequently transmitting their data via OSC (Open Sound Control), followed by the elevation of this information into 3D coordinates through a triangulation process executed on a separate computing unit. The data extracted concerning the keypoints is subsequently transmitted to TouchDesigner for visualization and further processing. This system achieved the capability to predict 3D human poses irrespective of lighting intricacies and diverse environmental scenarios. The system's responsiveness stands commendable, enabling real-time functionality, particularly in less densely populated scenes. However, this proficiency is accompanied by a compromise in precision, lacking robustness due to the deliberate omission of a methodology that could otherwise confer consistency to our estimates.
Amerena, Matteo
ING - Scuola di Ingegneria Industriale e dell'Informazione
21-dic-2023
2022/2023
Il campo della Stima della Posa Umana (HPE) ha visto un'importante evoluzione sia nelle sue applicazioni che nelle metodologie nel corso degli anni. In particolare, l'utilizzo di tale tecnologia si è esteso anche nei domini artistici e performativi. Questa tesi si concentra sull'esplorazione di un nuovo approccio per la stima in tempo reale della postura umana multi-persona tramite intelligenza artificiale in ambienti performativi, specialmente quelli contraddistinti da condizioni di illuminazione impegnative che creano difficoltà per i task di Computer Vision. Collaborando strettamente con Fuse*, uno studio artistico multidisciplinare, questo progetto di ricerca si allinea alle loro esposizioni performative che intrecciano esibizioni di danza dal vivo con la creazione in tempo reale di spazi virtuali immersivi. L'obiettivo principale di questo lavoro ruota attorno all'ottenimento in tempo reale della posa umana 3D senza l'uso di sensori indossabili, presentata come insieme di punti chiave, indipendentemente dalle condizioni di illuminazione. Per raggiungere questo obiettivo, abbiamo sfruttato telecamere ad infrarossi (IR) e luci IR per illuminare la scena in una configurazione di più camere. Al centro di questo progetto c'è un design modulare completamente adattabile capace di accogliere senza intoppi scenari e location diverse. L'architettura del sistema comprende estimatori 2D indipendenti operanti per ciascuna visuale della telecamera, che trasmettono successivamente i loro dati tramite OSC (Open Sound Control), per procedere all'elevazione di queste informazioni in coordinate 3D attraverso un processo di triangolazione eseguito su un'unità di calcolo separata. I dati estratti relativi ai punti chiave vengono successivamente trasmessi a TouchDesigner per la visualizzazione e l'elaborazione ulteriore. Questo sistema ha raggiunto la capacità di prevedere le pose umane 3D indipendentemente dalle difficili condizioni dell'illuminazione e da scenari ambientali diversificati. La reattività del sistema è notevole, consentendo funzionalità in tempo reale, specialmente in scene meno popolate. Tuttavia, questa caratteristica è accompagnata da un compromesso nella precisione, mancando di robustezza a causa dell'omissione deliberata di una metodologia che avrebbe altrimenti conferito coerenza alle nostre stime.
File allegati
File Dimensione Formato  
TESI_ALESSANDRO_MOLTENI.pdf

accessibile in internet solo dagli utenti autorizzati

Dimensione 9.06 MB
Formato Adobe PDF
9.06 MB Adobe PDF   Visualizza/Apri
ES_MOLTENI.pdf

accessibile in internet solo dagli utenti autorizzati

Descrizione: Executive Summary
Dimensione 452.01 kB
Formato Adobe PDF
452.01 kB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/215233