Robotic voices: audio synthesis through real-time harmonic content elaboration from speech sound

This work lies at the intersection of robotic sound design and non-anthropomorphic avatar embodiment, with the primary aim of enriching human-robot interactions by extracting and elaborating human speech features to generate non-verbal utterances that effectively convey emotions and intentions. The core methodology involves exploiting the prosodic components inherent in speech to recreate sounds with altered timbres while preserving the original prosody. Real-time techniques for extracting speech features have been developed, including the computation of harmonic spectra on sound input or the application of biquadratic filters for precise extraction of harmonic content. Theoretical underpinnings such as logarithmic perception theory, the intricate physics of human speech production, and robotic sound design principles are thoroughly explored to provide a comprehensive understanding of speech production, perception mechanisms, and the main state-of-the-art techniques for robotic sound design. A systematic design process is used to develop a wide range of timbres using approaches such as sample-based synthesis. This research results in the formulation of a reliable methodology for creating specific robot-tailored timbres by extracting harmonic content from speech and seamlessly transferring its prosody to novel non-human timbres. By integrating current techniques and theoretical insights, this work aims to contribute to the field of robotic sound design and offers a novel perspective on improving human-robot interactions through the nuanced manipulation of speech features and timbres.

Questo progetto si focalizza sull'intersezione tra la progettazione di suoni robotici (robot sound design) e l'impersonificazione di avatar non antropomorfi (non-antropomorphic avatar embodiment), con l'obiettivo principale di migliorare l'interaction tra robot e persona. Il suo scopo è ottenere questo risultato attraverso l'estrazione e l'elaborazione delle caratteristiche del parlato umano al fine di generare espressioni non verbali in grado di trasmettere efficacemente emozioni e intenzioni. La metodologia di base coinvolge l'utilizzo dei componenti prosodici presenti nel linguaggio per ricreare suoni con timbri modificati, mantenendo al contempo intatta la prosodia originale. Nel corso di questo progetto, sono state sviluppate tecniche in tempo reale per estrarre le caratteristiche del linguaggio, come il calcolo degli spettri armonici sull'input sonoro o l'applicazione di filtri biquadratici per l'estrazione precisa del contenuto armonico. Approfondendo la teoria della percezione logaritmica, la complessa fisica della produzione del linguaggio umano e i principi del robot sound design, si fornisce una comprensione completa della produzione del linguaggio, dei meccanismi di percezione e delle tecniche all'avanguardia per la progettazione di suoni robotici. Attraverso un processo di progettazione sistematico, si è lavorato per sviluppare una vasta gamma di timbri utilizzando approcci come la sintesi basata su campioni. Questa ricerca mira a formulare una metodologia affidabile per creare timbri specifici per i robot, estraendo il contenuto armonico dal linguaggio umano e trasferendo in modo fluido la sua prosodia a nuovi timbri non umani. Integrando tecniche e conoscenze teoriche, questa tesi contribuisce all'area del robot sound design, offrendo una prospettiva innovativa per migliorare le interazioni tra umani e robot attraverso la manipolazione delle caratteristiche del linguaggio e delle qualità timbriche.