This paper presents a novel text-to-speech (TTS) method designed to perform adversarial attacks against target speech deepfake detection systems. Given a speech synthesizer and a detector capable of identifying its generated tracks, our approach involves fine-tuning the synthesis process to deceive the detector and compromise the reliability of its predictions. We achieve this by integrating the detector into the loss function evaluated during the training of the TTS system's vocoder. Our method combines an advanced mel-spectrogram generator with a state-of-the-art neural vocoder. We incorporate multi-speaker synthesis capabilities and employ discriminative techniques to enhance the quality and fidelity of the generated speech. This integration allows us to generate synthetic speech that is both adversarially robust and highly realistic, enhancing its effectiveness in anti-forensics scenarios. A key feature of our approach is that the signals generated by the proposed method intrinsically contain an adversarial attack. This eliminates the need for any post-processing and enables real-time attacks against target detectors, a significant advantage in practical applications. We evaluate the proposed system in both white-box and black-box scenarios, demonstrating its versatility and effectiveness. Furthermore, we show how to target multiple detectors simultaneously, highlighting the method's adaptability to diverse detection strategies. Experimental results validate the effectiveness of our approach in several key areas. Firstly, we observe a substantial degradation in the performance of targeted detectors, with significant increases in equal error rates and decreases in detection accuracy. Notably, this performance degradation extends to untargeted detectors, demonstrating the transferability of our adversarial attacks. Despite its adversarial nature, our method maintains high perceptual quality and naturalness of the generated speech. Objective metrics and subjective listening tests confirm that the synthetic speech produced by our system is virtually indistinguishable from natural speech in terms of quality and intelligibility. This work contributes to the ongoing development of both synthetic speech generation and detection fields. It highlights vulnerabilities in current detection methods and provides a framework for assessing speech detector security in real-world scenarios.

Questo articolo presenta un nuovo metodo di sintesi vocale (text-to-speech, TTS) progettato per eseguire attacchi avversari contro i sistemi di rilevamento delle deepfake vocali. Date una sintetizzatore vocale e un rilevatore in grado di identificare i suoi brani generati, il nostro approccio prevede l'affinamento del processo di sintesi per ingannare il rilevatore e compromettere l'affidabilità delle sue previsioni. Ci riusciamo integrando il rilevatore nella funzione di perdita valutata durante l'addestramento del vocoder del sistema TTS. Il nostro metodo combina un avanzato generatore di mel-spettrogrammi con un vocoder neurale all'avanguardia. Incorporiamo le capacità di sintesi multilingue e utilizziamo tecniche discriminative per migliorare la qualità e la fedeltà del discorso generato. Questa integrazione ci permette di generare discorso sintetico che è sia avversarialmente robusto che altamente realistico, aumentandone l'efficacia negli scenari anti-forensi. Una caratteristica chiave del nostro approccio è che i segnali generati dal metodo proposto intrinsecamente contengono un attacco avverso. Questo elimina la necessità di qualsiasi post-elaborazione e consente attacchi in tempo reale contro i rilevatori target, un vantaggio significativo nelle applicazioni pratiche. Valutiamo il sistema proposto sia in scenari a libro bianco che a libro nero, dimostrando la sua versatilità ed efficacia. Inoltre, mostriamo come prendere di mira più rilevatori simultaneamente, evidenziando l'adattabilità del metodo a diverse strategie di rilevamento. I risultati sperimentali confermano l'efficacia del nostro approccio in diverse aree chiave. In primo luogo, osserviamo un sostanziale degrado delle prestazioni dei rilevatori target, con aumenti significativi dei tassi di errore pari e diminuzioni dell'accuratezza di rilevamento. Notevolmente, questo degrado delle prestazioni si estende ai rilevatori non target, dimostrando la trasferibilità dei nostri attacchi avversi. Nonostante la sua natura avversaria, il nostro metodo mantiene un'alta qualità percettiva e naturalezza del discorso generato. Metriche oggettive e test di ascolto soggettivi confermano che il discorso sintetico prodotto dal nostro sistema è praticamente indistinguibile dal discorso naturale in termini di qualità e intelligibilità. Questo lavoro contribuisce allo sviluppo continuo sia della generazione di discorso sintetico che dei campi di rilevamento. Evidenzia le vulnerabilità nei metodi di rilevamento attuali e fornisce un quadro per valutare la sicurezza dei rilevatori vocali negli scenari del mondo reale.

Enhanced text-to-speech synthesis for adversarial attacks

Cui, Jiayan
2023/2024

Abstract

This paper presents a novel text-to-speech (TTS) method designed to perform adversarial attacks against target speech deepfake detection systems. Given a speech synthesizer and a detector capable of identifying its generated tracks, our approach involves fine-tuning the synthesis process to deceive the detector and compromise the reliability of its predictions. We achieve this by integrating the detector into the loss function evaluated during the training of the TTS system's vocoder. Our method combines an advanced mel-spectrogram generator with a state-of-the-art neural vocoder. We incorporate multi-speaker synthesis capabilities and employ discriminative techniques to enhance the quality and fidelity of the generated speech. This integration allows us to generate synthetic speech that is both adversarially robust and highly realistic, enhancing its effectiveness in anti-forensics scenarios. A key feature of our approach is that the signals generated by the proposed method intrinsically contain an adversarial attack. This eliminates the need for any post-processing and enables real-time attacks against target detectors, a significant advantage in practical applications. We evaluate the proposed system in both white-box and black-box scenarios, demonstrating its versatility and effectiveness. Furthermore, we show how to target multiple detectors simultaneously, highlighting the method's adaptability to diverse detection strategies. Experimental results validate the effectiveness of our approach in several key areas. Firstly, we observe a substantial degradation in the performance of targeted detectors, with significant increases in equal error rates and decreases in detection accuracy. Notably, this performance degradation extends to untargeted detectors, demonstrating the transferability of our adversarial attacks. Despite its adversarial nature, our method maintains high perceptual quality and naturalness of the generated speech. Objective metrics and subjective listening tests confirm that the synthetic speech produced by our system is virtually indistinguishable from natural speech in terms of quality and intelligibility. This work contributes to the ongoing development of both synthetic speech generation and detection fields. It highlights vulnerabilities in current detection methods and provides a framework for assessing speech detector security in real-world scenarios.
SALVI, DAVIDE
ING - Scuola di Ingegneria Industriale e dell'Informazione
17-lug-2024
2023/2024
Questo articolo presenta un nuovo metodo di sintesi vocale (text-to-speech, TTS) progettato per eseguire attacchi avversari contro i sistemi di rilevamento delle deepfake vocali. Date una sintetizzatore vocale e un rilevatore in grado di identificare i suoi brani generati, il nostro approccio prevede l'affinamento del processo di sintesi per ingannare il rilevatore e compromettere l'affidabilità delle sue previsioni. Ci riusciamo integrando il rilevatore nella funzione di perdita valutata durante l'addestramento del vocoder del sistema TTS. Il nostro metodo combina un avanzato generatore di mel-spettrogrammi con un vocoder neurale all'avanguardia. Incorporiamo le capacità di sintesi multilingue e utilizziamo tecniche discriminative per migliorare la qualità e la fedeltà del discorso generato. Questa integrazione ci permette di generare discorso sintetico che è sia avversarialmente robusto che altamente realistico, aumentandone l'efficacia negli scenari anti-forensi. Una caratteristica chiave del nostro approccio è che i segnali generati dal metodo proposto intrinsecamente contengono un attacco avverso. Questo elimina la necessità di qualsiasi post-elaborazione e consente attacchi in tempo reale contro i rilevatori target, un vantaggio significativo nelle applicazioni pratiche. Valutiamo il sistema proposto sia in scenari a libro bianco che a libro nero, dimostrando la sua versatilità ed efficacia. Inoltre, mostriamo come prendere di mira più rilevatori simultaneamente, evidenziando l'adattabilità del metodo a diverse strategie di rilevamento. I risultati sperimentali confermano l'efficacia del nostro approccio in diverse aree chiave. In primo luogo, osserviamo un sostanziale degrado delle prestazioni dei rilevatori target, con aumenti significativi dei tassi di errore pari e diminuzioni dell'accuratezza di rilevamento. Notevolmente, questo degrado delle prestazioni si estende ai rilevatori non target, dimostrando la trasferibilità dei nostri attacchi avversi. Nonostante la sua natura avversaria, il nostro metodo mantiene un'alta qualità percettiva e naturalezza del discorso generato. Metriche oggettive e test di ascolto soggettivi confermano che il discorso sintetico prodotto dal nostro sistema è praticamente indistinguibile dal discorso naturale in termini di qualità e intelligibilità. Questo lavoro contribuisce allo sviluppo continuo sia della generazione di discorso sintetico che dei campi di rilevamento. Evidenzia le vulnerabilità nei metodi di rilevamento attuali e fornisce un quadro per valutare la sicurezza dei rilevatori vocali negli scenari del mondo reale.
File allegati
File Dimensione Formato  
2024_07_Cui_Summary_02.pdf

accessibile in internet solo dagli utenti autorizzati

Descrizione: Summary
Dimensione 723.7 kB
Formato Adobe PDF
723.7 kB Adobe PDF   Visualizza/Apri
2024_07_Cui_Thesis_01.pdf

accessibile in internet solo dagli utenti autorizzati

Descrizione: Thesis
Dimensione 1.78 MB
Formato Adobe PDF
1.78 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/223309