From speech to subtitles: evaluating ASR models and developing a production platform for italian media company

The integration of subtitles in video content is today an essential ele ment for enhancing accessibility and audience engagement, extending beyond indi viduals with hearing impairments. Modern Automatic Speech Recognition (ASR) systems, based on Encoder-Decoder neural network architectures and trained on vast datasets, have progressively reduced transcription errors on standard bench mark datasets. However, their performance in real-world production scenarios, particularly for the subtitling of long-form Italian-language videos, remains largely unexplored. This research aims to evaluate four state-of-the-art ASR models, Whisper Large v2, AssemblyAI Universal, Parakeet TDT v3 0.6b, and WhisperX, using a 50-hour dataset comprising 30 subtitled Italian television episodes produced. The study highlights both the strengths and limitations of these models, benchmarking their performance against professional human subtitlers. The findings indicate that these models are not yet ready for fully autonomous use at the accuracy level required in the Media Industry, but they can serve as highly effective tools to boost human productivity, with human-in-the-loop setups remaining crucial for achieving the best results.The benchmarking is instrumental to the development of an internal Platform for RCS MediaGroup S.p.A., designed to process video content efficiently. This platform integrates the ASR system within a broader technological and cloud based infrastructure while enabling manual user intervention at each stage of the pipeline, thereby ensuring the highest quality of the final subtitled product.

L’inclusione dei sottotitoli nei video rappresenta oggi un elemento imprescindibile per favorire l’accessibilità e la fruizione dei contenuti, non solo per persone con problematiche uditive. I moderni sistemi di riconoscimento automatico del parlato, basati su reti neurali di tipo Encoder-Decoder e addestrati su enormi quantità di dati, stanno progressivamente riducendo gli errori di trascrizione su dataset standard di benchmark. Tuttavia, le prestazioni di tali sistemi in un contesto produttivo reale, relativo alla sottotitolazione di video lunghi in lingua italiana, rimangono poco esplorate. L’obiettivo di questa ricerca è stato valutare quattro modelli di riconoscimento vocale, Whisper Large v2, AssemblyAI Universal, Parakeet TDT v3 0.6b e WhisperX, su un dataset di 30 puntate televisive sottotitolate, per un totale di circa 50 ore di audio. Lo studio ha evidenziato punti di forza e limiti di ciascun modello, confrontandoli con il lavoro di professionisti reali. I risultati mostrano come nessuno dei quattro sistemi sia attualmente in grado di automatizzare completamente il processo di produzione dei sottotitoli indipendentemente dal tipo di programma, pur rappresentando strumenti altamente efficaci per incrementare la produttività e aiutare i sottotitolatori. Infine, l’ultima parte della tesi descrive lo sviluppo di una piattaforma interna per RCS MediaGroup S.p.A., finalizzata al processamento dei video. La soluzione integra il sistema di speech recognition in un contesto più ampio, combinando sviluppo tecnologico e infrastrutturale in cloud con la possibilità, per l’utente, di intervenire manualmente in ogni fase della pipeline, garantendo così la qualità ottimale del prodotto finale.