Although computers and mobile phones might be controlled with voice commands, the process still feels unnatural to some people since the response is artificial and the interaction is not social enough. This field of computer science still has a lot of ground to cover and to do so, usable speech data is crucial. This is done via the use of large amounts of speech data and their relative transcription. But just these two types of data fail to provide a foundation since computers do not have the necessary logical link that connect them, so they do not posses the capability to know if a speech signal corresponds to a given text or vice versa. This is where phonetic alignment comes into play. Correctly aligned speech signal and it’s transcription provide the building block for constructing new speech technology. This is done either by hand, which requires substantial amounts of working hours, expertise and concentration or by an automated processes which process data at very high speed but often fail to provide the required precision and accuracy needed. As a solution, semi- automatic procedures have been developed. They need much less time than manual alignment yet produce results on par with it. This thesis addresses the research of these technologies, through the studies in literature and present a newly developed semi- automatic alignment technique for the Italian language. Our technique offers reducing the time spent for the data preparation phase. Our estimation algorithm correctly guesses the utterance boundaries by an average mistake of ± 2.75 phonemes which at worst case correspond to ± 2 words, often giving the exact match. The final alignment output results also comply within the 20 ms threshold by 85%.

Sommario Nonostante i computer ed i telefoni portatili possono essere controllato con comandi vocali, il processo è ancora percepito innaturale per qualche persone perché la risposta è artificiale e l’interazione non è abbastanza sociale. Questo campo di ingegneria informatica ha ancora molti passi in avanti e per fare, avere dei dati vocali utili è cruciale. Questo e fatto utilizzando dei dati vocali di grande quantità ed i loro trascrizioni relativi. Però solo questi due tipi di data non riescono a fornire una fondazione a questi sistemi perché il computer non ha la connessione logica necessaria per legargli. Quindi il computer non è in grado di sapere se un segnale vocale corrisponde ad un testo o viceversa. In questo punto, allineamento fonetico viene usato. Dati di segnali vocali ed il loro trascrizioni allineati forniscono i mattoni per costruire nuove tecnologie vocale. Questo è fatto sia a mano, che chiede sostanziosi orari di lavoro, competenza e concentrazione. sia con processi automatizzati che procedono i dati ad alta velocità ma spesso falliscono a fornire la precisione ed accuratezza necessaria. Come una soluzione, procedure semi-automatiche sono sviluppati. Per quanto riguarda il tempo, chiedono una frazione di trascrizione manuale e sono capace di produrre risultati allo stesso livello. Questo tesi affronta la ricerca delle queste tecnologie, tramite gli studi di letteratura e presente una nuova tecnica di allineamento semi-automatica sviluppata per la lingua Italiana. La nostra tecnica offre ridurre il tempo per la fase di preparazioni dei dati. Il nostro algoritmo di stima indovina i confini degli espressioni con un errore media di ± 2.75 fonemi che, nel caso peggiore corrisponde a ± 2 parole, spesso indovinando la parola esatta. Risultati per l’allineamento finale soddisfano con una soglia di 20 ms con 85%.

A method for improving the efficiency of semi-automatic phonetic alignment of the Italian language

ULUCAY, CAN
2013/2014

Abstract

Although computers and mobile phones might be controlled with voice commands, the process still feels unnatural to some people since the response is artificial and the interaction is not social enough. This field of computer science still has a lot of ground to cover and to do so, usable speech data is crucial. This is done via the use of large amounts of speech data and their relative transcription. But just these two types of data fail to provide a foundation since computers do not have the necessary logical link that connect them, so they do not posses the capability to know if a speech signal corresponds to a given text or vice versa. This is where phonetic alignment comes into play. Correctly aligned speech signal and it’s transcription provide the building block for constructing new speech technology. This is done either by hand, which requires substantial amounts of working hours, expertise and concentration or by an automated processes which process data at very high speed but often fail to provide the required precision and accuracy needed. As a solution, semi- automatic procedures have been developed. They need much less time than manual alignment yet produce results on par with it. This thesis addresses the research of these technologies, through the studies in literature and present a newly developed semi- automatic alignment technique for the Italian language. Our technique offers reducing the time spent for the data preparation phase. Our estimation algorithm correctly guesses the utterance boundaries by an average mistake of ± 2.75 phonemes which at worst case correspond to ± 2 words, often giving the exact match. The final alignment output results also comply within the 20 ms threshold by 85%.
TEDESCO, ROBERTO
ING - Scuola di Ingegneria Industriale e dell'Informazione
28-apr-2014
2013/2014
Sommario Nonostante i computer ed i telefoni portatili possono essere controllato con comandi vocali, il processo è ancora percepito innaturale per qualche persone perché la risposta è artificiale e l’interazione non è abbastanza sociale. Questo campo di ingegneria informatica ha ancora molti passi in avanti e per fare, avere dei dati vocali utili è cruciale. Questo e fatto utilizzando dei dati vocali di grande quantità ed i loro trascrizioni relativi. Però solo questi due tipi di data non riescono a fornire una fondazione a questi sistemi perché il computer non ha la connessione logica necessaria per legargli. Quindi il computer non è in grado di sapere se un segnale vocale corrisponde ad un testo o viceversa. In questo punto, allineamento fonetico viene usato. Dati di segnali vocali ed il loro trascrizioni allineati forniscono i mattoni per costruire nuove tecnologie vocale. Questo è fatto sia a mano, che chiede sostanziosi orari di lavoro, competenza e concentrazione. sia con processi automatizzati che procedono i dati ad alta velocità ma spesso falliscono a fornire la precisione ed accuratezza necessaria. Come una soluzione, procedure semi-automatiche sono sviluppati. Per quanto riguarda il tempo, chiedono una frazione di trascrizione manuale e sono capace di produrre risultati allo stesso livello. Questo tesi affronta la ricerca delle queste tecnologie, tramite gli studi di letteratura e presente una nuova tecnica di allineamento semi-automatica sviluppata per la lingua Italiana. La nostra tecnica offre ridurre il tempo per la fase di preparazioni dei dati. Il nostro algoritmo di stima indovina i confini degli espressioni con un errore media di ± 2.75 fonemi che, nel caso peggiore corrisponde a ± 2 parole, spesso indovinando la parola esatta. Risultati per l’allineamento finale soddisfano con una soglia di 20 ms con 85%.
Tesi di laurea Magistrale
File allegati
File Dimensione Formato  
2014_04_ULUCAY.pdf

accessibile in internet solo dagli utenti autorizzati

Descrizione: Thesis Text
Dimensione 3.18 MB
Formato Adobe PDF
3.18 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/89883