The work presented has the purpose to build a spelling correction model able to manage whole sentences at a time. The initial need to create a specific corrector for dyslexics has led to develop a generic tool that could handle a wider range of errors. The model is focused on Italian language to help people write correctly. Different models and systems has been developed for this task but the new technologies, in particular neural networks, opened new scenarios and possibilities in this field. The initial studies were oriented to find a model able to deal with spelling correction and it could reach good results. The selection of the methods and technologies capable for our project proposed to choose a machine learning approach, specifically an architecture that has been largely developed, called RNN. An advanced model that uses this network, called sequence-to-sequence, allows to translate sentences from a language to another one. Our approach wants to mimic that situation using as the source language, the one containing errors. Moreover, the advantage of this solution is that it doesn't need a priori information about errors and it can be generalized or easily reused for possible future implementations. One of the main issue was the availability of the dataset containing errors. The solution was to built an artificial one, inserting errors from all the cases we collected before. At the end of this process, we obtained a parallel dataset, one with correct sentences and one with its version with writing mistakes. The proposed architecture was tested in several ways and with slightly modification, and it leads to encouraging results.

Il lavoro presentato ha lo scopo di creare un correttore di testo capace di gestire una frase alla volta. La necessità iniziale di progettare uno strumento specifico per persone con dislessia ha portato allo svilluppo di un correttore generico che potesse considerare una più ampia gamma di errori. Il modello è pensato per la lingua italiana per aiutare le persone a scrivere correttamente. Diversi modelli e sistemi sono stati sviluppati per questo scopo ma nuove tecnologie, in particolare le reti neurali, hanno aperto nuovi scenari e possibilità in questo campo. Gli studi iniziali erano orientati a trovare un modello adatto per la correzione di testo e che potesse ottenere buoni risultati. La selezione di metodi e tecnologie per il nostro progetto ha portato ad una architettura molto sviluppata nell'ambito del machine learning, chiamata RNN. Un modello avanzato che utilizza questa rete, chiamato sequence-to-sequence, permette di tradurre da un lingua ad un'altra. Il nostro approccio vuole seguire quella situazione, utilizzando come lingua sorgente quella contente errori. Il vantaggio di questo tipo di soluzione è la mancanza di necessità di informazioni riguardanti gli errori e può essere generalizzato o facilmente riutilizzato in possibili future implementazioni. Una delle problemi chiave da gestire è stata la disponibilià di documenti contenenti errori. La soluzione è stata quella di costruire dei testi artificiali inserendo gli opportuni errori che prima abbiamo catalogato. Alla fine di questo processo, abbiamo ottenuto una coppia di testi paralleli, una con frasi scritte correttamente e un altro con le stesse frasi contenenti degli errori. L'architettura proposta è stata testata in diversi modi e con diverse modifiche, e ha portato a risultati incoraggianti.

IESO : intelligent emendation of spelling oversights

PAGLIARI, MATTEO
2017/2018

Abstract

The work presented has the purpose to build a spelling correction model able to manage whole sentences at a time. The initial need to create a specific corrector for dyslexics has led to develop a generic tool that could handle a wider range of errors. The model is focused on Italian language to help people write correctly. Different models and systems has been developed for this task but the new technologies, in particular neural networks, opened new scenarios and possibilities in this field. The initial studies were oriented to find a model able to deal with spelling correction and it could reach good results. The selection of the methods and technologies capable for our project proposed to choose a machine learning approach, specifically an architecture that has been largely developed, called RNN. An advanced model that uses this network, called sequence-to-sequence, allows to translate sentences from a language to another one. Our approach wants to mimic that situation using as the source language, the one containing errors. Moreover, the advantage of this solution is that it doesn't need a priori information about errors and it can be generalized or easily reused for possible future implementations. One of the main issue was the availability of the dataset containing errors. The solution was to built an artificial one, inserting errors from all the cases we collected before. At the end of this process, we obtained a parallel dataset, one with correct sentences and one with its version with writing mistakes. The proposed architecture was tested in several ways and with slightly modification, and it leads to encouraging results.
TEDESCO, ROBERTO
ING - Scuola di Ingegneria Industriale e dell'Informazione
25-lug-2018
2017/2018
Il lavoro presentato ha lo scopo di creare un correttore di testo capace di gestire una frase alla volta. La necessità iniziale di progettare uno strumento specifico per persone con dislessia ha portato allo svilluppo di un correttore generico che potesse considerare una più ampia gamma di errori. Il modello è pensato per la lingua italiana per aiutare le persone a scrivere correttamente. Diversi modelli e sistemi sono stati sviluppati per questo scopo ma nuove tecnologie, in particolare le reti neurali, hanno aperto nuovi scenari e possibilità in questo campo. Gli studi iniziali erano orientati a trovare un modello adatto per la correzione di testo e che potesse ottenere buoni risultati. La selezione di metodi e tecnologie per il nostro progetto ha portato ad una architettura molto sviluppata nell'ambito del machine learning, chiamata RNN. Un modello avanzato che utilizza questa rete, chiamato sequence-to-sequence, permette di tradurre da un lingua ad un'altra. Il nostro approccio vuole seguire quella situazione, utilizzando come lingua sorgente quella contente errori. Il vantaggio di questo tipo di soluzione è la mancanza di necessità di informazioni riguardanti gli errori e può essere generalizzato o facilmente riutilizzato in possibili future implementazioni. Una delle problemi chiave da gestire è stata la disponibilià di documenti contenenti errori. La soluzione è stata quella di costruire dei testi artificiali inserendo gli opportuni errori che prima abbiamo catalogato. Alla fine di questo processo, abbiamo ottenuto una coppia di testi paralleli, una con frasi scritte correttamente e un altro con le stesse frasi contenenti degli errori. L'architettura proposta è stata testata in diversi modi e con diverse modifiche, e ha portato a risultati incoraggianti.
Tesi di laurea Magistrale
File allegati
File Dimensione Formato  
Tesi_MatteoPagliari.pdf

accessibile in internet solo dagli utenti autorizzati

Descrizione: Tesi
Dimensione 2.89 MB
Formato Adobe PDF
2.89 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/141795