BASILISCo : an advanced methodology for text complexity calculation

This thesis introduces a novel strategy targeted at tackling the problem of reading complexity by presenting an approach based on the analysis of Lexicon and Semantic. Contrary to the state of the art methods, that proposes a general classification of the reading complexity, this approach generates its strength by the independent analysis of the two mentioned domains. Thanks to this approach, it is possible to provide to a content creator, interested in evaluating the complexity of his work, a more specific analysis of the document by clearly distinguishing the complexity of different areas. This will prove out to be of great benefit for the author, since he will be able to properly adjust the complexity of his work, according to the results provided by the software. The peculiarity of this approach and the intrinsic innovation introduced is correlated with the modality used to compute the two mentioned complexity. Lexical Complexity has been implemented using a technique borrowed by a similar task of Natural Language Processing: content selection. The two activities present similar needs, within the content selection task, we need to recognize the concept that best distinguishes a document, meanwhile, in the assessment of lexical complexity, we want to identify which words better discriminate specific levels of complexity. Syntactic Complexity, instead, has been implemented using a deep learning-based approach. In this case, the difficulty of the task mandated such a choice. While it can be “simple” to associate a word to a specific level of complexity, it is not so easy with grammatical features, unless specific linguistic researches are applied. Given these premises, the choice of using a system that can automatically infer the set of features that characterize each level of complexity is almost mandatory. The system has been implemented for English, however, it can be easily adapted to other languages, by simply changing the cores corpora. The entire process is, in fact, language independent and can be easily transposed to any other language, for which feasible corpora do exist. This implies that the approach can also be applied in the context of a Second Language Learning (L2 Learning).

Questa tesi presenta una nuova strategia mirata ad affrontare il problema della complessità di lettura, presentando un approccio basato sull'analisi del Lessico e della Semantica. Contrariamente ai metodi comuni oggigiorno, che propongono una classificazione generale della complessità di lettura, quest'approccio genera la sua forza dall'analisi indipendente dei due domini menzionati in precedenza. Grazie a quest'approccio, è possibile fornire al creatore di contenuti, interessato nel valutare la complessità del suo lavoro, un'analisi più specifica dell'opera distinguendo chiaramente tra le varie tipologie di complessità. Questo si rivelerà essere un grande beneficio per l'autore, il quale sarà in grado di sistemare la complessità del suo lavoro conformemente al risultato fornito dall'applicativo. La peculiarità di questo approccio, e di conseguenza la sua innovatività, è associata alla modalità in cui le due complessità sono calcolate. La Complessità Lessicale è stata implementata usando una tecnica presa in prestito da un compito simile tipico dell'Elaborazione del Linguaggio Naturale (ELN o NLP in inglese): selezione del contenuto. Le due attività presentano dei bisogni simili; nel caso sella selezione di contenuto, vogliamo riconoscere il concetto che meglio distingue un certo documento, mentre, nell'individuazione della complessità lessicale, l'obiettivo è individuare quali parole meglio rappresentano un certo livello di complessità. La Complessità Sintattica, invece, è stata implementata usando un approccio basato sull'Apprendimento Profondo (o Deep Learning in inglese). La difficoltà del compito ha reso questa scelta quasi obbligatoria. Infatti, mentre può essere “semplice” assegnare una parola ad un certo livello di complessità, non è così semplice con le caratteristiche grammaticali, a meno che non vengano eseguite delle ricerche linguistiche mirate. Data questa premessa, la scelta di usare un sistema in grado di inferire automaticamente l'insieme di elementi che caratterizzano ogni livello di complessità, è quasi obbligatoria. La procedura è stata implementata per la lingua inglese, tuttavia, può essere facilmente adottata anche ad altri linguaggi, semplicemente cambiando il dataset usato. L'intero processo è infatti indipendente dal linguaggio e può essere facilmente trasposto ad ogni altro linguaggio per cui sono disponibili dei corpora. Questo implica che l'approccio può essere usato anche in un contesto di apprendimento di una seconda lingua (L2 Learning).