Artificial Intelligence has become one of the topics on the agenda of almost everyone. The purpose of this project is to introduce it in a field in which it is still a step behind: the legal practice. To date, applications of Artificial Intelligence in the legal field are already in use, mainly in US, with different purposes: from the analysis of verdicts’ trends to the editing of documents. The situation in Italy is still at an embryonic level. Most Italian lawyers are not interested in applying new technologies to their domain and are not willing to invest in it since they do not recognize the value added and the competitive advantage deriving. My thesis project is a means of understanding the potentialities of Artificial Intelligence applied to the legal field. A study has been made on a corpus of 500+ verdicts in order to understand the level of accuracy in automatically classifying them according to the rules they refer to. To do so, several techniques have been applied, among which the most important are related to the Natural Language Processing techniques that transform input textual data in a machine-readable dataset on which to apply classification models. Specifically, a comparison between the level of accuracy that can be reached by applying three different methodologies for texts representation is made: Bag-of-Words – documents are represented as vectors according to the word frequencies, TFIDF – vectors are weighted according to the importance different words may have, and Word Embedding – words are represented as dense vectors that consider words’ semantic meaning. In the end it is possible to affirm that verdicts can be classified by Machine Learning algorithms. The levels of accuracy reached in the three different approaches do not differ as much as expected probably due to the dimensionality of the dataset and the further applicable improvements. The assumption made is related only to the subset of verdicts considered and should be a starting point for future development of the work that may extend the project to the Italian jurisdiction and build a system capable of assigning laws to whatever description of facts.

L’Intelligenza Artificiale è uno degli argomenti all’ordine del giorno. L’obiettivo di questo elaborato è di introdurla in un ambito in cui è ancora un passo indietro: la pratica legale. Ad oggi, le applicazioni dell’Intelligenza Artificiale in ambito legale sono diffuse in prevalenza negli Stati Uniti, con diverse finalità: dall’analisi di trend alla redazione di documenti. La situazione in Italia è ancora a uno stato embrionale. La maggior parte degli avvocati non sono interessati ad applicare nuove tecnologie e ad investire in esse non riconoscendone il valore aggiunto e il vantaggio competitivo derivanti. La mia tesi mira ad evidenziare le potenzialità offerte dall’Intelligenza Artificiale applicata in ambito legale. Viene fatto uno studio su un campione di 500+ sentenze per capire il livello di accuratezza nella classificazione automatizzata di sentenze basata sulla legislazione correlata. Più tecniche sono state applicate, tra cui le principali sono di elaborazione del linguaggio umano che trasformano dati testuali in un set di dati intellegibile dalla macchina su cui applicare modelli di classificazione. In particolare, viene fatto un confronto nell’accuratezza raggiunta applicando tre diverse metodologie: Bag-of-Words – le sentenze sono rappresentate tramite vettori contenenti le frequenze delle parole, TFIDF – i vettori sono pesati con l’importanza che le diverse parole hanno, e Word Embedding, una tecnica basata sul significato che le parole assumono. In conclusione, è possibile affermare che le sentenze possono essere classificate attraverso algoritmi di Machine Learning. I livelli di accuratezza raggiunti nei tre approcci sono simili tra loro, contrariamente alle aspettative. Ciò è dovuto probabilmente alle dimensioni del campione e ai considerevoli miglioramenti che si possono applicare al modello. Le assunzioni fatte sono relative al campione considerato e dunque costituiscono un punto di partenza per sviluppi futuri del lavoro che possono estendere il progetto all’intero corpo italiano di sentenze e migliorare il modello in modo da creare un sistema in grado di assegnare le leggi in modo accurato a una qualsiasi descrizione dei fatti accaduti.

A data-driven future For legal practice : an artificial intelligence approach for verdicts labeling

GAROZZO, FRANCESCA
2017/2018

Abstract

Artificial Intelligence has become one of the topics on the agenda of almost everyone. The purpose of this project is to introduce it in a field in which it is still a step behind: the legal practice. To date, applications of Artificial Intelligence in the legal field are already in use, mainly in US, with different purposes: from the analysis of verdicts’ trends to the editing of documents. The situation in Italy is still at an embryonic level. Most Italian lawyers are not interested in applying new technologies to their domain and are not willing to invest in it since they do not recognize the value added and the competitive advantage deriving. My thesis project is a means of understanding the potentialities of Artificial Intelligence applied to the legal field. A study has been made on a corpus of 500+ verdicts in order to understand the level of accuracy in automatically classifying them according to the rules they refer to. To do so, several techniques have been applied, among which the most important are related to the Natural Language Processing techniques that transform input textual data in a machine-readable dataset on which to apply classification models. Specifically, a comparison between the level of accuracy that can be reached by applying three different methodologies for texts representation is made: Bag-of-Words – documents are represented as vectors according to the word frequencies, TFIDF – vectors are weighted according to the importance different words may have, and Word Embedding – words are represented as dense vectors that consider words’ semantic meaning. In the end it is possible to affirm that verdicts can be classified by Machine Learning algorithms. The levels of accuracy reached in the three different approaches do not differ as much as expected probably due to the dimensionality of the dataset and the further applicable improvements. The assumption made is related only to the subset of verdicts considered and should be a starting point for future development of the work that may extend the project to the Italian jurisdiction and build a system capable of assigning laws to whatever description of facts.
ING - Scuola di Ingegneria Industriale e dell'Informazione
20-dic-2018
2017/2018
L’Intelligenza Artificiale è uno degli argomenti all’ordine del giorno. L’obiettivo di questo elaborato è di introdurla in un ambito in cui è ancora un passo indietro: la pratica legale. Ad oggi, le applicazioni dell’Intelligenza Artificiale in ambito legale sono diffuse in prevalenza negli Stati Uniti, con diverse finalità: dall’analisi di trend alla redazione di documenti. La situazione in Italia è ancora a uno stato embrionale. La maggior parte degli avvocati non sono interessati ad applicare nuove tecnologie e ad investire in esse non riconoscendone il valore aggiunto e il vantaggio competitivo derivanti. La mia tesi mira ad evidenziare le potenzialità offerte dall’Intelligenza Artificiale applicata in ambito legale. Viene fatto uno studio su un campione di 500+ sentenze per capire il livello di accuratezza nella classificazione automatizzata di sentenze basata sulla legislazione correlata. Più tecniche sono state applicate, tra cui le principali sono di elaborazione del linguaggio umano che trasformano dati testuali in un set di dati intellegibile dalla macchina su cui applicare modelli di classificazione. In particolare, viene fatto un confronto nell’accuratezza raggiunta applicando tre diverse metodologie: Bag-of-Words – le sentenze sono rappresentate tramite vettori contenenti le frequenze delle parole, TFIDF – i vettori sono pesati con l’importanza che le diverse parole hanno, e Word Embedding, una tecnica basata sul significato che le parole assumono. In conclusione, è possibile affermare che le sentenze possono essere classificate attraverso algoritmi di Machine Learning. I livelli di accuratezza raggiunti nei tre approcci sono simili tra loro, contrariamente alle aspettative. Ciò è dovuto probabilmente alle dimensioni del campione e ai considerevoli miglioramenti che si possono applicare al modello. Le assunzioni fatte sono relative al campione considerato e dunque costituiscono un punto di partenza per sviluppi futuri del lavoro che possono estendere il progetto all’intero corpo italiano di sentenze e migliorare il modello in modo da creare un sistema in grado di assegnare le leggi in modo accurato a una qualsiasi descrizione dei fatti accaduti.
Tesi di laurea Magistrale
File allegati
File Dimensione Formato  
2018_12_Garozzo.pdf

non accessibile

Descrizione: Testo della tesi
Dimensione 6.66 MB
Formato Adobe PDF
6.66 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/145038