Cognitive and keyword-based search engine for legal documents corpus

Efficient search and retrieval of information has become a necessity in bothordinary and commercial activities. With the arrival of powerful storage systemsand cloud technologies, documenting in paper form became outdated and of lowefficiency. Thus, firms converted this activity into a digital one and used digitalrepositories as storage, obtaining greater accessibility and flexibility. In this scenario,Search Engines are types of software that allow, through their functionalities, quickand effective access to stored information.The goal of this thesis is to develop a domain-specific search engine featuringboth keyword-based and cognitive approaches. The aim is overcoming the lackof ’query context’ and ’intent understanding’ and the inadequacy in dealing withequal words that carry diverse meanings. To achieve such goals, Text Retrievalwas conducted on a judicial domain using real judgments from the Italian Court ofCassation, adopted as collection of documents to perform the search on.We divided our study into two main activities: Document Processing and TextRetrieval, both executed within the Search Engine pipeline. The latter has beenbuilt on top of components specifically designed for providing accurate answersto literal and non-literal queries. Phase one saw great effort directed toward TextExtraction from real-world judgments, provided as images of scanned documents.While Phase two focused on the proposal of a search engine pipeline featuringdiverse Deep Learning approaches. Such approaches entailed the embedding oftext into a more furbished representation by encoding both syntactic and semanticword features. Finally, a comparison of the embedding techniques was performedthrough the administration of questionnaires to a random sample of people withthe intent of proving the effectiveness of our approaches in a real use-case scenario.

La ricerca e il recupero di informazioni efficienti sono diventate una necessità sianelle attività quotidiane che in quelle commerciali. Con l’arrivo di sistemi di storageperformanti e tecnologie cloud, la documentazione in formato cartaceo è diventataobsoleta e di bassa efficienza. Pertanto, le aziende hanno trasformato questa attivitàin una digitale e hanno iniziato ad utilizzare archivi digitali, ottenendo maggioreaccessibilità e flessibilità. In questo scenario, i motori di ricerca sono categoriedi software che consentono, attraverso le loro funzionalità, un accesso rapido edefficace alle informazioni memorizzate.L’obiettivo di questa tesi è quello di sviluppare un motore di ricerca che includaapprocci basati su parole chiave e cognitivi. L’obiettivo è quello di superare sia lamancanza di contesto e di espressività delle query sia l’inadeguatezza nel trattareparole morfologicamente uguali ma di diverso significato. Per raggiungere taliobiettivi, il problema introdotto è stato affrontato in campo giudiziario, utilizzandosentenze reali della Corte di cassazione italiana, adottate come raccolta di documentisu cui eseguire la ricerca.Abbiamo diviso il nostro studio in due attività principali: l’elaborazione deidocumenti e la ricerca di testo, entrambi sviluppati nell’ambito del motore diricerca. Quest’ultimo è basato componenti appositamente progettati per fornirerisposte precise a query letterali e non letterali. La prima fase ha visto un grandesforzo diretto verso l’estrazione del testo da documenti giuridici reali, inizialmentesotto forma di immagini di documenti scansionati. Mentre la seconda fase si èconcentrata sulla proposta di una struttura per il motore di ricerca basata su diversiapprocci di Deep Learning. Tali tecniche sono rivolte ad trasformare il testo inuna rappresentazione più completa, in cui fossero codificate sia le caratteristichesintattiche che quelle semantiche delle parole. Infine, è stato eseguito un confrontodelle tecniche di rappresentazione del testo uilizzate attraverso la somministrazionedi questionari a un campione casuale di persone con l’intento di dimostrare l’efficaciadei nostri metodi in uno scenario di utilizzo reale.