Metadata Extraction and Digital News Preservation

The Internet provides people with a huge amount of information that grows faster, but this rapid information production creates challenges for the access and preservation of digital news content. This information growth generates a situation where a lot of digital news became lost or unavailable. Metadata extraction is a technique that can help to address these challenges by extracting relevant information from digital news articles, such as title, author, date, keywords, summary, images, etc. Metadata extraction can also facilitate the generation of preservation metadata that can ensure the continued accessibility and usability of digital news content over time. Preservation metadata can include information about the content, format, rights, and technical characteristics of digital objects, and help to ensure their long-term management and interoperability. The main objective of this research is to investigate the current state-of-the-art in metadata extraction and explore techniques that can be useful in the context of information preservation proposing a novel approach for metadata extraction from digital news articles, using a combination of the analysed techniques. The proposed approach involves the development of a system capable of extracting metadata from articles published on news websites and cataloguing them, ensuring their continued accessibility and long-term usability.

Internet fornisce alle persone una grande quantità di informazioni che crescono sempre più velocemente, ma questa rapida produzione di informazioni crea sfide per l’accesso e la conservazione dei contenuti delle informazioni in formato digitale. Questa crescita genera una situazione di caos in cui molte notizie digitali vengono perse o diventano indisponibili. L’estrazione dei metadati è una tecnica che può aiutare a risolvere queste sfide estraendo informazioni rilevanti dagli articoli in formato digitale, come titolo, autore, data, parole chiave, riassunto, immagini, ecc. L’estrazione dei metadati può anche facilitare la generazione di metadati di conservazione, che possono garantire l’accessibilità e l’utilizzabilità continue dei contenuti delle notizie digitali nel tempo. I metadati di conservazione possono includere informazioni sul contenuto, formato, diritti e caratteristiche tecniche degli oggetti digitali, e aiutano a garantire la loro gestione a lungo termine e l’interoperabilità. L’obiettivo principale di questa ricerca è investigare lo stato attuale dell’arte nell’estrazione dei metadati ed esplorare tecniche che possono essere utili nel contesto della conservazione delle informazioni proponendo un nuovo approccio per l’estrazione dei metadati dagli articoli di notizie digitali, utilizzando una combinazione delle tecniche analizzate. L’approccio proposto prevede lo sviluppo di un sistema in grado di estrarre i metadati dagli articoli pubblicati sui siti di notizie e di catalogarli, garantendo la loro accessibilità continua e l’utilizzabilità a lungo termine.