This thesis maps and quantifies the evolution of finance-related data and research in the Papers with Code repository and tests whether Open Finance regulatory milestones (PSD2 in Europe at 2018 and Brazil’s Open Finance at 2021) are associated with changes in the volume and share of scientific outputs in finance. Official platform datasets were collected, integrated, and cleaned with key standardization, nested-field expansion, and quality controls; missing introduced_date values for datasets were resolved via a priority-ordered, multi-source procedure. The finance subset is selected with a weighted vocabulary that gives precedence to longer n-grams and enforces a minimum threshold with at least one “obvious” term, yielding 212 datasets (1.4%) and 13,064 papers (2.6%). Annual series and panels of counts and shares treat the milestones as temporal anchors in global time series. Pre/post comparisons and segmented regressions indicate statistically significant increases after 2018 (Europe) and 2021 (Brazil); shares also rise, with level jumps and steeper post-milestone slopes. Temporal patterns suggest that shocks in data availability precede and enable downstream research outputs. The contributions comprise a reproducible data-integration and quality-assurance pipeline, a transparent introduction-year imputer, and an auditable thematic classifier, together with quantitative evidence that the ecosystem responds to Open Finance milestones.

Questa tesi mappa e quantifica l’evoluzione dei dati e della ricerca in ambito finanziario nel repository Papers with Code e verifica se i principali traguardi normativi dell’Open Finance (la PSD2 in Europa in 2018 e l’Open Finance in Brasile in 2021) siano associati a variazioni nel volume e nella quota di output scientifici in finanza. I dataset ufficiali della piattaforma sono stati raccolti, integrati e puliti tramite standardizzazione delle chiavi, espansione dei campi annidati e controlli di qualità; i valori mancanti di introduced_date per i dataset sono stati risolti con una procedura multi-fonte a priorità ordinata. Il sottoinsieme finanziario è selezionato con un vocabolario pesato che privilegia n-grammi più lunghi e impone una soglia minima con almeno un termine "ovvio", ottenendo 212 dataset (1.4%) e 13,064 articoli (2.6%). Serie annuali e pannelli di conteggi e quote trattano tali traguardi come ancore temporali in serie globali. Confronti pre/post e regressioni segmentate indicano aumenti statisticamente significativi dopo il 2018 (Europa) e il 2021 (Brasile); anche le quote crescono, con salti di livello e pendenze più accentuate nel periodo successivo ai traguardi. Gli andamenti temporali suggeriscono che shock nella disponibilità di dati precedano e abilitino la produzione di risultati di ricerca a valle. I contributi comprendono una pipeline riproducibile di integrazione e garanzia della qualità dei dati, una procedura trasparente di imputazione dell’anno di introduzione e un classificatore tematico auditabile, oltre a evidenza quantitativa che l’ecosistema risponde ai traguardi dell’Open Finance.

Open finance as a research shock: evidence from papers with code in Europe and Brazil

Miranda Mucciolo, João Pedro
2024/2025

Abstract

This thesis maps and quantifies the evolution of finance-related data and research in the Papers with Code repository and tests whether Open Finance regulatory milestones (PSD2 in Europe at 2018 and Brazil’s Open Finance at 2021) are associated with changes in the volume and share of scientific outputs in finance. Official platform datasets were collected, integrated, and cleaned with key standardization, nested-field expansion, and quality controls; missing introduced_date values for datasets were resolved via a priority-ordered, multi-source procedure. The finance subset is selected with a weighted vocabulary that gives precedence to longer n-grams and enforces a minimum threshold with at least one “obvious” term, yielding 212 datasets (1.4%) and 13,064 papers (2.6%). Annual series and panels of counts and shares treat the milestones as temporal anchors in global time series. Pre/post comparisons and segmented regressions indicate statistically significant increases after 2018 (Europe) and 2021 (Brazil); shares also rise, with level jumps and steeper post-milestone slopes. Temporal patterns suggest that shocks in data availability precede and enable downstream research outputs. The contributions comprise a reproducible data-integration and quality-assurance pipeline, a transparent introduction-year imputer, and an auditable thematic classifier, together with quantitative evidence that the ecosystem responds to Open Finance milestones.
ING - Scuola di Ingegneria Industriale e dell'Informazione
10-dic-2025
2024/2025
Questa tesi mappa e quantifica l’evoluzione dei dati e della ricerca in ambito finanziario nel repository Papers with Code e verifica se i principali traguardi normativi dell’Open Finance (la PSD2 in Europa in 2018 e l’Open Finance in Brasile in 2021) siano associati a variazioni nel volume e nella quota di output scientifici in finanza. I dataset ufficiali della piattaforma sono stati raccolti, integrati e puliti tramite standardizzazione delle chiavi, espansione dei campi annidati e controlli di qualità; i valori mancanti di introduced_date per i dataset sono stati risolti con una procedura multi-fonte a priorità ordinata. Il sottoinsieme finanziario è selezionato con un vocabolario pesato che privilegia n-grammi più lunghi e impone una soglia minima con almeno un termine "ovvio", ottenendo 212 dataset (1.4%) e 13,064 articoli (2.6%). Serie annuali e pannelli di conteggi e quote trattano tali traguardi come ancore temporali in serie globali. Confronti pre/post e regressioni segmentate indicano aumenti statisticamente significativi dopo il 2018 (Europa) e il 2021 (Brasile); anche le quote crescono, con salti di livello e pendenze più accentuate nel periodo successivo ai traguardi. Gli andamenti temporali suggeriscono che shock nella disponibilità di dati precedano e abilitino la produzione di risultati di ricerca a valle. I contributi comprendono una pipeline riproducibile di integrazione e garanzia della qualità dei dati, una procedura trasparente di imputazione dell’anno di introduzione e un classificatore tematico auditabile, oltre a evidenza quantitativa che l’ecosistema risponde ai traguardi dell’Open Finance.
File allegati
File Dimensione Formato  
2025_12_Mucciolo.pdf

accessibile in internet per tutti a partire dal 12/11/2026

Descrizione: Testo della tesi
Dimensione 1.2 MB
Formato Adobe PDF
1.2 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/246616