In recent years, the increasing pressure to publish has highlighted the weaknesses of academic evaluation systems based on bibliometric indicators, particularly the h-index. This thesis critically examines how such indicators can be artificially manipulated through the combined use of large language models (LLMs), non-peer-reviewed repositories, and predatory journals. An automated pipeline is designed and implemented to generate academic-style research articles, enriched with fabricated citations and synthetic figures, followed by a humanization process to enhance stylistic plausibility. The results demon- strate the feasibility of rapidly increasing bibliometric indicators: the monitored Google Scholar profile showed an h-index growth from 0 to 6, while an external reference author experienced an increase from 30 to 32, thereby confirming both direct and indirect im- pacts. The analysis of publication attempts on preprint servers and predatory journals further validates the practicality of the approach, also quantifying related costs and time- lines. The study aims to provide a critical reflection on the structural vulnerabilities of current academic evaluation systems and to contribute to the debate on the reliability and ethical implications of bibliometric indicators.

Negli ultimi anni, la crescente pressione a pubblicare ha messo in evidenza le fragilità dei sistemi di valutazione accademica basati su indicatori bibliometrici, in particolare l’h- index. La presente tesi esplora criticamente le modalità attraverso cui tali indicatori pos- sono essere manipolati mediante l’uso combinato di large language models (LLM), repos- itory non sottoposti a peer-review e riviste predatorie. Viene progettata e implementata una pipeline automatizzata capace di generare articoli scientifici in formato accademico, corredati da citazioni artificiali e figure sintetiche, con successiva revisione finalizzata a migliorarne la plausibilità stilistica. I risultati dimostrano la possibilità di incrementare in tempi brevi gli indicatori bibliometrici sia di un profilo monitorato su Google Scholar (h-index passato da 0 a 6), sia di un autore esterno di riferimento (incremento da 30 a 32), evidenziando l’impatto potenziale di queste pratiche sul sistema scientifico. L’analisi dei casi di pubblicazione su server di preprint e su riviste predatorie conferma la fattibilità del processo e ne quantifica costi e tempi. Lo studio intende quindi offrire una riflessione critica sulle debolezze strutturali dei sistemi di valutazione accademica, proponendo un contributo utile al dibattito sull’affidabilità e sull’etica degli indicatori bibliometrici.

Hacking the bibliometric indices: designing a multi-stage pipeline for automatic article generation and citation engineering

SCRIVANO, ARIMONDO
2024/2025

Abstract

In recent years, the increasing pressure to publish has highlighted the weaknesses of academic evaluation systems based on bibliometric indicators, particularly the h-index. This thesis critically examines how such indicators can be artificially manipulated through the combined use of large language models (LLMs), non-peer-reviewed repositories, and predatory journals. An automated pipeline is designed and implemented to generate academic-style research articles, enriched with fabricated citations and synthetic figures, followed by a humanization process to enhance stylistic plausibility. The results demon- strate the feasibility of rapidly increasing bibliometric indicators: the monitored Google Scholar profile showed an h-index growth from 0 to 6, while an external reference author experienced an increase from 30 to 32, thereby confirming both direct and indirect im- pacts. The analysis of publication attempts on preprint servers and predatory journals further validates the practicality of the approach, also quantifying related costs and time- lines. The study aims to provide a critical reflection on the structural vulnerabilities of current academic evaluation systems and to contribute to the debate on the reliability and ethical implications of bibliometric indicators.
ING - Scuola di Ingegneria Industriale e dell'Informazione
23-ott-2025
2024/2025
Negli ultimi anni, la crescente pressione a pubblicare ha messo in evidenza le fragilità dei sistemi di valutazione accademica basati su indicatori bibliometrici, in particolare l’h- index. La presente tesi esplora criticamente le modalità attraverso cui tali indicatori pos- sono essere manipolati mediante l’uso combinato di large language models (LLM), repos- itory non sottoposti a peer-review e riviste predatorie. Viene progettata e implementata una pipeline automatizzata capace di generare articoli scientifici in formato accademico, corredati da citazioni artificiali e figure sintetiche, con successiva revisione finalizzata a migliorarne la plausibilità stilistica. I risultati dimostrano la possibilità di incrementare in tempi brevi gli indicatori bibliometrici sia di un profilo monitorato su Google Scholar (h-index passato da 0 a 6), sia di un autore esterno di riferimento (incremento da 30 a 32), evidenziando l’impatto potenziale di queste pratiche sul sistema scientifico. L’analisi dei casi di pubblicazione su server di preprint e su riviste predatorie conferma la fattibilità del processo e ne quantifica costi e tempi. Lo studio intende quindi offrire una riflessione critica sulle debolezze strutturali dei sistemi di valutazione accademica, proponendo un contributo utile al dibattito sull’affidabilità e sull’etica degli indicatori bibliometrici.
File allegati
File Dimensione Formato  
2025_10_Scrivano.pdf

accessibile in internet solo dagli utenti autorizzati

Descrizione: documento di Tesi
Dimensione 4.33 MB
Formato Adobe PDF
4.33 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/242938