Enhancing econometric models with pre-trained language models for venture capital prediction

The evaluation of early-stage enterprises poses a distinctive challenge for investors, as these firms typically operate with limited, unaudited, and often unreliable financial information. Traditional econometric models that rely exclusively on structured variables therefore struggle to capture the qualitative dimensions that frequently guide venture capital decisions. This thesis aims to address this limitation by investigating whether the integration of structured financial and operational indicators with unstructured textual data can improve the prediction of startup funding outcomes. The textual component includes company descriptions, competitor narratives, investor profiles, and sector classifications. To operationalize this approach, natural language processing techniques are employed, with pre-trained Sentence-BERT (SBERT) models generating semantic embeddings that capture the meaning of startup-related text. These embeddings are then combined with conventional predictors within logistic regression classifiers to estimate the probability that a startup will secure subsequent rounds of financing within a limited time horizon, reflecting sustained investor confidence. The framework contributes to the growing literature at the intersection of machine learning and alternative investments, demonstrating how textual information can complement quantitative indicators in forecasting entrepreneurial trajectories. From a practical standpoint, it outlines a replicable methodology that venture capital funds could adopt to enhance the efficiency of screening and due diligence processes, bridging the gap between academic research and investment practice in contexts where uncertainty is particularly acute.

Valutare le imprese in fase iniziale rappresenta una sfida peculiare per gli investitori, poiché tali aziende operano tipicamente con informazioni finanziarie limitate, non sottoposte a revisione contabile e spesso poco affidabili. I modelli econometrici tradizionali, basati esclusivamente su variabili strutturate, faticano quindi a cogliere le dimensioni qualitative che frequentemente orientano le decisioni dei venture capitalist. La presente tesi mira a colmare tale limite indagando se l’integrazione di indicatori finanziari e operativi strutturati con dati testuali non strutturati possa migliorare la previsione degli esiti di finanziamento delle startup. La componente testuale comprende descrizioni aziendali, narrazioni sui concorrenti, profili degli investitori e classificazioni settoriali. Per rendere operativo questo approccio, vengono impiegate tecniche di elaborazione del linguaggio naturale (Natural Language Processing, NLP), utilizzando modelli pre- trained Sentence-BERT (SBERT) per generare embedding semantici che catturano il significato del testo relativo alle startup. Tali rappresentazioni vengono poi combinate con i predittori convenzionali all’interno di classificatori di regressione logistica, al fine di stimare la probabilità che una startup ottenga round di finanziamento successivi entro un orizzonte temporale limitato, riflettendo così una fiducia sostenuta da parte degli investitori. Il framework proposto contribuisce alla letteratura in espansione sull’intersezione tra machine learning e investimenti alternativi, dimostrando come le informazioni testuali possano integrare gli indicatori quantitativi nel prevedere le traiettorie iii iv imprenditoriali. Da un punto di vista pratico, esso delinea una metodologia replicabile che i fondi di venture capital potrebbero adottare per migliorare l’efficienza dei processi di screening e due diligence, colmando il divario tra ricerca accademica e prassi d’investimento in contesti caratterizzati da elevata incertezza.