In this thesis, we present a Machine Learning-based framework for predicting the type and size of funding rounds for innovative startups, a critical aspect of Venture Capital strategy and entrepreneurial growth forecasting. By leveraging a rich dataset of historical funding events and company profiles from Crunchbase, the largest open-access startup database, we employ supervised learning models to classify funding rounds by type (e.g., Seed, Series A, Series B) and to predict the amount raised in each round. We adopt a unique approach where unsupervised clustering results are incorporated as input features in the predictive models. Specifically, we perform a clustering analysis that categorizes funding rounds into four distinct groups, which replace traditional funding type labels in our supervised models, capturing underlying structural patterns and distinguishing nuanced funding strategies. Beyond being instrumental to the supervised predictive models, the clusters also provide a new lens through which to understand patterns in funding behavior. Our models demonstrate good predictive accuracy in both classification and regression tasks, revealing key factors that influence funding outcomes, such as previous funding characteristics, timing of the financing events, and company's geographic location. The findings offer actionable insights for founders and investors alike, highlighting the potential of data-driven methods in enhancing the strategic planning of funding rounds and improving the allocation of investing resources, anticipating the startup funding landscape effectively.

In questa tesi, presentiamo un framework basato su Machine Learning per prevedere il tipo e la dimensione dei round di finanziamento per startup innovative, un aspetto critico nella strategia di Venture Capital e nelle previsioni di crescita imprenditoriale. Utilizzando un ampio dataset di eventi di finanziamento storici e profili di aziende da Crunchbase, il più grande database pubblico su startup, impieghiamo modelli di apprendimento supervisionato per classificare i round di finanziamento per tipo (es. Seed, Series A, Series B) e per prevedere l'importo ottenuto in ciascun round. Adottiamo un approccio unico in cui i risultati del clustering non supervisionato vengono integrati come feature nei modelli predittivi. In particolare, eseguiamo un'analisi di clustering che raggruppa i round di finanziamento in quattro categorie distinte, che sostituiscono i tipi di finanziamento tradizionali nei nostri modelli supervisionati, catturando schemi strutturali sottostanti e distinguendo strategie di finanziamento sfumate. Oltre ad essere strumentali ai modelli predittivi supervisionati, i cluster forniscono anche una nuova lente attraverso la quale comprendere i comportamenti di finanziamento. I nostri modelli dimostrano una buona accuratezza predittiva sia nei compiti di classificazione che di regressione, rivelando fattori chiave che influenzano gli esiti del finanziamento, come le caratteristiche dei finanziamenti precedenti, la tempistica degli eventi di finanziamento e la localizzazione geografica dell'azienda. I risultati offrono intuizioni pratiche per fondatori di startup e investitori, evidenziando il potenziale di metodi data-driven nel migliorare la pianificazione strategica dei round di finanziamento e nell'ottimizzare l'allocazione delle risorse di investimento, anticipando in modo efficace il panorama dei finanziamenti per le startup.

A machine learning approach to funding rounds prediction in startups

Raffaeli, Fabio
2023/2024

Abstract

In this thesis, we present a Machine Learning-based framework for predicting the type and size of funding rounds for innovative startups, a critical aspect of Venture Capital strategy and entrepreneurial growth forecasting. By leveraging a rich dataset of historical funding events and company profiles from Crunchbase, the largest open-access startup database, we employ supervised learning models to classify funding rounds by type (e.g., Seed, Series A, Series B) and to predict the amount raised in each round. We adopt a unique approach where unsupervised clustering results are incorporated as input features in the predictive models. Specifically, we perform a clustering analysis that categorizes funding rounds into four distinct groups, which replace traditional funding type labels in our supervised models, capturing underlying structural patterns and distinguishing nuanced funding strategies. Beyond being instrumental to the supervised predictive models, the clusters also provide a new lens through which to understand patterns in funding behavior. Our models demonstrate good predictive accuracy in both classification and regression tasks, revealing key factors that influence funding outcomes, such as previous funding characteristics, timing of the financing events, and company's geographic location. The findings offer actionable insights for founders and investors alike, highlighting the potential of data-driven methods in enhancing the strategic planning of funding rounds and improving the allocation of investing resources, anticipating the startup funding landscape effectively.
GENALTI, GIANMARCO
ING - Scuola di Ingegneria Industriale e dell'Informazione
11-dic-2024
2023/2024
In questa tesi, presentiamo un framework basato su Machine Learning per prevedere il tipo e la dimensione dei round di finanziamento per startup innovative, un aspetto critico nella strategia di Venture Capital e nelle previsioni di crescita imprenditoriale. Utilizzando un ampio dataset di eventi di finanziamento storici e profili di aziende da Crunchbase, il più grande database pubblico su startup, impieghiamo modelli di apprendimento supervisionato per classificare i round di finanziamento per tipo (es. Seed, Series A, Series B) e per prevedere l'importo ottenuto in ciascun round. Adottiamo un approccio unico in cui i risultati del clustering non supervisionato vengono integrati come feature nei modelli predittivi. In particolare, eseguiamo un'analisi di clustering che raggruppa i round di finanziamento in quattro categorie distinte, che sostituiscono i tipi di finanziamento tradizionali nei nostri modelli supervisionati, catturando schemi strutturali sottostanti e distinguendo strategie di finanziamento sfumate. Oltre ad essere strumentali ai modelli predittivi supervisionati, i cluster forniscono anche una nuova lente attraverso la quale comprendere i comportamenti di finanziamento. I nostri modelli dimostrano una buona accuratezza predittiva sia nei compiti di classificazione che di regressione, rivelando fattori chiave che influenzano gli esiti del finanziamento, come le caratteristiche dei finanziamenti precedenti, la tempistica degli eventi di finanziamento e la localizzazione geografica dell'azienda. I risultati offrono intuizioni pratiche per fondatori di startup e investitori, evidenziando il potenziale di metodi data-driven nel migliorare la pianificazione strategica dei round di finanziamento e nell'ottimizzare l'allocazione delle risorse di investimento, anticipando in modo efficace il panorama dei finanziamenti per le startup.
File allegati
File Dimensione Formato  
2024_12_Raffaeli.pdf

non accessibile

Descrizione: Tesi
Dimensione 3.52 MB
Formato Adobe PDF
3.52 MB Adobe PDF   Visualizza/Apri
2024_12_Raffaeli_Executive Summary.pdf

non accessibile

Descrizione: Executive Summary
Dimensione 608 kB
Formato Adobe PDF
608 kB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/231459