Kolmogorov-Arnold networks for virtual analog modeling

In the field of audio signal processing, Virtual Analog (VA) modeling aims to digitally emulate the behavior and timbre of analog equipment. Amongst others, Wave Digital Filters have demonstrated to be an excellent approach for this purpose, enabling the fast solution of reference analog circuits. However, the presence of multiple nonlinearities causes delay-free loops that typically require iterative solvers to be removed, hindering, in turn, real-time audio applications. Recently, data-driven models such as Multi-Layer Perceptrons (MLPs) have been successfully employed to explicitly emulate circuits with multiple nonlinearities, stimulating interest in the potential of alternative neural architectures. This thesis investigates the use of Kolmogorov–Arnold Networks (KANs) as a promising alternative to the standard neural networks considered so far. Indeed, unlike MLPs, KANs employ learnable activation functions based on B-splines, which can potentially improve the modeling of nonlinear characteristics. The methodology is validated by modeling the Voltage Controlled Filter of the Arturia MiniBrute synthesizer, which is characterized by a complex Steiner-Parker topology featuring four coupled diodes. Experimental results demonstrate that KANs achieve a high accuracy, in both the time and frequency domains, that is comparable to that of a baseline MLP, but with a lower number of parameters (reduced to approximately one quarter). However, KANs exhibit a higher computational cost during inference, highlighting a fundamental engineering trade-off between memory footprint and computational efficiency in real-time audio processing. This trade-off opens new perspectives for optimizing model architectures depending on application constraints, paving the way for future research on lightweight yet expressive neural structures tailored to real-time virtual analog modeling.

Nel campo dell'elaborazione dei segnali audio, il Virtual Analog (VA) si propone di emulare digitalmente il comportamento e il timbro delle apparecchiature analogiche. Tra i diversi approcci disponibili, i Wave Digital Filter si sono dimostrati particolarmente efficaci a questo scopo, consentendo la simulazione rapida di circuiti analogici di riferimento. Tuttavia, la presenza di molteplici non linearità genera delay-free loops che richiedono tipicamente l'impiego di soluzioni iterative, ostacolando le applicazioni audio in tempo reale. Recentemente, modelli data-driven come i Multi-Layer Perceptron (MLP) sono stati impiegati con successo per emulare in forma esplicita circuiti con molteplici non linearità, stimolando l'interesse verso il potenziale di architetture neurali alternative. Questa tesi indaga l'utilizzo delle Kolmogorov–Arnold Network (KAN) come alternativa promettente alle reti neurali standard finora considerate. A differenza degli MLP, le KAN impiegano funzioni di attivazione apprendibili basate su B-spline, che possono potenzialmente migliorare la modellazione delle caratteristiche non lineari. La metodologia è validata modellando il Voltage Controlled Filter del sintetizzatore Arturia MiniBrute, caratterizzato da una complessa topologia Steiner-Parker con quattro diodi accoppiati. I risultati sperimentali dimostrano che le KAN raggiungono un'elevata accuratezza, sia nel dominio del tempo che della frequenza, comparabile a quella di un MLP di riferimento, ma con un numero inferiore di parametri (ridotto a circa un quarto). Tuttavia, le KAN presentano un costo computazionale più elevato durante l'inferenza, evidenziando un compromesso ingegneristico fondamentale tra occupazione di memoria ed efficienza computazionale nell'elaborazione audio in tempo reale. Questo compromesso apre nuove prospettive per l'ottimizzazione delle architetture dei modelli in funzione dei vincoli applicativi, aprendo la strada a future ricerche su strutture neurali leggere ma espressive, pensate per il virtual analog modeling in tempo reale.