A quaternionic neural network for multiclass classification problems

Biblioteche e Archivi
POLITesi - Archivio digitale delle tesi di laurea e di dottorato

The goal of this thesis is to develop a quaternion-based neural network for multiclass classification problems. In the first part, the classic perceptron is extended from the complex domain to the quaternionic domain. In a second part, the perceptron is extended from a two-class classifier to a multiclass classifier with a quaternionic neural network structure. The activation function is inspired by softmax (also known as normalized exponential function). The weights are updated with gradient descent (GD), where the gradient is computed with the generalized HR calculus rules; in this work, convergence of GD method is proven thanks to some properties of the custom loss function, despite not being convex. In the last section, the neural network is tested on some real datasets: the results suggest that if the real-valued covariates can be arranged in quaternionic vectors, then the neural network may be competitive also for real-valued datasets.

L’obiettivo di questa tesi è quello di sviluppare una rete neurale a valori quaternionici che riesca a risolvere problemi di classificazione per dataset divisi in più di due classi. Nella prima parte, il percettrone classico viene esteso dal caso complesso a quello ipercomplesso. Nella seconda parte, il percettrone viene esteso da classificatore binario a classificatore multiplo, trasformandolo in una rete neurale. La funzione di attivazione riprende l’idea della softmax (conosciuta anche come funzione esponenziale normalizzata). I pesi sono aggiornati tramite discesa secondo gradiente (GD), dove il gradiente è calcolato con le regole di HR calcolo; in questa tesi la convergenza viene dimostrata grazie ad alcune proprietà della loss function, nonostante quest’ultima non sia convessa. Nella parte finale la rete neurale viene testata su dataset reali: i risultati suggeriscono come la rete neurale performi anche con dataset a valori reali, qualora le covariate possano essere trasformate in vettori quaternionici.

A quaternionic neural network for multiclass classification problems

RIZZO, GIOVANNI

2022/2023

Abstract

The goal of this thesis is to develop a quaternion-based neural network for multiclass classification problems. In the first part, the classic perceptron is extended from the complex domain to the quaternionic domain. In a second part, the perceptron is extended from a two-class classifier to a multiclass classifier with a quaternionic neural network structure. The activation function is inspired by softmax (also known as normalized exponential function). The weights are updated with gradient descent (GD), where the gradient is computed with the generalized HR calculus rules; in this work, convergence of GD method is proven thanks to some properties of the custom loss function, despite not being convex. In the last section, the neural network is tested on some real datasets: the results suggest that if the real-valued covariates can be arranged in quaternionic vectors, then the neural network may be competitive also for real-valued datasets.

Scheda breve

Scheda completa

	Relatore
	
				SABADINI, IRENE MARIA
			
	Scuola / Dip.
	
				ING  - Scuola di Ingegneria Industriale e dell'Informazione
			
	Data
	
				9-apr-2024
			
	Anno accademico
	
				2022/2023
			
	Abstract in italiano
	
				L’obiettivo di questa tesi è quello di sviluppare una rete neurale a valori quaternionici che riesca a risolvere problemi di classificazione per dataset divisi in più di due classi. Nella prima parte, il percettrone classico viene esteso dal caso complesso a quello ipercomplesso. Nella seconda parte, il percettrone viene esteso da classificatore binario a classificatore multiplo, trasformandolo in una rete neurale. 
La funzione di attivazione riprende l’idea della softmax (conosciuta anche come funzione esponenziale normalizzata). I pesi sono aggiornati tramite discesa secondo gradiente (GD), dove il gradiente è calcolato con le regole di HR calcolo; in questa tesi la convergenza viene dimostrata grazie ad alcune proprietà della loss function, nonostante quest’ultima non sia convessa.
Nella parte finale la rete neurale viene testata su dataset reali: i risultati suggeriscono come la rete neurale performi anche con dataset a valori reali, qualora le covariate possano essere trasformate in vettori quaternionici.
			
	Appare nelle tipologie:
	
				Tesi di laurea Magistrale

File allegati

File	Dimensione	Formato
2024_04_Rizzo.pdf accessibile in internet per tutti Descrizione: Thesis Dimensione 1.31 MB Formato Adobe PDF Visualizza/Apri	1.31 MB	Adobe PDF	Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/218583