Vehicle longitudinal modeling and motion planning: enlarged neural networks and hybrid imitation learning

Modeling the dynamics of a vehicle is essential for designing control systems for autonomous tasks like steering or velocity control and for simulating the system behavior for new inputs. Prediction Models are central for modern control applications, while Simulation Models are useful for testing new situations, designing systems, and mimicking physical systems. In literature, various model architectures exist. This thesis compares Black Box models and Gray Box models of the longitudinal dynamics of a 4-wheeled vehicle called Robobus, produced by Pix Moving. First, the methodology of data collection and data pre-processing will be explained, followed by the analysis of the training stage and the parameter estimation methods. The structure of the black box and grey box models will be analyzed, with a division between linear and nonlinear systems. The models will then be evaluated on the same validation dataset, which includes only longitudinal maneuvers, and their performances are compared. The robustness of the models will be tested on a dataset that includes steering maneuvers, showing how the black box model's performance improves significantly by adding the steering angle as an input during the training stage. It will be shown that the gray box models are more robust and accurate than the black box ones, even with steering maneuvers, but the enlarged black box model trained with the steering angle as an additional input outperforms the gray box ones. The second part of the thesis focuses on Motion Planning, particularly on a learning-based approach I developed. Various learning-based models, such as Reinforcement Learning, Behavior Cloning, Imitation Learning and Inverse Reinforcement Learning approaches, have been developed. However, few have been tested on real-world scenarios with real vehicles, and those that have often do not guarantee safe performances. To address this, I designed a Hybrid Imitation Learning model that combines the strengths of Optimization-based and Learning-based approaches, leading to stable and safe performances. Two different hybrid models were designed: The first model generates two different trajectories and fuses them together using linear interpolation based on a correction horizon, denoted as C. Up to C, the trajectory is guided by an optimization-based approach, transitioning to a learning-based trajectory beyond C. However, this method may introduce discontinuities in the final trajectory due to inconsistencies at the fusion point C and may lack human-like characteristics, meaning the actual path taken by the ego-vehicle does not resemble the natural driving style of a human, as it aligns more with the optimization-based trajectory. The second model addresses these limitations by integrating both learning-based and optimization-based techniques. Initially, a multilayer perceptron (MLP) generates a human-like trajectory, which is then refined by an optimization-based component. This component minimizes tracking errors and computes a trajectory that is both kinematically feasible and collision-free with obstacles and road boundaries, effectively balancing safety and human-likeness without the need for trajectory fusion. Finally, a real-world implementation using the Robobus, was conducted, overcoming the limitations of simulators and proving stable results. This contributes to scientific research with a simple and innovative planner that is especially useful in complex scenarios where Rule-based and Optimization-based approaches may struggle to generate output trajectories.

Modellare la dinamica di un veicolo è essenziale per progettare sistemi di controllo per compiti autonomi come lo sterzo o il controllo della velocità e per simulare il comportamento del sistema per nuovi input. I modelli di previsione sono fondamentali per le moderne applicazioni di controllo, mentre i modelli di simulazione sono utili per testare nuove situazioni, progettare sistemi e imitare sistemi fisici. In letteratura esistono diverse architetture modello. Questa tesi mette a confronto i modelli Black Box e Grey Box della dinamica longitudinale di un veicolo a 4 ruote chiamato Robobus, prodotto da Pix Moving. Innanzitutto verrà illustrata la metodologia di raccolta e pre-elaborazione dei dati, seguita dall'analisi della fase di addestramento e dei metodi di stima dei parametri. Verrà analizzata la struttura dei modelli black box e grey box, con una distinzione tra sistemi lineari e non lineari. I modelli verranno quindi valutati sullo stesso set di dati di validazione, che include solo le manovre longitudinali, e le loro prestazioni verranno confrontate. La robustezza dei modelli sarà testata su un set di dati che include manovre di sterzata, mostrando come le prestazioni del modello a scatola nera migliorano in modo significativo aggiungendo l'angolo di sterzata come input durante la fase di addestramento. Verrà dimostrato che i modelli a scatola grigia sono più robusti e precisi di quelli a scatola nera, anche con le manovre di sterzata, ma il modello a scatola nera aggiornato addestrato con l'angolo di sterzata come input aggiuntivo supera quelli a scatola grigia. La seconda parte della tesi si concentra sulla pianificazione del movimento, in particolare su un approccio basato sull'apprendimento da me sviluppato. Sono stati sviluppati vari modelli basati sull'apprendimento, come l'apprendimento per rinforzo, la clonazione del comportamento, l'apprendimento per imitazione, l'apprendimento per rinforzo inverso, i pianificatori del movimento neurale e gli approcci dei gradienti politici. Tuttavia, pochi sono stati testati su scenari reali con veicoli reali, e quelli che lo hanno fatto spesso non garantiscono prestazioni sicure. Per risolvere questo problema, ho progettato un modello ibrido di Imitation Learning che combina i punti di forza degli approcci basati sull'ottimizzazione e sull'apprendimento, portando a prestazioni stabili e sicure. Sono stati progettati due diversi modelli ibridi: Il primo modello genera due diverse traiettorie e le fonde insieme utilizzando l'interpolazione lineare basata su un orizzonte di correzione, indicato come C. Fino a C, la traiettoria è guidata da un approccio basato sull'ottimizzazione, passando a una traiettoria basata sull'apprendimento oltre C Tuttavia, questo metodo può introdurre discontinuità nella traiettoria finale a causa di incoerenze nel punto di fusione C e può mancare di caratteristiche umane, il che significa che il percorso effettivo intrapreso dal veicolo dell'ego non assomiglia allo stile di guida naturale di un essere umano, come. si allinea maggiormente con la traiettoria basata sull'ottimizzazione. Il secondo modello affronta queste limitazioni integrando tecniche basate sull'apprendimento e sull'ottimizzazione. Inizialmente, un percettrone multistrato (MLP) genera una traiettoria simile a quella umana, che viene poi perfezionata da un componente basato sull'ottimizzazione. Questo componente riduce al minimo gli errori di tracciamento e calcola una traiettoria che sia cinematicamente fattibile e priva di collisioni con ostacoli e confini stradali, bilanciando efficacemente sicurezza e sembianza umana senza la necessità di fusione delle traiettorie. Infine, è stata condotta un'implementazione nel mondo reale utilizzando il Robobus, superando i limiti dei simulatori e dimostrando risultati stabili. Ciò contribuisce alla ricerca scientifica con un pianificatore semplice e innovativo che è particolarmente utile in scenari complessi in cui gli approcci basati su regole e ottimizzazione possono avere difficoltà a generare traiettorie di output.