Embedded systems operating in space or low-atmosphere environments face continuous threats from radiation-induced Single Event Upsets (SEUs), which can compromise mission success. This thesis presents software-based fault recovery mechanisms for FreeRTOS, a widely used real-time operating system, as a cost-effective alternative to hardware protection. We designed and implemented two recovery strategies: Triple Modular Redundancy (TMR) for continuous fault correction through majority voting, and CRC-based checkpointing for rollback recovery after fault detection. Both mechanisms were implemented at the kernel level, targeting critical FreeRTOS data structures. The protection mechanisms integrate with Automatic Software-based Protection and Integrity Suite (ASPIS), an LLVM compiler plugin that provides fault detection capabilities. We evaluated the systems through extensive fault injection campaigns on an STM32F407 board. Results showed that all protected configurations reduced the Silent Data Corruption (SDC) rate below 1.5% and increased mission success rates compared to ASPIS-only implementations. However, component-level analysis revealed significant variability in fault response across OS structures: task management data structures demonstrated inherent resilience, while mutex and queue management variables proved to be much more vulnerable to faults even when protected. These findings demonstrate that hybrid compiler-Operating System (OS) protection approaches can achieve acceptable reliability for space applications, though protection overhead must be carefully balanced against the vulnerability profile of specific system components.

I sistemi embedded operanti nello spazio o in ambienti a bassa densità atmosferica affrontano continue minacce dovute a singoli guasti indotti da radiazioni, che possono com promettere il successo della missione. Questa tesi presenta meccanismi di recupero da guasti software per FreeRTOS, un sistema operativo real-time ampiamente utilizzato, come alternativa economicamente vantaggiosa alla protezione hardware. Abbiamo progettato e implementato due strategie di recupero: ridondanza tripla modulare per la correzione continua dei guasti attraverso voti di maggioranza, e checkpointing basato su controllo di ridondanza ciclico per il recupero tramite rollback dopo il rilevamento del guasto. Entrambi i meccanismi sono stati implementati a livello kernel, prendendo di mira strutture dati critiche di FreeRTOS. I meccanismi di protezione si integrano con ASPIS, un plugin modificato del compilatore LLVM che fornisce capacità di rilevamento dei guasti. Abbiamo valutato i sistemi attraverso campagne di fault injection su una scheda STM32F407 con 20.000 iniezioni per configurazione. I risultati hanno mostrato che tutte le configurazioni protette hanno ridotto i tassi di SDC al di sotto dell’1,5% e hanno aumentato i tassi di successo della missione rispetto alle implementazioni con solo ASPIS. Tuttavia, l’analisi a livello di componente ha rivelato una significativa variabilità nella risposta ai guasti tra le strutture del sistema operativo: le liste di task pronti hanno dimostrato resilienza intrinseca, mentre le variabili di gestione di mutex e code si sono dimostrate molto più vulnerabili ai guasti anche quando protette. Questi risultati dimostrano che approcci ibridi di protezione compilatore sistema operativo possono raggiungere livelli di affidabilità accettabili per applicazioni spaziali, sebbene l’overhead di protezione debba essere attentamente bilanciato rispetto al profilo di vulnerabilità dei specifici componenti del sistema.

Software-based fault detection and recovery for real-time operating systems

SARTORATO, GIOVANNI ALBERTO
2024/2025

Abstract

Embedded systems operating in space or low-atmosphere environments face continuous threats from radiation-induced Single Event Upsets (SEUs), which can compromise mission success. This thesis presents software-based fault recovery mechanisms for FreeRTOS, a widely used real-time operating system, as a cost-effective alternative to hardware protection. We designed and implemented two recovery strategies: Triple Modular Redundancy (TMR) for continuous fault correction through majority voting, and CRC-based checkpointing for rollback recovery after fault detection. Both mechanisms were implemented at the kernel level, targeting critical FreeRTOS data structures. The protection mechanisms integrate with Automatic Software-based Protection and Integrity Suite (ASPIS), an LLVM compiler plugin that provides fault detection capabilities. We evaluated the systems through extensive fault injection campaigns on an STM32F407 board. Results showed that all protected configurations reduced the Silent Data Corruption (SDC) rate below 1.5% and increased mission success rates compared to ASPIS-only implementations. However, component-level analysis revealed significant variability in fault response across OS structures: task management data structures demonstrated inherent resilience, while mutex and queue management variables proved to be much more vulnerable to faults even when protected. These findings demonstrate that hybrid compiler-Operating System (OS) protection approaches can achieve acceptable reliability for space applications, though protection overhead must be carefully balanced against the vulnerability profile of specific system components.
BAROFFIO, DAVIDE
ING - Scuola di Ingegneria Industriale e dell'Informazione
10-dic-2025
2024/2025
I sistemi embedded operanti nello spazio o in ambienti a bassa densità atmosferica affrontano continue minacce dovute a singoli guasti indotti da radiazioni, che possono com promettere il successo della missione. Questa tesi presenta meccanismi di recupero da guasti software per FreeRTOS, un sistema operativo real-time ampiamente utilizzato, come alternativa economicamente vantaggiosa alla protezione hardware. Abbiamo progettato e implementato due strategie di recupero: ridondanza tripla modulare per la correzione continua dei guasti attraverso voti di maggioranza, e checkpointing basato su controllo di ridondanza ciclico per il recupero tramite rollback dopo il rilevamento del guasto. Entrambi i meccanismi sono stati implementati a livello kernel, prendendo di mira strutture dati critiche di FreeRTOS. I meccanismi di protezione si integrano con ASPIS, un plugin modificato del compilatore LLVM che fornisce capacità di rilevamento dei guasti. Abbiamo valutato i sistemi attraverso campagne di fault injection su una scheda STM32F407 con 20.000 iniezioni per configurazione. I risultati hanno mostrato che tutte le configurazioni protette hanno ridotto i tassi di SDC al di sotto dell’1,5% e hanno aumentato i tassi di successo della missione rispetto alle implementazioni con solo ASPIS. Tuttavia, l’analisi a livello di componente ha rivelato una significativa variabilità nella risposta ai guasti tra le strutture del sistema operativo: le liste di task pronti hanno dimostrato resilienza intrinseca, mentre le variabili di gestione di mutex e code si sono dimostrate molto più vulnerabili ai guasti anche quando protette. Questi risultati dimostrano che approcci ibridi di protezione compilatore sistema operativo possono raggiungere livelli di affidabilità accettabili per applicazioni spaziali, sebbene l’overhead di protezione debba essere attentamente bilanciato rispetto al profilo di vulnerabilità dei specifici componenti del sistema.
File allegati
File Dimensione Formato  
2025_12_Sartorato_Executive_Summary.pdf

accessibile in internet per tutti

Descrizione: executive summary
Dimensione 588.08 kB
Formato Adobe PDF
588.08 kB Adobe PDF Visualizza/Apri
2025_12_Sartorato_Tesi.pdf

accessibile in internet per tutti

Descrizione: tesi
Dimensione 1.84 MB
Formato Adobe PDF
1.84 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/247571