Embedded systems operating in space or low-atmosphere environments face continuous threats from radiation-induced Single Event Upsets (SEUs), which can compromise mission success. This thesis presents software-based fault recovery mechanisms for FreeRTOS, a widely used real-time operating system, as a cost-effective alternative to hardware protection. We designed and implemented two recovery strategies: Triple Modular Redundancy (TMR) for continuous fault correction through majority voting, and CRC-based checkpointing for rollback recovery after fault detection. Both mechanisms were implemented at the kernel level, targeting critical FreeRTOS data structures. The protection mechanisms integrate with Automatic Software-based Protection and Integrity Suite (ASPIS), an LLVM compiler plugin that provides fault detection capabilities. We evaluated the systems through extensive fault injection campaigns on an STM32F407 board. Results showed that all protected configurations reduced the Silent Data Corruption (SDC) rate below 1.5% and increased mission success rates compared to ASPIS-only implementations. However, component-level analysis revealed significant variability in fault response across OS structures: task management data structures demonstrated inherent resilience, while mutex and queue management variables proved to be much more vulnerable to faults even when protected. These findings demonstrate that hybrid compiler-Operating System (OS) protection approaches can achieve acceptable reliability for space applications, though protection overhead must be carefully balanced against the vulnerability profile of specific system components.
I sistemi embedded operanti nello spazio o in ambienti a bassa densità atmosferica affrontano continue minacce dovute a singoli guasti indotti da radiazioni, che possono com promettere il successo della missione. Questa tesi presenta meccanismi di recupero da guasti software per FreeRTOS, un sistema operativo real-time ampiamente utilizzato, come alternativa economicamente vantaggiosa alla protezione hardware. Abbiamo progettato e implementato due strategie di recupero: ridondanza tripla modulare per la correzione continua dei guasti attraverso voti di maggioranza, e checkpointing basato su controllo di ridondanza ciclico per il recupero tramite rollback dopo il rilevamento del guasto. Entrambi i meccanismi sono stati implementati a livello kernel, prendendo di mira strutture dati critiche di FreeRTOS. I meccanismi di protezione si integrano con ASPIS, un plugin modificato del compilatore LLVM che fornisce capacità di rilevamento dei guasti. Abbiamo valutato i sistemi attraverso campagne di fault injection su una scheda STM32F407 con 20.000 iniezioni per configurazione. I risultati hanno mostrato che tutte le configurazioni protette hanno ridotto i tassi di SDC al di sotto dell’1,5% e hanno aumentato i tassi di successo della missione rispetto alle implementazioni con solo ASPIS. Tuttavia, l’analisi a livello di componente ha rivelato una significativa variabilità nella risposta ai guasti tra le strutture del sistema operativo: le liste di task pronti hanno dimostrato resilienza intrinseca, mentre le variabili di gestione di mutex e code si sono dimostrate molto più vulnerabili ai guasti anche quando protette. Questi risultati dimostrano che approcci ibridi di protezione compilatore sistema operativo possono raggiungere livelli di affidabilità accettabili per applicazioni spaziali, sebbene l’overhead di protezione debba essere attentamente bilanciato rispetto al profilo di vulnerabilità dei specifici componenti del sistema.
Software-based fault detection and recovery for real-time operating systems
SARTORATO, GIOVANNI ALBERTO
2024/2025
Abstract
Embedded systems operating in space or low-atmosphere environments face continuous threats from radiation-induced Single Event Upsets (SEUs), which can compromise mission success. This thesis presents software-based fault recovery mechanisms for FreeRTOS, a widely used real-time operating system, as a cost-effective alternative to hardware protection. We designed and implemented two recovery strategies: Triple Modular Redundancy (TMR) for continuous fault correction through majority voting, and CRC-based checkpointing for rollback recovery after fault detection. Both mechanisms were implemented at the kernel level, targeting critical FreeRTOS data structures. The protection mechanisms integrate with Automatic Software-based Protection and Integrity Suite (ASPIS), an LLVM compiler plugin that provides fault detection capabilities. We evaluated the systems through extensive fault injection campaigns on an STM32F407 board. Results showed that all protected configurations reduced the Silent Data Corruption (SDC) rate below 1.5% and increased mission success rates compared to ASPIS-only implementations. However, component-level analysis revealed significant variability in fault response across OS structures: task management data structures demonstrated inherent resilience, while mutex and queue management variables proved to be much more vulnerable to faults even when protected. These findings demonstrate that hybrid compiler-Operating System (OS) protection approaches can achieve acceptable reliability for space applications, though protection overhead must be carefully balanced against the vulnerability profile of specific system components.| File | Dimensione | Formato | |
|---|---|---|---|
|
2025_12_Sartorato_Executive_Summary.pdf
accessibile in internet per tutti
Descrizione: executive summary
Dimensione
588.08 kB
Formato
Adobe PDF
|
588.08 kB | Adobe PDF | Visualizza/Apri |
|
2025_12_Sartorato_Tesi.pdf
accessibile in internet per tutti
Descrizione: tesi
Dimensione
1.84 MB
Formato
Adobe PDF
|
1.84 MB | Adobe PDF | Visualizza/Apri |
I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/10589/247571