Traditional communication protocols are often brittle in dynamic and noisy environments. In contrast, biological systems have evolved adaptive communication strategies that remain robust under uncertainty. This thesis draws inspiration from such mechanisms to study the emergence of communication within cooperative multi-agent reinforcement learning systems, where agents develop protocols autonomously through interaction. We design a bio-inspired framework in which agents, modeled as bacteria, exchange discrete molecular messages diffusing stochastically through space. Communication is constrained by distance-dependent attenuation and probabilistic degradation. Agents learn via Multi-Agent Proximal Policy Optimization with a centralized critic and shared policy parameters among homogeneous relays, improving stability and sample efficiency. The system is formalized as a cooperative Partially Observable Stochastic Game, where shared rewards and partial observability drive the emergence of coordinated strategies.

I protocolli di comunicazione tradizionali risultano spesso fragili in ambienti dinamici e rumorosi. Al contrario, i sistemi biologici hanno evoluto strategie di comunicazione adattive, capaci di mantenere robustezza anche in condizioni di incertezza. Questa tesi trae ispirazione da tali meccanismi per studiare l’emergenza della comunicazione all’interno di sistemi di cooperative Multi-Agent Reinforcement Learning, in cui gli agenti sviluppano autonomamente protocolli attraverso l’interazione. È stato progettato un framework bio-inspired in cui gli agenti, modellati come batteri, si scambiano messaggi discreti, rappresentanti emissioni di molecole e sostanze, che si diffondono stocasticamente nello spazio. La comunicazione è vincolata da un'attenuazione dipendente dalla distanza e una degradazione probabilistica. Gli agenti apprendono tramite Multi-Agent Proximal Policy Optimization con centralized critic e parametri della policy condivisi tra relays omogenei, migliorando la stabilità e l’efficienza di addestramento. Il sistema è formalizzato come un cooperative Partially Observable Stochastic Game, in cui rewards condivisi e partial observability guidano l’emergenza di strategie coordinate.

Multi-Agent Reinforcement Learning for emergent molecular communication in diffusion-based environments

Giusti, Gabriele
2024/2025

Abstract

Traditional communication protocols are often brittle in dynamic and noisy environments. In contrast, biological systems have evolved adaptive communication strategies that remain robust under uncertainty. This thesis draws inspiration from such mechanisms to study the emergence of communication within cooperative multi-agent reinforcement learning systems, where agents develop protocols autonomously through interaction. We design a bio-inspired framework in which agents, modeled as bacteria, exchange discrete molecular messages diffusing stochastically through space. Communication is constrained by distance-dependent attenuation and probabilistic degradation. Agents learn via Multi-Agent Proximal Policy Optimization with a centralized critic and shared policy parameters among homogeneous relays, improving stability and sample efficiency. The system is formalized as a cooperative Partially Observable Stochastic Game, where shared rewards and partial observability drive the emergence of coordinated strategies.
ARCHETTI, ALBERTO
ING - Scuola di Ingegneria Industriale e dell'Informazione
10-dic-2025
2024/2025
I protocolli di comunicazione tradizionali risultano spesso fragili in ambienti dinamici e rumorosi. Al contrario, i sistemi biologici hanno evoluto strategie di comunicazione adattive, capaci di mantenere robustezza anche in condizioni di incertezza. Questa tesi trae ispirazione da tali meccanismi per studiare l’emergenza della comunicazione all’interno di sistemi di cooperative Multi-Agent Reinforcement Learning, in cui gli agenti sviluppano autonomamente protocolli attraverso l’interazione. È stato progettato un framework bio-inspired in cui gli agenti, modellati come batteri, si scambiano messaggi discreti, rappresentanti emissioni di molecole e sostanze, che si diffondono stocasticamente nello spazio. La comunicazione è vincolata da un'attenuazione dipendente dalla distanza e una degradazione probabilistica. Gli agenti apprendono tramite Multi-Agent Proximal Policy Optimization con centralized critic e parametri della policy condivisi tra relays omogenei, migliorando la stabilità e l’efficienza di addestramento. Il sistema è formalizzato come un cooperative Partially Observable Stochastic Game, in cui rewards condivisi e partial observability guidano l’emergenza di strategie coordinate.
File allegati
File Dimensione Formato  
2025_12_Giusti_Executive_Summary.pdf

non accessibile

Descrizione: testo executive summary
Dimensione 865.29 kB
Formato Adobe PDF
865.29 kB Adobe PDF   Visualizza/Apri
2025_12_Giusti_Tesi.pdf

accessibile in internet per tutti

Descrizione: testo tesi di laurea
Dimensione 5.47 MB
Formato Adobe PDF
5.47 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/247417