Modern distributed systems face growing security threats, as attackers continuously enhance their skills and vulnerabilities span across the entire system stack, from hardware to the application layer. In the system design phase, fault tolerance techniques can be employed to safeguard systems. From a theoretical perspective, an attacker attempting to compromise a system can be abstracted by considering the presence of Byzantine processes in the system. Although this approach enhances the resilience of the distributed system, it introduces certain limitations regarding the accuracy of the model in reflecting real-world scenarios. In this paper, we consider a self-protecting distributed system based on the \emph{Monitoring-Analyse-Plan-Execute over a shared Knowledge} (MAPE-K) architecture, and we propose a new probabilistic Mobile Byzantine Failure (MBF) that can be plugged into the Analysis component. Our new model captures the dynamics of evolving attacks and can be used to drive the self-protection and reconfiguration strategy. We analyze mathematically the time that it takes until the number of Byzantine nodes crosses given thresholds, or for the system to self-recover back into a safe state, depending on the rates of Byzantine infection spreading \emph{vs.} the rate of self-recovery. We also provide simulation results that illustrate the behavior of the system under such assumptions.
- ID Articolo: 2511.04523
- Titolo: A New Probabilistic Mobile Byzantine Failure Model for Self-Protecting Systems
- Autori: Silvia Bonomi (Università Sapienza), Giovanni Farina (Università Niccoló Cusano), Roy Friedman (Technion), Eviatar B. Procaccia (Technion), Sebastien Tixeuil (Università Sorbonne)
- Classificazione: cs.DC (Distributed, Parallel, and Cluster Computing)
- Data di Pubblicazione: 6 novembre 2025 (preprint arXiv)
- Link Articolo: https://arxiv.org/abs/2511.04523
I sistemi distribuiti moderni affrontano minacce di sicurezza crescenti, con attaccanti che migliorano continuamente le loro capacità e vulnerabilità diffuse in tutto lo stack del sistema, dal livello hardware a quello applicativo. Durante la fase di progettazione del sistema, le tecniche di tolleranza ai guasti possono essere utilizzate per proteggere il sistema. Da una prospettiva teorica, gli attaccanti che tentano di compromettere il sistema possono essere astratti considerando l'esistenza di processi bizantini nel sistema. Sebbene questo approccio aumenti la resilienza dei sistemi distribuiti, introduce alcune limitazioni nel riflettere scenari reali. Questo articolo considera sistemi distribuiti auto-protettivi basati sull'architettura MAPE-K (Monitoraggio-Analisi-Pianificazione-Esecuzione Conoscenza Condivisa) e propone un nuovo modello probabilistico di guasto bizantino mobile (MBF), integrabile nel componente di analisi. Il nuovo modello cattura le caratteristiche dinamiche degli attacchi in evoluzione e può essere utilizzato per guidare strategie di auto-protezione e riconfigurazione.
Il problema centrale affrontato da questa ricerca è: come fornire modelli di guasto più accurati e meccanismi di protezione adattivi per sistemi distribuiti in ambienti di minaccia dinamica.
- Escalation delle Minacce di Sicurezza: I sistemi distribuiti moderni affrontano attacchi in continua evoluzione; i modelli di guasto statici tradizionali non riescono a riflettere accuratamente le minacce reali
- Aumento della Complessità del Sistema: La scala e la complessità delle applicazioni distribuite crescono continuamente, richiedendo meccanismi di protezione automatizzati
- Requisiti di Disponibilità: I sistemi devono mantenere un'elevata disponibilità garantendo la sicurezza, evitando riavvii non necessari dell'intero sistema
- Modelli di Guasto Bizantino Tradizionali: Presuppongono un numero fisso di nodi guasti, incapaci di riflettere le caratteristiche di propagazione dinamica degli attacchi
- Soglie Statiche: I modelli esistenti utilizzano soglie di tolleranza ai guasti fisse, mancando di adattabilità
- Mancanza di Capacità Predittiva: Impossibilità di prevedere quando il sistema raggiungerà uno stato pericoloso o quando potrà auto-recuperarsi
Sviluppare un modello in grado di:
- Catturare le caratteristiche di propagazione dinamica degli attacchi e il recupero del sistema
- Prevedere le caratteristiche temporali dei cambiamenti dello stato di sicurezza del sistema
- Supportare il framework adattivo per il processo decisionale intelligente (recupero locale vs riavvio dell'intero sistema)
- Propone un nuovo modello probabilistico di guasto bizantino mobile: Cattura le caratteristiche dinamiche della propagazione degli attacchi e del recupero del sistema
- Progetta un'architettura auto-protettiva basata su MAPE-K: Integra il modello probabilistico nel framework di sistema adattivo
- Fornisce un framework di analisi matematica: Analizza le caratteristiche temporali della transizione di stato del sistema basandosi su catene di Markov
- Stabilisce tre modelli di attacco: Modelli External, Internal e Coordinated, coprendo diversi scenari di attacco e recupero
- Fornisce algoritmi predittivi: Capaci di prevedere il tempo per raggiungere la soglia pericolosa o il recupero allo stato sicuro
- Valida i risultati della simulazione: Verifica la correttezza dell'analisi teorica attraverso simulazioni su larga scala
Input:
- Snapshot della configurazione del sistema (stato attuale di n processi)
- Soglia di resilienza del protocollo f (numero di nodi bizantini tollerabili)
- Probabilità/velocità di attacco q e probabilità/velocità di recupero p
Output:
- Tempo previsto per mantenere lo stato sicuro Δsafe
- Tempo previsto per il recupero allo stato sicuro
- Decisione di riconfigurazione (recupero locale vs riavvio dell'intero sistema)
Vincoli:
- Ipotesi di sistema sincrono (esiste un limite temporale)
- Canali di comunicazione punto-a-punto affidabili
- Nodi dotati di memoria resistente alle manomissioni e ambiente di esecuzione affidabile (TEE)
Il sistema adotta l'architettura classica di sistema adattivo:
- Monitor (Monitoraggio): Raccoglie informazioni sullo stato del sistema distribuito
- Analyze (Analisi): Valuta lo stato di sicurezza utilizzando il modello probabilistico MBF
- Plan (Pianificazione): Decide quando attivare la riconfigurazione del sistema
- Execute (Esecuzione): Implementa strategie di riconfigurazione
- Knowledge (Conoscenza): Mantiene lo stato del sistema e gli obiettivi di adattamento
Catena di Markov a Tempo Discreto (DTMC):
- Spazio degli stati: S = {0, 1, ..., n}, rappresenta il numero di nodi bizantini
- Probabilità di transizione:
- qi: probabilità di transizione dallo stato i a i+1 (nuova infezione)
- pi: probabilità di transizione dallo stato i a i-1 (recupero)
- ri: probabilità di rimanere nello stato i (nessun cambiamento)
Catena di Markov a Tempo Continuo (CTMC):
Fornisce tre sottomodelli:
- Modello External:
- qi = q (velocità di attacco esterno costante)
- pi = p (velocità di recupero costante)
- Modello Internal:
- qi = q × i × (n-i)/n (propagazione interna dei nodi bizantini)
- pi = p × i (recupero indipendente)
- Modello Coordinated:
- qi = q × i (attacco coordinato, evita reinfezioni)
- pi = p × i (recupero indipendente)
A differenza dei modelli tradizionali con numero di guasti fisso, questo modello considera:
- Propagazione probabilistica dei guasti
- Evoluzione dello stato correlata al tempo
- Processo competitivo tra attacco e recupero
Attraverso l'analisi della catena di Markov fornisce:
- Tempo previsto per raggiungere la soglia pericolosa
- Tempo previsto per l'auto-recupero
- Comportamento a lungo termine della distribuzione dello stato
Basato sui risultati predittivi, sceglie intelligentemente:
- Attendere il recupero naturale (quando velocità di recupero p > velocità di attacco q)
- Attivare il riavvio dell'intero sistema (quando l'attacco è dominante)
- Scala del Sistema: n = 200 nodi
- Soglia di Sicurezza: f = n/3 ≈ 66 nodi
- Passi di Simulazione: 1M passi per DTMC, 100K unità di tempo per CTMC
- Intervallo di Parametri: p, q ∈ 0, 1
- Numero di Ripetizioni: Media di 100 esecuzioni per ogni punto dati
- Percentuale di Esecuzione in Stato Puro Buono: Proporzione di esecuzioni in cui il sistema rimane continuamente in stato sicuro
- Percentuale di Inversione di Stato: Proporzione di esecuzioni che passano da stato buono a cattivo (o viceversa)
- Tempo di Prima Inversione: Tempo medio per il primo attraversamento della soglia di sicurezza del sistema
- Distribuzione dello Stato: Proporzione di tempo che il sistema trascorre in ogni stato
- DTMC vs CTMC: Verifica della coerenza del modello a tempo continuo
- Tre Modelli CTMC: Differenze comportamentali tra External, Internal e Coordinated
- Diversi Rapporti p/q: Analisi dell'impatto del rapporto tra velocità di recupero e attacco sul comportamento del sistema
Teorema 1 (q = p = 1/2): Il tempo previsto per raggiungere lo stato cn è E0τcn = (cn)²
Teorema 2 (p > 1/2): Quando la velocità di recupero è maggiore della velocità di attacco, il tempo per raggiungere la soglia di guasto richiede tempo esponenziale:
E0τcn ≥ (1/2)(p/q)^(n/3)
Teorema 3 (p < 1/2): Quando la velocità di attacco è dominante, il tempo per raggiungere la soglia è:
E0τcn ≥ n/(1-2p) × (1-p/q)^(-1)
Modello External:
- Quando p > q, il sistema rimane principalmente in stati a bassa infezione
- Quando p = q, la distribuzione dello stato è approssimativamente uniforme
- Quando p < q, il sistema tende verso stati ad alta infezione
Modello Internal:
- Anche quando q > p, il sistema può stabilizzarsi in uno stato intermedio
- La densità di occupazione massima si verifica nello stato i che soddisfa p = ((n-i)/n)q
- Ad esempio: con p=0.4, q=0.6, il sistema si stabilizza a i=66 (vicino alla soglia di 1/3)
Modello Coordinated:
- Il comportamento è simile al modello External ma con velocità di transizione dipendenti dallo stato
- Quando p > q converge rapidamente allo stato sicuro
- Quando q > p evolve rapidamente verso lo stato pericoloso
Quando r > 0 (esiste probabilità di mantenimento dello stato):
- Tutte le previsioni temporali vengono moltiplicate per il fattore 1/(1-r)
- Riflette le caratteristiche di "inerzia" del sistema
- Non modifica le tendenze comportamentali a lungo termine
- Quando la soglia cambia da 1/4 a 1/3, il tempo per raggiungere aumenta significativamente
- Il tempo di recupero è proporzionale al numero di nodi in stato cattivo
- Verifica l'accuratezza dell'analisi teorica
- Fenomeno di Transizione di Fase: Esiste una chiara transizione comportamentale vicino a p = q
- Comportamento Controintuitivo del Modello Internal: Anche quando la velocità di attacco individuale è superiore alla velocità di recupero, il sistema può mantenere la maggior parte dei nodi normali
- Protezione a Tempo Esponenziale: Quando p > q, il sistema ha garanzie di sicurezza di livello esponenziale
- Attacco a Tempo Logaritmico: Quando l'attacco è dominante, il sistema viene compromesso in tempo logaritmico
- Yuan et al.: Architettura auto-protettiva per minacce di rete software
- English et al.: Azioni di mitigazione basate su correlazione di eventi
- Liang et al.: Framework auto-protettivo per sistemi di potenza basato su blockchain
- Modello di Mobilità Vincolata (Buhrman et al.): Gli agenti possono muoversi solo con i messaggi
- Modello di Mobilità Non Vincolata (Ostrovsky-Yung et al.): Gli agenti possono muoversi in tempi specifici
- Differenze nelle Capacità di Rilevamento: Da nessun rilevamento a rilevamento completo
- Sousa et al.: Modello di aggiornamento del sistema basato su ipotesi del caso peggiore
- Castro-Liskov: Tolleranza Bizantina Pratica e Recupero Attivo
- Tecniche di Diversità: Garantire l'indipendenza dei guasti attraverso ridondanza e diversità
- Efficacia del Modello Probabilistico MBF: Cattura accuratamente il comportamento del sistema in ambienti di attacco dinamico
- Valore della Capacità Predittiva: Fornisce basi scientifiche per il processo decisionale nei sistemi adattivi
- Complementarità dei Tre Modelli: Diversi scenari di attacco richiedono diversi approcci di modellazione
- Applicabilità dell'Analisi di Markov: Fornisce uno strumento matematico potente per l'analisi della sicurezza nei sistemi distribuiti
- Ipotesi di Indipendenza: Presuppone che i guasti dei nodi siano mutuamente indipendenti, mentre nella realtà potrebbe esistere correlazione
- Stima dei Parametri: La stima accurata di p e q potrebbe essere difficile nel deployment reale
- Ipotesi di Sincronismo: Richiede che il sistema soddisfi le condizioni di sincronismo
- Semplificazione del Modello di Attacco: Gli attacchi reali potrebbero essere più complessi di quanto presupposto dal modello
- Analisi Specifica del Protocollo: Studiare l'impatto del modello MBF su specifici protocolli BFT
- Integrazione della Diversità: Integrare tecniche di diversità dei nodi nel modello probabilistico
- Ottimizzazione dei Costi: Considerare i compromessi tra variabili di costo multiple nella pianificazione della configurazione
- Validazione nel Deployment Reale: Verificare l'accuratezza del modello in sistemi reali
- Contributo Teorico Significativo: Prima combinazione di propagazione di attacchi probabilistica e analisi di Markov, fornendo nuove prospettive per la modellazione di minacce dinamiche
- Analisi Matematica Rigorosa: Fornisce un framework teorico completo e prove matematiche rigorose
- Forte Praticità: L'architettura MAPE-K è facilmente integrabile nei sistemi esistenti
- Verifica di Simulazione Completa: Simulazioni su larga scala verificano la correttezza dell'analisi teorica
- Flessibilità del Modello: I tre modelli CTMC coprono diversi scenari di attacco
- Sensibilità ai Parametri: Le prestazioni del modello dipendono fortemente dalla stima accurata di p e q, ma l'articolo non affronta sufficientemente i metodi di stima dei parametri
- Ipotesi di Realismo: Le ipotesi di indipendenza e sincronismo potrebbero non valere nei sistemi reali
- Limitazioni del Modello di Attacco: Non considera strategie di attacco più complesse (come attacchi adattivi)
- Mancanza di Validazione Reale: Solo risultati di simulazione, mancano esperimenti su sistemi reali
- Valore Accademico: Fornisce nuove direzioni di ricerca per la sicurezza dei sistemi distribuiti e i sistemi adattivi
- Prospettive Pratiche: Fornisce supporto teorico per la progettazione della sicurezza di sistemi distribuiti su larga scala come il cloud computing e l'IoT
- Contributo Metodologico: L'applicazione delle catene di Markov nella modellazione della sicurezza di rete ha ampio valore di riferimento
- Sistemi Distribuiti su Larga Scala: Piattaforme di cloud computing, sistemi di database distribuiti
- Infrastrutture Critiche: Reti elettriche, sistemi di controllo del traffico
- Reti Blockchain: Sistemi di consenso che richiedono tolleranza bizantina
- Sistemi IoT: Reti di dispositivi intelligenti con capacità di auto-guarigione
L'articolo cita 40 riferimenti correlati, coprendo:
- Progettazione di sistemi auto-protettivi (Yuan et al., English et al.)
- Teoria dei guasti bizantini mobili (Garay, Ostrovsky-Yung et al.)
- Tecniche di recupero del sistema (Castro-Liskov, Sousa et al.)
- Fondamenti di teoria della probabilità (Durrett, Bertsekas-Tsitsiklis)
Valutazione Complessiva: Questo è un articolo di ricerca di alta qualità che fornisce contributi importanti nella modellazione della sicurezza dei sistemi distribuiti. Sebbene la validazione dell'applicazione pratica richieda ulteriori sviluppi, il suo framework teorico e i metodi di analisi hanno significativo valore accademico e potenziale pratico.