2025-11-11T08:58:08.673655

A New Probabilistic Mobile Byzantine Failure Model for Self-Protecting Systems

Bonomi, Farina, Friedman et al.

Modern distributed systems face growing security threats, as attackers continuously enhance their skills and vulnerabilities span across the entire system stack, from hardware to the application layer. In the system design phase, fault tolerance techniques can be employed to safeguard systems. From a theoretical perspective, an attacker attempting to compromise a system can be abstracted by considering the presence of Byzantine processes in the system. Although this approach enhances the resilience of the distributed system, it introduces certain limitations regarding the accuracy of the model in reflecting real-world scenarios. In this paper, we consider a self-protecting distributed system based on the \emph{Monitoring-Analyse-Plan-Execute over a shared Knowledge} (MAPE-K) architecture, and we propose a new probabilistic Mobile Byzantine Failure (MBF) that can be plugged into the Analysis component. Our new model captures the dynamics of evolving attacks and can be used to drive the self-protection and reconfiguration strategy. We analyze mathematically the time that it takes until the number of Byzantine nodes crosses given thresholds, or for the system to self-recover back into a safe state, depending on the rates of Byzantine infection spreading \emph{vs.} the rate of self-recovery. We also provide simulation results that illustrate the behavior of the system under such assumptions.

academic

Un Nuovo Modello Probabilistico di Guasto Bizantino Mobile per Sistemi Auto-Protettivi

Informazioni Fondamentali

ID Articolo: 2511.04523
Titolo: A New Probabilistic Mobile Byzantine Failure Model for Self-Protecting Systems
Autori: Silvia Bonomi (Università Sapienza), Giovanni Farina (Università Niccoló Cusano), Roy Friedman (Technion), Eviatar B. Procaccia (Technion), Sebastien Tixeuil (Università Sorbonne)
Classificazione: cs.DC (Distributed, Parallel, and Cluster Computing)
Data di Pubblicazione: 6 novembre 2025 (preprint arXiv)
Link Articolo: https://arxiv.org/abs/2511.04523

Riassunto

I sistemi distribuiti moderni affrontano minacce di sicurezza crescenti, con attaccanti che migliorano continuamente le loro capacità e vulnerabilità diffuse in tutto lo stack del sistema, dal livello hardware a quello applicativo. Durante la fase di progettazione del sistema, le tecniche di tolleranza ai guasti possono essere utilizzate per proteggere il sistema. Da una prospettiva teorica, gli attaccanti che tentano di compromettere il sistema possono essere astratti considerando l'esistenza di processi bizantini nel sistema. Sebbene questo approccio aumenti la resilienza dei sistemi distribuiti, introduce alcune limitazioni nel riflettere scenari reali. Questo articolo considera sistemi distribuiti auto-protettivi basati sull'architettura MAPE-K (Monitoraggio-Analisi-Pianificazione-Esecuzione Conoscenza Condivisa) e propone un nuovo modello probabilistico di guasto bizantino mobile (MBF), integrabile nel componente di analisi. Il nuovo modello cattura le caratteristiche dinamiche degli attacchi in evoluzione e può essere utilizzato per guidare strategie di auto-protezione e riconfigurazione.

Contesto di Ricerca e Motivazione

Problema Centrale

Il problema centrale affrontato da questa ricerca è: come fornire modelli di guasto più accurati e meccanismi di protezione adattivi per sistemi distribuiti in ambienti di minaccia dinamica.

Importanza del Problema

Escalation delle Minacce di Sicurezza: I sistemi distribuiti moderni affrontano attacchi in continua evoluzione; i modelli di guasto statici tradizionali non riescono a riflettere accuratamente le minacce reali
Aumento della Complessità del Sistema: La scala e la complessità delle applicazioni distribuite crescono continuamente, richiedendo meccanismi di protezione automatizzati
Requisiti di Disponibilità: I sistemi devono mantenere un'elevata disponibilità garantendo la sicurezza, evitando riavvii non necessari dell'intero sistema

Limitazioni degli Approcci Esistenti

Modelli di Guasto Bizantino Tradizionali: Presuppongono un numero fisso di nodi guasti, incapaci di riflettere le caratteristiche di propagazione dinamica degli attacchi
Soglie Statiche: I modelli esistenti utilizzano soglie di tolleranza ai guasti fisse, mancando di adattabilità
Mancanza di Capacità Predittiva: Impossibilità di prevedere quando il sistema raggiungerà uno stato pericoloso o quando potrà auto-recuperarsi

Motivazione della Ricerca

Sviluppare un modello in grado di:

Catturare le caratteristiche di propagazione dinamica degli attacchi e il recupero del sistema
Prevedere le caratteristiche temporali dei cambiamenti dello stato di sicurezza del sistema
Supportare il framework adattivo per il processo decisionale intelligente (recupero locale vs riavvio dell'intero sistema)

Contributi Fondamentali

Propone un nuovo modello probabilistico di guasto bizantino mobile: Cattura le caratteristiche dinamiche della propagazione degli attacchi e del recupero del sistema
Progetta un'architettura auto-protettiva basata su MAPE-K: Integra il modello probabilistico nel framework di sistema adattivo
Fornisce un framework di analisi matematica: Analizza le caratteristiche temporali della transizione di stato del sistema basandosi su catene di Markov
Stabilisce tre modelli di attacco: Modelli External, Internal e Coordinated, coprendo diversi scenari di attacco e recupero
Fornisce algoritmi predittivi: Capaci di prevedere il tempo per raggiungere la soglia pericolosa o il recupero allo stato sicuro
Valida i risultati della simulazione: Verifica la correttezza dell'analisi teorica attraverso simulazioni su larga scala

Dettagli del Metodo

Definizione del Compito

Input:

Snapshot della configurazione del sistema (stato attuale di n processi)
Soglia di resilienza del protocollo f (numero di nodi bizantini tollerabili)
Probabilità/velocità di attacco q e probabilità/velocità di recupero p

Output:

Tempo previsto per mantenere lo stato sicuro Δsafe
Tempo previsto per il recupero allo stato sicuro
Decisione di riconfigurazione (recupero locale vs riavvio dell'intero sistema)

Vincoli:

Ipotesi di sistema sincrono (esiste un limite temporale)
Canali di comunicazione punto-a-punto affidabili
Nodi dotati di memoria resistente alle manomissioni e ambiente di esecuzione affidabile (TEE)

Architettura del Modello

1. Architettura MAPE-K

Il sistema adotta l'architettura classica di sistema adattivo:

Monitor (Monitoraggio): Raccoglie informazioni sullo stato del sistema distribuito
Analyze (Analisi): Valuta lo stato di sicurezza utilizzando il modello probabilistico MBF
Plan (Pianificazione): Decide quando attivare la riconfigurazione del sistema
Execute (Esecuzione): Implementa strategie di riconfigurazione
Knowledge (Conoscenza): Mantiene lo stato del sistema e gli obiettivi di adattamento

2. Modello Probabilistico MBF

Catena di Markov a Tempo Discreto (DTMC):

Spazio degli stati: S = {0, 1, ..., n}, rappresenta il numero di nodi bizantini
Probabilità di transizione:
- qi: probabilità di transizione dallo stato i a i+1 (nuova infezione)
- pi: probabilità di transizione dallo stato i a i-1 (recupero)
- ri: probabilità di rimanere nello stato i (nessun cambiamento)

Catena di Markov a Tempo Continuo (CTMC): Fornisce tre sottomodelli:

Modello External:
- qi = q (velocità di attacco esterno costante)
- pi = p (velocità di recupero costante)
Modello Internal:
- qi = q × i × (n-i)/n (propagazione interna dei nodi bizantini)
- pi = p × i (recupero indipendente)
Modello Coordinated:
- qi = q × i (attacco coordinato, evita reinfezioni)
- pi = p × i (recupero indipendente)

Punti di Innovazione Tecnica

1. Modellazione Dinamica dei Guasti

A differenza dei modelli tradizionali con numero di guasti fisso, questo modello considera:

Propagazione probabilistica dei guasti
Evoluzione dello stato correlata al tempo
Processo competitivo tra attacco e recupero

2. Analisi Predittiva

Attraverso l'analisi della catena di Markov fornisce:

Tempo previsto per raggiungere la soglia pericolosa
Tempo previsto per l'auto-recupero
Comportamento a lungo termine della distribuzione dello stato

3. Meccanismo di Decisione Adattivo

Basato sui risultati predittivi, sceglie intelligentemente:

Attendere il recupero naturale (quando velocità di recupero p > velocità di attacco q)
Attivare il riavvio dell'intero sistema (quando l'attacco è dominante)

Configurazione Sperimentale

Parametri di Simulazione

Scala del Sistema: n = 200 nodi
Soglia di Sicurezza: f = n/3 ≈ 66 nodi
Passi di Simulazione: 1M passi per DTMC, 100K unità di tempo per CTMC
Intervallo di Parametri: p, q ∈ 0, 1
Numero di Ripetizioni: Media di 100 esecuzioni per ogni punto dati

Metriche di Valutazione

Percentuale di Esecuzione in Stato Puro Buono: Proporzione di esecuzioni in cui il sistema rimane continuamente in stato sicuro
Percentuale di Inversione di Stato: Proporzione di esecuzioni che passano da stato buono a cattivo (o viceversa)
Tempo di Prima Inversione: Tempo medio per il primo attraversamento della soglia di sicurezza del sistema
Distribuzione dello Stato: Proporzione di tempo che il sistema trascorre in ogni stato

Analisi Comparativa

DTMC vs CTMC: Verifica della coerenza del modello a tempo continuo
Tre Modelli CTMC: Differenze comportamentali tra External, Internal e Coordinated
Diversi Rapporti p/q: Analisi dell'impatto del rapporto tra velocità di recupero e attacco sul comportamento del sistema

Risultati Sperimentali

Risultati Principali

1. Verifica del Modello DTMC

Teorema 1 (q = p = 1/2): Il tempo previsto per raggiungere lo stato cn è E0τcn = (cn)²

Teorema 2 (p > 1/2): Quando la velocità di recupero è maggiore della velocità di attacco, il tempo per raggiungere la soglia di guasto richiede tempo esponenziale: E0τcn ≥ (1/2)(p/q)^(n/3)

Teorema 3 (p < 1/2): Quando la velocità di attacco è dominante, il tempo per raggiungere la soglia è: E0τcn ≥ n/(1-2p) × (1-p/q)^(-1)

2. Risultati della Simulazione CTMC

Modello External:

Quando p > q, il sistema rimane principalmente in stati a bassa infezione
Quando p = q, la distribuzione dello stato è approssimativamente uniforme
Quando p < q, il sistema tende verso stati ad alta infezione

Modello Internal:

Anche quando q > p, il sistema può stabilizzarsi in uno stato intermedio
La densità di occupazione massima si verifica nello stato i che soddisfa p = ((n-i)/n)q
Ad esempio: con p=0.4, q=0.6, il sistema si stabilizza a i=66 (vicino alla soglia di 1/3)

Modello Coordinated:

Il comportamento è simile al modello External ma con velocità di transizione dipendenti dallo stato
Quando p > q converge rapidamente allo stato sicuro
Quando q > p evolve rapidamente verso lo stato pericoloso

Esperimenti di Ablazione

Impatto del Parametro di Stabilità r

Quando r > 0 (esiste probabilità di mantenimento dello stato):

Tutte le previsioni temporali vengono moltiplicate per il fattore 1/(1-r)
Riflette le caratteristiche di "inerzia" del sistema
Non modifica le tendenze comportamentali a lungo termine

Analisi di Sensibilità della Soglia

Quando la soglia cambia da 1/4 a 1/3, il tempo per raggiungere aumenta significativamente
Il tempo di recupero è proporzionale al numero di nodi in stato cattivo
Verifica l'accuratezza dell'analisi teorica

Scoperte Sperimentali

Fenomeno di Transizione di Fase: Esiste una chiara transizione comportamentale vicino a p = q
Comportamento Controintuitivo del Modello Internal: Anche quando la velocità di attacco individuale è superiore alla velocità di recupero, il sistema può mantenere la maggior parte dei nodi normali
Protezione a Tempo Esponenziale: Quando p > q, il sistema ha garanzie di sicurezza di livello esponenziale
Attacco a Tempo Logaritmico: Quando l'attacco è dominante, il sistema viene compromesso in tempo logaritmico

Lavori Correlati

Ricerca su Sistemi Auto-Protettivi

Yuan et al.: Architettura auto-protettiva per minacce di rete software
English et al.: Azioni di mitigazione basate su correlazione di eventi
Liang et al.: Framework auto-protettivo per sistemi di potenza basato su blockchain

Modelli di Guasto Bizantino Mobile

Modello di Mobilità Vincolata (Buhrman et al.): Gli agenti possono muoversi solo con i messaggi
Modello di Mobilità Non Vincolata (Ostrovsky-Yung et al.): Gli agenti possono muoversi in tempi specifici
Differenze nelle Capacità di Rilevamento: Da nessun rilevamento a rilevamento completo

Tecniche di Recupero del Sistema

Sousa et al.: Modello di aggiornamento del sistema basato su ipotesi del caso peggiore
Castro-Liskov: Tolleranza Bizantina Pratica e Recupero Attivo
Tecniche di Diversità: Garantire l'indipendenza dei guasti attraverso ridondanza e diversità

Conclusioni e Discussione

Conclusioni Principali

Efficacia del Modello Probabilistico MBF: Cattura accuratamente il comportamento del sistema in ambienti di attacco dinamico
Valore della Capacità Predittiva: Fornisce basi scientifiche per il processo decisionale nei sistemi adattivi
Complementarità dei Tre Modelli: Diversi scenari di attacco richiedono diversi approcci di modellazione
Applicabilità dell'Analisi di Markov: Fornisce uno strumento matematico potente per l'analisi della sicurezza nei sistemi distribuiti

Limitazioni

Ipotesi di Indipendenza: Presuppone che i guasti dei nodi siano mutuamente indipendenti, mentre nella realtà potrebbe esistere correlazione
Stima dei Parametri: La stima accurata di p e q potrebbe essere difficile nel deployment reale
Ipotesi di Sincronismo: Richiede che il sistema soddisfi le condizioni di sincronismo
Semplificazione del Modello di Attacco: Gli attacchi reali potrebbero essere più complessi di quanto presupposto dal modello

Direzioni Future

Analisi Specifica del Protocollo: Studiare l'impatto del modello MBF su specifici protocolli BFT
Integrazione della Diversità: Integrare tecniche di diversità dei nodi nel modello probabilistico
Ottimizzazione dei Costi: Considerare i compromessi tra variabili di costo multiple nella pianificazione della configurazione
Validazione nel Deployment Reale: Verificare l'accuratezza del modello in sistemi reali

Valutazione Approfondita

Punti di Forza

Contributo Teorico Significativo: Prima combinazione di propagazione di attacchi probabilistica e analisi di Markov, fornendo nuove prospettive per la modellazione di minacce dinamiche
Analisi Matematica Rigorosa: Fornisce un framework teorico completo e prove matematiche rigorose
Forte Praticità: L'architettura MAPE-K è facilmente integrabile nei sistemi esistenti
Verifica di Simulazione Completa: Simulazioni su larga scala verificano la correttezza dell'analisi teorica
Flessibilità del Modello: I tre modelli CTMC coprono diversi scenari di attacco

Insufficienze

Sensibilità ai Parametri: Le prestazioni del modello dipendono fortemente dalla stima accurata di p e q, ma l'articolo non affronta sufficientemente i metodi di stima dei parametri
Ipotesi di Realismo: Le ipotesi di indipendenza e sincronismo potrebbero non valere nei sistemi reali
Limitazioni del Modello di Attacco: Non considera strategie di attacco più complesse (come attacchi adattivi)
Mancanza di Validazione Reale: Solo risultati di simulazione, mancano esperimenti su sistemi reali

Impatto

Valore Accademico: Fornisce nuove direzioni di ricerca per la sicurezza dei sistemi distribuiti e i sistemi adattivi
Prospettive Pratiche: Fornisce supporto teorico per la progettazione della sicurezza di sistemi distribuiti su larga scala come il cloud computing e l'IoT
Contributo Metodologico: L'applicazione delle catene di Markov nella modellazione della sicurezza di rete ha ampio valore di riferimento

Scenari Applicabili

Sistemi Distribuiti su Larga Scala: Piattaforme di cloud computing, sistemi di database distribuiti
Infrastrutture Critiche: Reti elettriche, sistemi di controllo del traffico
Reti Blockchain: Sistemi di consenso che richiedono tolleranza bizantina
Sistemi IoT: Reti di dispositivi intelligenti con capacità di auto-guarigione

Bibliografia

L'articolo cita 40 riferimenti correlati, coprendo:

Progettazione di sistemi auto-protettivi (Yuan et al., English et al.)
Teoria dei guasti bizantini mobili (Garay, Ostrovsky-Yung et al.)
Tecniche di recupero del sistema (Castro-Liskov, Sousa et al.)
Fondamenti di teoria della probabilità (Durrett, Bertsekas-Tsitsiklis)

Valutazione Complessiva: Questo è un articolo di ricerca di alta qualità che fornisce contributi importanti nella modellazione della sicurezza dei sistemi distribuiti. Sebbene la validazione dell'applicazione pratica richieda ulteriori sviluppi, il suo framework teorico e i metodi di analisi hanno significativo valore accademico e potenziale pratico.