Modern distributed systems face growing security threats, as attackers continuously enhance their skills and vulnerabilities span across the entire system stack, from hardware to the application layer. In the system design phase, fault tolerance techniques can be employed to safeguard systems. From a theoretical perspective, an attacker attempting to compromise a system can be abstracted by considering the presence of Byzantine processes in the system. Although this approach enhances the resilience of the distributed system, it introduces certain limitations regarding the accuracy of the model in reflecting real-world scenarios. In this paper, we consider a self-protecting distributed system based on the \emph{Monitoring-Analyse-Plan-Execute over a shared Knowledge} (MAPE-K) architecture, and we propose a new probabilistic Mobile Byzantine Failure (MBF) that can be plugged into the Analysis component. Our new model captures the dynamics of evolving attacks and can be used to drive the self-protection and reconfiguration strategy. We analyze mathematically the time that it takes until the number of Byzantine nodes crosses given thresholds, or for the system to self-recover back into a safe state, depending on the rates of Byzantine infection spreading \emph{vs.} the rate of self-recovery. We also provide simulation results that illustrate the behavior of the system under such assumptions.
- ID de l'article : 2511.04523
- Titre : A New Probabilistic Mobile Byzantine Failure Model for Self-Protecting Systems
- Auteurs : Silvia Bonomi (Université Sapienza), Giovanni Farina (Université Niccoló Cusano), Roy Friedman (Technion), Eviatar B. Procaccia (Technion), Sebastien Tixeuil (Université Sorbonne)
- Classification : cs.DC (Informatique Distribuée, Parallèle et en Grappe)
- Date de publication : 6 novembre 2025 (prépublication arXiv)
- Lien de l'article : https://arxiv.org/abs/2511.04523
Les systèmes distribués modernes font face à des menaces de sécurité croissantes, les attaquants améliorant continuellement leurs compétences et les vulnérabilités se propageant dans toute la pile système, du matériel à la couche application. Au stade de la conception du système, les techniques de tolérance aux pannes peuvent être utilisées pour protéger le système. D'un point de vue théorique, les attaquants tentant de compromettre le système peuvent être abstraits en considérant l'existence de processus byzantins dans le système. Bien que cette approche renforce la résilience des systèmes distribués, elle introduit certaines limitations dans la réflexion des scénarios réels. Cet article considère les systèmes distribués auto-protégeants basés sur l'architecture MAPE-K (Surveillance-Analyse-Planification-Exécution Connaissance Partagée) et propose un nouveau modèle probabiliste de défaillance byzantine mobile (MBF) pouvant être intégré au composant d'analyse. Le nouveau modèle capture les caractéristiques dynamiques des attaques évolutives et peut être utilisé pour piloter les stratégies d'auto-protection et de reconfiguration.
Le problème central que cette recherche vise à résoudre est : comment fournir un modèle de défaillance plus précis et des mécanismes de protection adaptatifs pour les systèmes distribués dans un environnement de menaces dynamiques.
- Escalade des menaces de sécurité : Les systèmes distribués modernes font face à des attaques en constante évolution, les modèles de défaillance statiques traditionnels ne pouvant pas refléter avec précision les menaces réelles
- Augmentation de la complexité du système : L'échelle et la complexité des applications distribuées augmentent continuellement, nécessitant des mécanismes de protection automatisés
- Exigences de disponibilité : Les systèmes doivent maintenir une haute disponibilité tout en garantissant la sécurité, évitant les redémarrages inutiles de l'ensemble du système
- Modèles de défaillance byzantine traditionnels : Supposent un nombre fixe de nœuds défaillants, incapables de refléter les caractéristiques de propagation dynamique des attaques
- Seuils statiques : Les modèles existants utilisent des seuils de tolérance aux défaillances fixes, manquant d'adaptabilité
- Manque de capacité prédictive : Incapables de prédire quand le système atteindra un état dangereux ou quand il pourra se rétablir
Développer un modèle capable de :
- Capturer les caractéristiques de propagation dynamique des attaques dans un modèle probabiliste
- Prédire les caractéristiques temporelles des changements d'état de sécurité du système
- Soutenir un cadre adaptatif pour la prise de décision intelligente (récupération locale vs redémarrage du système complet)
- Proposition d'un nouveau modèle probabiliste de défaillance byzantine mobile : Capable de capturer les caractéristiques dynamiques de la propagation des attaques et de la récupération du système
- Conception d'une architecture auto-protégeante basée sur MAPE-K : Intégrant le modèle probabiliste dans un cadre de système adaptatif
- Fourniture d'un cadre d'analyse mathématique : Basé sur l'analyse des chaînes de Markov pour les caractéristiques temporelles des transitions d'état du système
- Établissement de trois modèles d'attaque : Modèles Externe, Interne et Coordonné, couvrant différents scénarios d'attaque et de récupération
- Fourniture d'algorithmes prédictifs : Capable de prédire le temps pour que le système atteigne un seuil dangereux ou se rétablisse à un état sûr
- Validation par résultats de simulation : Vérification de la justesse de l'analyse théorique par simulation à grande échelle
Entrées :
- Instantané de configuration du système (état actuel de n processus)
- Seuil de résilience du protocole f (nombre de nœuds byzantins tolérable)
- Probabilité/taux d'attaque q et probabilité/taux de récupération p
Sorties :
- Temps prévu Δsafe de maintien du système dans un état sûr
- Temps prévu de récupération du système à un état sûr
- Décision de reconfiguration (récupération locale vs redémarrage du système complet)
Contraintes :
- Hypothèse de système synchrone (existence d'une limite temporelle)
- Liaisons de communication point à point fiables
- Nœuds disposant de mémoire inviolable et d'environnement d'exécution de confiance (TEE)
Le système adopte l'architecture classique de système adaptatif :
- Monitor (Surveillance) : Collecte les informations d'état du système distribué
- Analyze (Analyse) : Évalue l'état de sécurité à l'aide du modèle MBF probabiliste
- Plan (Planification) : Décide quand déclencher la reconfiguration du système
- Execute (Exécution) : Met en œuvre les stratégies de reconfiguration
- Knowledge (Connaissance) : Maintient l'état du système et les objectifs d'adaptation
Chaîne de Markov en Temps Discret (DTMC) :
- Espace d'état : S = {0, 1, ..., n}, représentant le nombre de nœuds byzantins
- Probabilités de transition :
- qi : probabilité de transition de l'état i à i+1 (nouvelle infection)
- pi : probabilité de transition de l'état i à i-1 (récupération)
- ri : probabilité de rester dans l'état i (aucun changement)
Chaîne de Markov en Temps Continu (CTMC) :
Fournissant trois sous-modèles :
- Modèle Externe :
- qi = q (taux d'attaque externe constant)
- pi = p (taux de récupération constant)
- Modèle Interne :
- qi = q × i × (n-i)/n (propagation interne des nœuds byzantins)
- pi = p × i (récupération indépendante)
- Modèle Coordonné :
- qi = q × i (attaque coordonnée, évitant les réinfections)
- pi = p × i (récupération indépendante)
Contrairement aux modèles traditionnels à nombre de défaillances fixe, ce modèle considère :
- La propagation probabiliste des défaillances
- L'évolution d'état dépendante du temps
- Le processus concurrentiel d'attaque et de récupération
L'analyse des chaînes de Markov fournit :
- Le temps prévu pour atteindre le seuil dangereux
- Le temps prévu pour l'auto-récupération
- Le comportement à long terme de la distribution d'état
Sélection intelligente basée sur les résultats prédictifs :
- Attendre la récupération naturelle (quand le taux de récupération p > taux d'attaque q)
- Déclencher un redémarrage du système complet (quand l'attaque est dominante)
- Échelle du système : n = 200 nœuds
- Seuil de sécurité : f = n/3 ≈ 66 nœuds
- Étapes de simulation : 1M étapes pour DTMC, 100K unités de temps pour CTMC
- Plage de paramètres : p, q ∈ 0, 1
- Répétitions : Moyenne de 100 exécutions par point de données
- Pourcentage d'exécution en bon état pur : Proportion d'exécutions où le système reste continuellement dans un état sûr
- Pourcentage de basculement d'état : Proportion d'exécutions passant d'un bon état à un mauvais état (ou inversement)
- Temps de premier basculement : Temps moyen avant que le système ne franchisse le seuil de sécurité pour la première fois
- Distribution d'état : Proportion de temps que le système passe dans chaque état
- DTMC vs CTMC : Vérification de la cohérence du modèle en temps continu
- Trois modèles CTMC : Différences de comportement entre les modèles Externe, Interne et Coordonné
- Différents rapports p/q : Analyse de l'impact du rapport entre taux de récupération et d'attaque sur le comportement du système
Théorème 1 (q = p = 1/2) : Le temps prévu pour atteindre l'état cn est E0τcn = (cn)²
Théorème 2 (p > 1/2) : Quand le taux de récupération dépasse le taux d'attaque, le temps pour atteindre le seuil d'défaillance est exponentiel :
E0τcn ≥ (1/2)(p/q)^(n/3)
Théorème 3 (p < 1/2) : Quand le taux d'attaque est dominant, le temps pour atteindre le seuil est :
E0τcn ≥ n/(1-2p) × (1-p/q)^(-1)
Modèle Externe :
- Quand p > q, le système reste principalement dans les états de faible infection
- Quand p = q, la distribution d'état est approximativement uniforme
- Quand p < q, le système tend vers les états de forte infection
Modèle Interne :
- Même quand q > p, le système peut se stabiliser dans un état intermédiaire
- La densité d'occupation maximale apparaît dans l'état i satisfaisant p = ((n-i)/n)q
- Par exemple : avec p=0,4, q=0,6, le système se stabilise à i=66 (près du seuil 1/3)
Modèle Coordonné :
- Le comportement est similaire au modèle Externe mais avec des taux de transition dépendants de l'état
- Quand p > q, convergence rapide vers un état sûr
- Quand q > p, évolution rapide vers un état dangereux
Quand r > 0 (existence d'une probabilité de maintien d'état) :
- Toutes les prédictions temporelles sont multipliées par le facteur 1/(1-r)
- Reflète la caractéristique « d'inertie » du système
- Ne modifie pas les tendances de comportement à long terme
- Quand le seuil passe de 1/4 à 1/3, le temps pour l'atteindre augmente significativement
- Le temps de récupération est proportionnel au nombre d'états défaillants
- Valide la précision de l'analyse théorique
- Phénomène de transition de phase : Changement de comportement marqué près de p = q
- Comportement contre-intuitif du modèle Interne : Même quand le taux d'attaque individuelle dépasse le taux de récupération, le système peut maintenir la plupart des nœuds normaux
- Protection en temps exponentiel : Quand p > q, le système bénéficie d'une garantie de sécurité de niveau exponentiel
- Attaque en temps logarithmique : Quand l'attaque est dominante, le système est compromis en temps logarithmique
- Yuan et al. : Architecture auto-protégeante contre les menaces logicielles réseau
- English et al. : Actions d'atténuation basées sur la corrélation d'événements
- Liang et al. : Cadre auto-protégeant pour systèmes électriques basé sur la blockchain
- Modèle de mobilité contrainte (Buhrman et al.) : Les agents ne peuvent se déplacer qu'avec les messages
- Modèle de mobilité sans contrainte (Ostrovsky-Yung et al.) : Les agents peuvent se déplacer à des moments spécifiques
- Différences de capacité de détection : Allant de l'incapacité à détecter à la détection complète
- Sousa et al. : Modèle de mise à jour du système basé sur les hypothèses du pire cas
- Castro-Liskov : Tolérance byzantine pratique et récupération active
- Techniques de diversité : Assurance de l'indépendance des défaillances par redondance et diversité
- Efficacité du modèle MBF probabiliste : Capable de capturer avec précision le comportement du système dans un environnement d'attaques dynamiques
- Valeur de la capacité prédictive : Fournit une base scientifique pour la prise de décision des systèmes adaptatifs
- Complémentarité des trois modèles : Différents scénarios d'attaque nécessitent différentes approches de modélisation
- Applicabilité de l'analyse de Markov : Fournit un outil mathématique puissant pour l'analyse de sécurité des systèmes distribués
- Hypothèse d'indépendance : Suppose que les défaillances des nœuds sont indépendantes, alors que la réalité peut présenter des corrélations
- Estimation des paramètres : L'estimation précise de p et q peut être difficile lors du déploiement réel
- Hypothèse de synchronisation : Exige que le système satisfasse les conditions de synchronisation
- Simplification du modèle d'attaque : Les attaques réelles peuvent être plus complexes que supposé par le modèle
- Analyse spécifique au protocole : Étudier l'impact du modèle MBF sur les protocoles BFT spécifiques
- Intégration de la diversité : Intégrer les techniques de diversité des nœuds dans le modèle probabiliste
- Optimisation des coûts : Considérer les compromis entre plusieurs variables de coût dans la planification de configuration
- Validation de déploiement réel : Vérifier la précision du modèle dans les systèmes réels
- Contribution théorique significative : Première combinaison de la propagation d'attaque probabiliste avec l'analyse de Markov, offrant une nouvelle perspective pour la modélisation des menaces dynamiques
- Analyse mathématique rigoureuse : Fournit un cadre théorique complet et des preuves mathématiques strictes
- Forte praticité : L'architecture MAPE-K peut être facilement intégrée dans les systèmes existants
- Vérification de simulation suffisante : La simulation à grande échelle valide la justesse de l'analyse théorique
- Flexibilité du modèle : Les trois modèles CTMC couvrent différents scénarios d'attaque
- Sensibilité aux paramètres : Les performances du modèle dépendent fortement de l'estimation précise de p et q, mais l'article ne discute pas suffisamment des méthodes d'estimation des paramètres
- Hypothèses de réalisme : Les hypothèses d'indépendance et de synchronisation peuvent ne pas tenir dans les systèmes réels
- Limitations du modèle d'attaque : Ne considère pas les stratégies d'attaque plus complexes (comme les attaques adaptatives)
- Manque de vérification réelle : Résultats de simulation uniquement, manque d'expériences sur des systèmes réels
- Valeur académique : Fournit une nouvelle direction de recherche pour les domaines de la sécurité des systèmes distribués et des systèmes adaptatifs
- Perspective pratique : Fournit un soutien théorique pour la conception de sécurité des systèmes distribués à grande échelle tels que le cloud computing et l'IoT
- Contribution méthodologique : L'application des chaînes de Markov à la modélisation de la sécurité réseau a une large valeur de référence
- Systèmes distribués à grande échelle : Plateformes de cloud computing, systèmes de bases de données distribuées
- Infrastructures critiques : Réseaux électriques, systèmes de contrôle du trafic
- Réseaux blockchain : Systèmes de consensus nécessitant une tolérance byzantine
- Systèmes IoT : Réseaux d'appareils intelligents avec capacités d'auto-guérison
L'article cite 40 références connexes, couvrant :
- Conception de systèmes auto-protégeants (Yuan et al., English et al.)
- Théorie de la défaillance byzantine mobile (Garay, Ostrovsky-Yung et al.)
- Techniques de récupération du système (Castro-Liskov, Sousa et al.)
- Fondamentaux probabilistes (Durrett, Bertsekas-Tsitsiklis)
Évaluation Globale : Ceci est un article de recherche théorique de haute qualité qui apporte des contributions importantes à la modélisation de la sécurité des systèmes distribués. Bien que la vérification des applications pratiques nécessite encore des améliorations, son cadre théorique et ses méthodes d'analyse possèdent une valeur académique et un potentiel pratique importants.