Modern distributed systems face growing security threats, as attackers continuously enhance their skills and vulnerabilities span across the entire system stack, from hardware to the application layer. In the system design phase, fault tolerance techniques can be employed to safeguard systems. From a theoretical perspective, an attacker attempting to compromise a system can be abstracted by considering the presence of Byzantine processes in the system. Although this approach enhances the resilience of the distributed system, it introduces certain limitations regarding the accuracy of the model in reflecting real-world scenarios. In this paper, we consider a self-protecting distributed system based on the \emph{Monitoring-Analyse-Plan-Execute over a shared Knowledge} (MAPE-K) architecture, and we propose a new probabilistic Mobile Byzantine Failure (MBF) that can be plugged into the Analysis component. Our new model captures the dynamics of evolving attacks and can be used to drive the self-protection and reconfiguration strategy. We analyze mathematically the time that it takes until the number of Byzantine nodes crosses given thresholds, or for the system to self-recover back into a safe state, depending on the rates of Byzantine infection spreading \emph{vs.} the rate of self-recovery. We also provide simulation results that illustrate the behavior of the system under such assumptions.
- ID статьи: 2511.04523
- Название: A New Probabilistic Mobile Byzantine Failure Model for Self-Protecting Systems
- Авторы: Silvia Bonomi (Sapienza University), Giovanni Farina (Niccoló Cusano University), Roy Friedman (Technion), Eviatar B. Procaccia (Technion), Sebastien Tixeuil (Sorbonne University)
- Классификация: cs.DC (Распределённые, параллельные и кластерные вычисления)
- Дата публикации: 6 ноября 2025 г. (препринт arXiv)
- Ссылка на статью: https://arxiv.org/abs/2511.04523
Современные распределённые системы сталкиваются с растущими угрозами безопасности, поскольку злоумышленники постоянно совершенствуют свои методы, а уязвимости распространены по всему стеку системы — от аппаратного обеспечения до уровня приложений. На этапе проектирования системы методы отказоустойчивости могут использоваться для защиты системы. С теоретической точки зрения, злоумышленники, пытающиеся взломать систему, могут быть абстрагированы путём рассмотрения наличия византийских процессов в системе. Хотя этот подход повышает устойчивость распределённых систем, он вводит определённые ограничения в отражении реальных сценариев. В данной работе рассматриваются самозащищающиеся распределённые системы на основе архитектуры MAPE-K (Мониторинг-Анализ-Планирование-Выполнение-Общие знания) и предлагается новая вероятностная модель мобильных византийских отказов (MBF), которая может быть встроена в компонент анализа. Новая модель отражает динамические характеристики развивающихся атак и может использоваться для управления стратегиями самозащиты и переконфигурации.
Основная проблема, которую решает данное исследование: как обеспечить более точные модели отказов и адаптивные механизмы защиты распределённых систем в динамической среде угроз.
- Эскалация угроз безопасности: Современные распределённые системы сталкиваются с постоянно развивающимися атаками; традиционные статические модели отказов не могут точно отражать реальные угрозы
- Возрастающая сложность систем: Масштаб и сложность распределённых приложений постоянно растут, требуя автоматизированных механизмов защиты
- Требования доступности: Системы должны обеспечивать безопасность при одновременном сохранении высокой доступности, избегая ненужных полных перезагрузок системы
- Традиционные модели византийских отказов: Предполагают фиксированное количество узлов отказа, не отражая динамические характеристики распространения атак
- Статические пороги: Существующие модели используют фиксированные пороги отказоустойчивости, лишённые адаптивности
- Отсутствие предсказательных возможностей: Невозможно предсказать, когда система достигнет опасного состояния или когда сможет восстановиться
Разработка модели, способной:
- Отражать динамические характеристики распространения атак в вероятностной модели
- Предсказывать временные характеристики изменений состояния безопасности системы
- Поддерживать интеллектуальное принятие решений (локальное восстановление vs полная перезагрузка системы) в адаптивной среде
- Предложена новая вероятностная модель мобильных византийских отказов: Способна отражать динамические характеристики распространения атак и восстановления системы
- Разработана архитектура самозащиты на основе MAPE-K: Интегрирует вероятностную модель в адаптивную систему
- Предоставлена математическая аналитическая база: Анализ переходов состояний системы на основе цепей Маркова
- Установлены три модели атак: External, Internal и Coordinated модели, охватывающие различные сценарии атак и восстановления
- Предоставлены алгоритмы предсказания: Способны предсказывать время достижения опасного порога или восстановления в безопасное состояние
- Проведена верификация результатов моделирования: Крупномасштабное моделирование подтверждает корректность теоретического анализа
Входные данные:
- Снимок конфигурации системы (текущее состояние n процессов)
- Порог устойчивости протокола f (количество допустимых византийских узлов)
- Вероятность/скорость атаки q и вероятность/скорость восстановления p
Выходные данные:
- Ожидаемое время сохранения системой безопасного состояния Δsafe
- Ожидаемое время восстановления системы в безопасное состояние
- Решение о переконфигурации (локальное восстановление vs полная перезагрузка системы)
Ограничения:
- Предположение о синхронной системе (существует временная граница)
- Надёжные каналы связи типа «точка-точка»
- Узлы имеют защищённую от подделок память и надёжную среду выполнения (TEE)
Система использует классическую архитектуру адаптивной системы:
- Monitor (Мониторинг): Сбор информации о состоянии распределённой системы
- Analyze (Анализ): Оценка состояния безопасности с использованием вероятностной модели MBF
- Plan (Планирование): Определение момента запуска переконфигурации системы
- Execute (Выполнение): Реализация стратегии переконфигурации
- Knowledge (Знания): Поддержание состояния системы и целей адаптации
Дискретная цепь Маркова (DTMC):
- Пространство состояний: S = {0, 1, ..., n}, представляющее количество византийских узлов
- Вероятности переходов:
- qi: вероятность перехода из состояния i в i+1 (новое заражение)
- pi: вероятность перехода из состояния i в i-1 (восстановление)
- ri: вероятность остаться в состоянии i (без изменений)
Непрерывная цепь Маркова (CTMC):
Предоставляет три подмодели:
- Модель External (Внешняя):
- qi = q (постоянная скорость внешней атаки)
- pi = p (постоянная скорость восстановления)
- Модель Internal (Внутренняя):
- qi = q × i × (n-i)/n (внутреннее распространение византийскими узлами)
- pi = p × i (независимое восстановление)
- Модель Coordinated (Скоординированная):
- qi = q × i (скоординированная атака, избегающая повторного заражения)
- pi = p × i (независимое восстановление)
В отличие от традиционных моделей с фиксированным количеством отказов, данная модель учитывает:
- Вероятностное распространение отказов
- Эволюцию состояния, зависящую от времени
- Конкурентный процесс атак и восстановления
Анализ цепей Маркова обеспечивает:
- Ожидаемое время достижения опасного порога
- Ожидаемое время самовосстановления
- Долгосрочное поведение распределения состояний
На основе результатов предсказания интеллектуально выбирает:
- Ожидание естественного восстановления (когда скорость восстановления p > скорость атаки q)
- Запуск полной перезагрузки системы (когда атака доминирует)
- Масштаб системы: n = 200 узлов
- Порог безопасности: f = n/3 ≈ 66 узлов
- Шаги моделирования: 1M шагов для DTMC, 100K временных единиц для CTMC
- Диапазон параметров: p, q ∈ 0, 1
- Количество повторений: В среднем 100 запусков для каждой точки данных
- Процент чистого хорошего состояния: Доля запусков, в которых система постоянно находится в безопасном состоянии
- Процент переходов состояния: Доля запусков с переходом из хорошего состояния в плохое (или наоборот)
- Время первого перехода: Среднее время первого пересечения системой порога безопасности
- Распределение состояний: Доля времени, проведённого системой в каждом состоянии
- DTMC vs CTMC: Проверка согласованности модели непрерывного времени
- Три модели CTMC: Различия в поведении External, Internal и Coordinated моделей
- Различные соотношения p/q: Анализ влияния соотношения скоростей атаки и восстановления на поведение системы
Теорема 1 (q = p = 1/2): Ожидаемое время достижения состояния cn равно E0τcn = (cn)²
Теорема 2 (p > 1/2): Когда скорость восстановления превышает скорость атаки, время достижения порога отказа требует экспоненциального времени:
E0τcn ≥ (1/2)(p/q)^(n/3)
Теорема 3 (p < 1/2): Когда скорость атаки доминирует, время достижения порога составляет:
E0τcn ≥ n/(1-2p) × (1-p/q)^(-1)
Модель External:
- При p > q система в основном находится в состояниях с низким уровнем заражения
- При p = q распределение состояний приблизительно равномерно
- При p < q система стремится к состояниям с высоким уровнем заражения
Модель Internal:
- Даже при q > p система может стабилизироваться в среднем состоянии
- Максимальная плотность занятости возникает в состоянии i, удовлетворяющем p = ((n-i)/n)q
- Пример: при p=0.4, q=0.6 система стабилизируется в i=66 (вблизи порога 1/3)
Модель Coordinated:
- Поведение аналогично модели External, но скорости переходов зависят от состояния
- При p > q быстрая сходимость к безопасному состоянию
- При q > p быстрая эволюция к опасному состоянию
При r > 0 (наличие вероятности сохранения состояния):
- Все временные предсказания умножаются на коэффициент 1/(1-r)
- Отражает «инерцию» системы
- Не изменяет долгосрочные тенденции поведения
- При изменении порога с 1/4 на 1/3 время достижения значительно увеличивается
- Время восстановления пропорционально количеству узлов в плохом состоянии
- Подтверждает точность теоретического анализа
- Явление фазового перехода: Вблизи p = q наблюдается явное изменение поведения
- Контринтуитивное поведение модели Internal: Даже при высокой индивидуальной скорости атаки система может сохранять большинство узлов в нормальном состоянии
- Экспоненциальная защита времени: При p > q система обладает экспоненциальной гарантией безопасности
- Логарифмическая атака времени: При доминировании атаки система взламывается за логарифмическое время
- Yuan et al.: Архитектура самозащиты от сетевых угроз программного обеспечения
- English et al.: Действия по смягчению на основе корреляции событий
- Liang et al.: Структура самозащиты электроэнергетической системы на основе блокчейна
- Модели с ограниченной мобильностью (Buhrman и др.): Агенты могут перемещаться только с сообщениями
- Модели без ограничений мобильности (Ostrovsky-Yung и др.): Агенты могут перемещаться в определённые моменты времени
- Различия в возможностях обнаружения: От невозможности обнаружения до полного обнаружения
- Sousa et al.: Модель обновления системы на основе предположения о наихудшем случае
- Castro-Liskov: Практическая отказоустойчивость к византийским отказам и активное восстановление
- Методы разнообразия: Обеспечение независимости отказов через избыточность и разнообразие
- Эффективность вероятностной модели MBF: Способна точно отражать поведение системы в динамической среде атак
- Ценность предсказательных возможностей: Обеспечивает научную основу для принятия решений адаптивной системой
- Взаимодополняемость трёх моделей: Различные сценарии атак требуют различных методов моделирования
- Применимость анализа цепей Маркова: Предоставляет мощный математический инструмент для анализа безопасности распределённых систем
- Предположение о независимости: Предполагается независимость отказов узлов; в действительности может существовать корреляция
- Оценка параметров: Точная оценка p и q может быть затруднена при практическом развёртывании
- Предположение о синхронности: Требует, чтобы система удовлетворяла условиям синхронности
- Упрощение модели атак: Реальные атаки могут быть сложнее, чем предполагает модель
- Анализ, специфичный для протокола: Изучение влияния модели MBF на конкретные протоколы BFT
- Интеграция разнообразия: Интеграция методов разнообразия узлов в вероятностную модель
- Оптимизация затрат: Рассмотрение компромиссов между несколькими переменными затрат при планировании конфигурации
- Верификация на практике: Проверка точности модели на реальных системах
- Значительный теоретический вклад: Впервые объединены вероятностное распространение атак и анализ цепей Маркова, предоставляя новый подход к моделированию динамических угроз
- Строгий математический анализ: Предоставлена полная теоретическая база и строгие математические доказательства
- Высокая практическая применимость: Архитектура MAPE-K легко интегрируется в существующие системы
- Достаточная верификация моделированием: Крупномасштабное моделирование подтверждает корректность теоретического анализа
- Гибкость модели: Три модели CTMC охватывают различные сценарии атак
- Чувствительность к параметрам: Производительность модели сильно зависит от точной оценки p и q; статья недостаточно обсуждает методы оценки параметров
- Нереалистичные предположения: Предположения о независимости и синхронности могут не выполняться в реальных системах
- Ограничения модели атак: Не рассматриваются более сложные стратегии атак (например, адаптивные атаки)
- Отсутствие практической верификации: Имеются только результаты моделирования; отсутствуют экспериментальные проверки на реальных системах
- Академическая ценность: Открывает новые направления исследований в области безопасности распределённых систем и адаптивных систем
- Практические перспективы: Обеспечивает теоретическую поддержку для проектирования безопасности крупномасштабных распределённых систем, таких как облачные вычисления и Интернет вещей
- Методологический вклад: Применение цепей Маркова в моделировании сетевой безопасности имеет широкое значение для заимствования
- Крупномасштабные распределённые системы: Облачные платформы, системы распределённых баз данных
- Критическая инфраструктура: Электросетевые системы, системы управления транспортом
- Сети блокчейна: Системы консенсуса, требующие отказоустойчивости к византийским отказам
- Системы Интернета вещей: Сети умных устройств с возможностью самовосстановления
Статья цитирует 40 связанных работ, охватывающих:
- Проектирование самозащищающихся систем (Yuan et al., English et al.)
- Теорию мобильных византийских отказов (Garay, Ostrovsky-Yung и др.)
- Методы восстановления систем (Castro-Liskov, Sousa et al.)
- Основы теории вероятностей (Durrett, Bertsekas-Tsitsiklis)
Общая оценка: Это высококачественная теоретическая исследовательская работа, вносящая важный вклад в моделирование безопасности распределённых систем. Хотя верификация практического применения требует дальнейшего развития, её теоретическая база и методы анализа имеют значительную академическую ценность и практический потенциал.