2025-11-11T08:58:08.673655

A New Probabilistic Mobile Byzantine Failure Model for Self-Protecting Systems

Bonomi, Farina, Friedman et al.
Modern distributed systems face growing security threats, as attackers continuously enhance their skills and vulnerabilities span across the entire system stack, from hardware to the application layer. In the system design phase, fault tolerance techniques can be employed to safeguard systems. From a theoretical perspective, an attacker attempting to compromise a system can be abstracted by considering the presence of Byzantine processes in the system. Although this approach enhances the resilience of the distributed system, it introduces certain limitations regarding the accuracy of the model in reflecting real-world scenarios. In this paper, we consider a self-protecting distributed system based on the \emph{Monitoring-Analyse-Plan-Execute over a shared Knowledge} (MAPE-K) architecture, and we propose a new probabilistic Mobile Byzantine Failure (MBF) that can be plugged into the Analysis component. Our new model captures the dynamics of evolving attacks and can be used to drive the self-protection and reconfiguration strategy. We analyze mathematically the time that it takes until the number of Byzantine nodes crosses given thresholds, or for the system to self-recover back into a safe state, depending on the rates of Byzantine infection spreading \emph{vs.} the rate of self-recovery. We also provide simulation results that illustrate the behavior of the system under such assumptions.
academic

Новая вероятностная модель мобильных византийских отказов для самозащищающихся систем

Основная информация

  • ID статьи: 2511.04523
  • Название: A New Probabilistic Mobile Byzantine Failure Model for Self-Protecting Systems
  • Авторы: Silvia Bonomi (Sapienza University), Giovanni Farina (Niccoló Cusano University), Roy Friedman (Technion), Eviatar B. Procaccia (Technion), Sebastien Tixeuil (Sorbonne University)
  • Классификация: cs.DC (Распределённые, параллельные и кластерные вычисления)
  • Дата публикации: 6 ноября 2025 г. (препринт arXiv)
  • Ссылка на статью: https://arxiv.org/abs/2511.04523

Аннотация

Современные распределённые системы сталкиваются с растущими угрозами безопасности, поскольку злоумышленники постоянно совершенствуют свои методы, а уязвимости распространены по всему стеку системы — от аппаратного обеспечения до уровня приложений. На этапе проектирования системы методы отказоустойчивости могут использоваться для защиты системы. С теоретической точки зрения, злоумышленники, пытающиеся взломать систему, могут быть абстрагированы путём рассмотрения наличия византийских процессов в системе. Хотя этот подход повышает устойчивость распределённых систем, он вводит определённые ограничения в отражении реальных сценариев. В данной работе рассматриваются самозащищающиеся распределённые системы на основе архитектуры MAPE-K (Мониторинг-Анализ-Планирование-Выполнение-Общие знания) и предлагается новая вероятностная модель мобильных византийских отказов (MBF), которая может быть встроена в компонент анализа. Новая модель отражает динамические характеристики развивающихся атак и может использоваться для управления стратегиями самозащиты и переконфигурации.

Исследовательский контекст и мотивация

Основная проблема

Основная проблема, которую решает данное исследование: как обеспечить более точные модели отказов и адаптивные механизмы защиты распределённых систем в динамической среде угроз.

Важность проблемы

  1. Эскалация угроз безопасности: Современные распределённые системы сталкиваются с постоянно развивающимися атаками; традиционные статические модели отказов не могут точно отражать реальные угрозы
  2. Возрастающая сложность систем: Масштаб и сложность распределённых приложений постоянно растут, требуя автоматизированных механизмов защиты
  3. Требования доступности: Системы должны обеспечивать безопасность при одновременном сохранении высокой доступности, избегая ненужных полных перезагрузок системы

Ограничения существующих подходов

  1. Традиционные модели византийских отказов: Предполагают фиксированное количество узлов отказа, не отражая динамические характеристики распространения атак
  2. Статические пороги: Существующие модели используют фиксированные пороги отказоустойчивости, лишённые адаптивности
  3. Отсутствие предсказательных возможностей: Невозможно предсказать, когда система достигнет опасного состояния или когда сможет восстановиться

Исследовательская мотивация

Разработка модели, способной:

  • Отражать динамические характеристики распространения атак в вероятностной модели
  • Предсказывать временные характеристики изменений состояния безопасности системы
  • Поддерживать интеллектуальное принятие решений (локальное восстановление vs полная перезагрузка системы) в адаптивной среде

Основные вклады

  1. Предложена новая вероятностная модель мобильных византийских отказов: Способна отражать динамические характеристики распространения атак и восстановления системы
  2. Разработана архитектура самозащиты на основе MAPE-K: Интегрирует вероятностную модель в адаптивную систему
  3. Предоставлена математическая аналитическая база: Анализ переходов состояний системы на основе цепей Маркова
  4. Установлены три модели атак: External, Internal и Coordinated модели, охватывающие различные сценарии атак и восстановления
  5. Предоставлены алгоритмы предсказания: Способны предсказывать время достижения опасного порога или восстановления в безопасное состояние
  6. Проведена верификация результатов моделирования: Крупномасштабное моделирование подтверждает корректность теоретического анализа

Подробное описание методологии

Определение задачи

Входные данные:

  • Снимок конфигурации системы (текущее состояние n процессов)
  • Порог устойчивости протокола f (количество допустимых византийских узлов)
  • Вероятность/скорость атаки q и вероятность/скорость восстановления p

Выходные данные:

  • Ожидаемое время сохранения системой безопасного состояния Δsafe
  • Ожидаемое время восстановления системы в безопасное состояние
  • Решение о переконфигурации (локальное восстановление vs полная перезагрузка системы)

Ограничения:

  • Предположение о синхронной системе (существует временная граница)
  • Надёжные каналы связи типа «точка-точка»
  • Узлы имеют защищённую от подделок память и надёжную среду выполнения (TEE)

Архитектура модели

1. Архитектура MAPE-K

Система использует классическую архитектуру адаптивной системы:

  • Monitor (Мониторинг): Сбор информации о состоянии распределённой системы
  • Analyze (Анализ): Оценка состояния безопасности с использованием вероятностной модели MBF
  • Plan (Планирование): Определение момента запуска переконфигурации системы
  • Execute (Выполнение): Реализация стратегии переконфигурации
  • Knowledge (Знания): Поддержание состояния системы и целей адаптации

2. Вероятностная модель MBF

Дискретная цепь Маркова (DTMC):

  • Пространство состояний: S = {0, 1, ..., n}, представляющее количество византийских узлов
  • Вероятности переходов:
    • qi: вероятность перехода из состояния i в i+1 (новое заражение)
    • pi: вероятность перехода из состояния i в i-1 (восстановление)
    • ri: вероятность остаться в состоянии i (без изменений)

Непрерывная цепь Маркова (CTMC): Предоставляет три подмодели:

  1. Модель External (Внешняя):
    • qi = q (постоянная скорость внешней атаки)
    • pi = p (постоянная скорость восстановления)
  2. Модель Internal (Внутренняя):
    • qi = q × i × (n-i)/n (внутреннее распространение византийскими узлами)
    • pi = p × i (независимое восстановление)
  3. Модель Coordinated (Скоординированная):
    • qi = q × i (скоординированная атака, избегающая повторного заражения)
    • pi = p × i (независимое восстановление)

Технические инновации

1. Динамическое моделирование отказов

В отличие от традиционных моделей с фиксированным количеством отказов, данная модель учитывает:

  • Вероятностное распространение отказов
  • Эволюцию состояния, зависящую от времени
  • Конкурентный процесс атак и восстановления

2. Предсказательный анализ

Анализ цепей Маркова обеспечивает:

  • Ожидаемое время достижения опасного порога
  • Ожидаемое время самовосстановления
  • Долгосрочное поведение распределения состояний

3. Механизм адаптивного принятия решений

На основе результатов предсказания интеллектуально выбирает:

  • Ожидание естественного восстановления (когда скорость восстановления p > скорость атаки q)
  • Запуск полной перезагрузки системы (когда атака доминирует)

Экспериментальная установка

Параметры моделирования

  • Масштаб системы: n = 200 узлов
  • Порог безопасности: f = n/3 ≈ 66 узлов
  • Шаги моделирования: 1M шагов для DTMC, 100K временных единиц для CTMC
  • Диапазон параметров: p, q ∈ 0, 1
  • Количество повторений: В среднем 100 запусков для каждой точки данных

Метрики оценки

  1. Процент чистого хорошего состояния: Доля запусков, в которых система постоянно находится в безопасном состоянии
  2. Процент переходов состояния: Доля запусков с переходом из хорошего состояния в плохое (или наоборот)
  3. Время первого перехода: Среднее время первого пересечения системой порога безопасности
  4. Распределение состояний: Доля времени, проведённого системой в каждом состоянии

Сравнительный анализ

  • DTMC vs CTMC: Проверка согласованности модели непрерывного времени
  • Три модели CTMC: Различия в поведении External, Internal и Coordinated моделей
  • Различные соотношения p/q: Анализ влияния соотношения скоростей атаки и восстановления на поведение системы

Результаты экспериментов

Основные результаты

1. Верификация модели DTMC

Теорема 1 (q = p = 1/2): Ожидаемое время достижения состояния cn равно E0τcn = (cn)²

Теорема 2 (p > 1/2): Когда скорость восстановления превышает скорость атаки, время достижения порога отказа требует экспоненциального времени: E0τcn ≥ (1/2)(p/q)^(n/3)

Теорема 3 (p < 1/2): Когда скорость атаки доминирует, время достижения порога составляет: E0τcn ≥ n/(1-2p) × (1-p/q)^(-1)

2. Результаты моделирования CTMC

Модель External:

  • При p > q система в основном находится в состояниях с низким уровнем заражения
  • При p = q распределение состояний приблизительно равномерно
  • При p < q система стремится к состояниям с высоким уровнем заражения

Модель Internal:

  • Даже при q > p система может стабилизироваться в среднем состоянии
  • Максимальная плотность занятости возникает в состоянии i, удовлетворяющем p = ((n-i)/n)q
  • Пример: при p=0.4, q=0.6 система стабилизируется в i=66 (вблизи порога 1/3)

Модель Coordinated:

  • Поведение аналогично модели External, но скорости переходов зависят от состояния
  • При p > q быстрая сходимость к безопасному состоянию
  • При q > p быстрая эволюция к опасному состоянию

Абляционные исследования

Влияние параметра стабильности r

При r > 0 (наличие вероятности сохранения состояния):

  • Все временные предсказания умножаются на коэффициент 1/(1-r)
  • Отражает «инерцию» системы
  • Не изменяет долгосрочные тенденции поведения

Анализ чувствительности порога

  • При изменении порога с 1/4 на 1/3 время достижения значительно увеличивается
  • Время восстановления пропорционально количеству узлов в плохом состоянии
  • Подтверждает точность теоретического анализа

Экспериментальные выводы

  1. Явление фазового перехода: Вблизи p = q наблюдается явное изменение поведения
  2. Контринтуитивное поведение модели Internal: Даже при высокой индивидуальной скорости атаки система может сохранять большинство узлов в нормальном состоянии
  3. Экспоненциальная защита времени: При p > q система обладает экспоненциальной гарантией безопасности
  4. Логарифмическая атака времени: При доминировании атаки система взламывается за логарифмическое время

Связанные работы

Исследования самозащищающихся систем

  • Yuan et al.: Архитектура самозащиты от сетевых угроз программного обеспечения
  • English et al.: Действия по смягчению на основе корреляции событий
  • Liang et al.: Структура самозащиты электроэнергетической системы на основе блокчейна

Модели мобильных византийских отказов

  • Модели с ограниченной мобильностью (Buhrman и др.): Агенты могут перемещаться только с сообщениями
  • Модели без ограничений мобильности (Ostrovsky-Yung и др.): Агенты могут перемещаться в определённые моменты времени
  • Различия в возможностях обнаружения: От невозможности обнаружения до полного обнаружения

Методы восстановления системы

  • Sousa et al.: Модель обновления системы на основе предположения о наихудшем случае
  • Castro-Liskov: Практическая отказоустойчивость к византийским отказам и активное восстановление
  • Методы разнообразия: Обеспечение независимости отказов через избыточность и разнообразие

Заключение и обсуждение

Основные выводы

  1. Эффективность вероятностной модели MBF: Способна точно отражать поведение системы в динамической среде атак
  2. Ценность предсказательных возможностей: Обеспечивает научную основу для принятия решений адаптивной системой
  3. Взаимодополняемость трёх моделей: Различные сценарии атак требуют различных методов моделирования
  4. Применимость анализа цепей Маркова: Предоставляет мощный математический инструмент для анализа безопасности распределённых систем

Ограничения

  1. Предположение о независимости: Предполагается независимость отказов узлов; в действительности может существовать корреляция
  2. Оценка параметров: Точная оценка p и q может быть затруднена при практическом развёртывании
  3. Предположение о синхронности: Требует, чтобы система удовлетворяла условиям синхронности
  4. Упрощение модели атак: Реальные атаки могут быть сложнее, чем предполагает модель

Направления будущих исследований

  1. Анализ, специфичный для протокола: Изучение влияния модели MBF на конкретные протоколы BFT
  2. Интеграция разнообразия: Интеграция методов разнообразия узлов в вероятностную модель
  3. Оптимизация затрат: Рассмотрение компромиссов между несколькими переменными затрат при планировании конфигурации
  4. Верификация на практике: Проверка точности модели на реальных системах

Глубокая оценка

Преимущества

  1. Значительный теоретический вклад: Впервые объединены вероятностное распространение атак и анализ цепей Маркова, предоставляя новый подход к моделированию динамических угроз
  2. Строгий математический анализ: Предоставлена полная теоретическая база и строгие математические доказательства
  3. Высокая практическая применимость: Архитектура MAPE-K легко интегрируется в существующие системы
  4. Достаточная верификация моделированием: Крупномасштабное моделирование подтверждает корректность теоретического анализа
  5. Гибкость модели: Три модели CTMC охватывают различные сценарии атак

Недостатки

  1. Чувствительность к параметрам: Производительность модели сильно зависит от точной оценки p и q; статья недостаточно обсуждает методы оценки параметров
  2. Нереалистичные предположения: Предположения о независимости и синхронности могут не выполняться в реальных системах
  3. Ограничения модели атак: Не рассматриваются более сложные стратегии атак (например, адаптивные атаки)
  4. Отсутствие практической верификации: Имеются только результаты моделирования; отсутствуют экспериментальные проверки на реальных системах

Влияние

  1. Академическая ценность: Открывает новые направления исследований в области безопасности распределённых систем и адаптивных систем
  2. Практические перспективы: Обеспечивает теоретическую поддержку для проектирования безопасности крупномасштабных распределённых систем, таких как облачные вычисления и Интернет вещей
  3. Методологический вклад: Применение цепей Маркова в моделировании сетевой безопасности имеет широкое значение для заимствования

Применимые сценарии

  1. Крупномасштабные распределённые системы: Облачные платформы, системы распределённых баз данных
  2. Критическая инфраструктура: Электросетевые системы, системы управления транспортом
  3. Сети блокчейна: Системы консенсуса, требующие отказоустойчивости к византийским отказам
  4. Системы Интернета вещей: Сети умных устройств с возможностью самовосстановления

Библиография

Статья цитирует 40 связанных работ, охватывающих:

  • Проектирование самозащищающихся систем (Yuan et al., English et al.)
  • Теорию мобильных византийских отказов (Garay, Ostrovsky-Yung и др.)
  • Методы восстановления систем (Castro-Liskov, Sousa et al.)
  • Основы теории вероятностей (Durrett, Bertsekas-Tsitsiklis)

Общая оценка: Это высококачественная теоретическая исследовательская работа, вносящая важный вклад в моделирование безопасности распределённых систем. Хотя верификация практического применения требует дальнейшего развития, её теоретическая база и методы анализа имеют значительную академическую ценность и практический потенциал.