2025-11-12T00:43:29.720804

Efficient Shield Synthesis via State-Space Transformation

Brorholt, Høeg-Petersen, Larsen et al.
We consider the problem of synthesizing safety strategies for control systems, also known as shields. Since the state space is infinite, shields are typically computed over a finite-state abstraction, with the most common abstraction being a rectangular grid. However, for many systems, such a grid does not align well with the safety property or the system dynamics. That is why a coarse grid is rarely sufficient, but a fine grid is typically computationally infeasible to obtain. In this paper, we show that appropriate state-space transformations can still allow to use a coarse grid at almost no computational overhead. We demonstrate in three case studies that our transformation-based synthesis outperforms a standard synthesis by several orders of magnitude. In the first two case studies, we use domain knowledge to select a suitable transformation. In the third case study, we instead report on results in engineering a transformation without domain knowledge.
academic

Эффективный синтез защиты посредством преобразования пространства состояний

Основная информация

  • ID статьи: 2407.19911
  • Название: Efficient Shield Synthesis via State-Space Transformation
  • Авторы: Asger Horn Brorholt, Andreas Holck Høeg-Petersen, Kim Guldstrand Larsen, Christian Schilling
  • Учреждение: Университет Ольборга, Дания
  • Классификация: cs.LO cs.AI cs.LG cs.SY eess.SY
  • Дата публикации: Июль 2024 г. (препринт arXiv)
  • Ссылка на статью: https://arxiv.org/abs/2407.19911

Аннотация

В данной работе исследуется проблема синтеза политик безопасности для систем управления, также известная как синтез защиты (shield). Поскольку пространство состояний бесконечно, защита обычно вычисляется на конечных абстракциях состояний, наиболее распространённой из которых является прямоугольная сетка. Однако для многих систем такая сетка плохо согласуется с свойствами безопасности или динамикой системы. Грубая сетка часто недостаточна, а тонкая сетка обычно вычислительно неосуществима. В статье показано, что надлежащее преобразование пространства состояний позволяет использовать грубую сетку практически без вычислительных затрат. На трёх практических примерах продемонстрировано, что метод синтеза на основе преобразований обеспечивает производительность на несколько порядков выше, чем стандартный метод синтеза.

Исследовательский контекст и мотивация

Определение проблемы

Основная проблема, которую решает данное исследование, заключается в том, как эффективно синтезировать политики безопасности (защиту) для систем управления. В киберфизических системах цифровые контроллеры должны гарантировать безопасность системы, что стимулирует развитие методов автоматического построения контроллеров.

Значимость

  1. Критичность по безопасности: Многие киберфизические системы являются критичными по безопасности и требуют формальных гарантий безопасности
  2. Дополнительность методов: Обучение с подкреплением обеспечивает оптимальность, но не гарантирует безопасность, тогда как реактивный синтез гарантирует безопасность, но не оптимальность
  3. Фреймворк защиты: Объединяет преимущества обоих подходов, предотвращая небезопасные действия во время обучения посредством защиты

Ограничения существующих методов

  1. Проблема абстракции сетки: Прямоугольные сетки обычно не согласуются с динамикой системы и свойствами безопасности
  2. Вычислительная сложность: Грубая сетка недостаточна по точности, тонкая сетка вычислительно неосуществима
  3. Взрыв пространства состояний: С увеличением требований к точности пространство состояний растёт экспоненциально

Исследовательская мотивация

Посредством преобразования пространства состояний лучше согласовать сетку с динамикой системы в новом пространстве состояний, обеспечивая повышение качества синтеза при сохранении вычислительной эффективности.

Основные вклады

  1. Предложен метод синтеза защиты на основе преобразования пространства состояний, способный значительно сократить количество необходимых ячеек сетки
  2. Доказана теоретическая корректность метода преобразования, включая передачу гарантий безопасности из преобразованного пространства в исходное пространство
  3. Подтверждена эффективность метода на трёх практических примерах, с повышением производительности на несколько порядков
  4. Предоставлен метод инженерии преобразований без знания предметной области, расширяющий применимость метода
  5. Реализована интеграция с обучением с подкреплением, демонстрирующая практическую ценность

Подробное описание метода

Определение задачи

Дана система управления (S,Act,δ)(S, Act, δ), где:

  • SRdS ⊆ \mathbb{R}^d: ограниченное d-мерное пространство состояний
  • ActAct: конечное множество управляющих действий
  • δ:S×Act2Sδ: S × Act → 2^S: функция переходов

Цель: синтезировать политику безопасности σ:S2Actσ: S → 2^{Act} для свойства безопасности φSφ ⊆ S

Основная архитектура

1. Преобразование пространства состояний

  • Функция преобразования: f:STf: S → T, отображающая исходное пространство состояний SS в преобразованное пространство TT
  • Обратное преобразование: f1:T2Sf^{-1}: T → 2^S, определённое как f1(t)={sSf(s)=t}f^{-1}(t) = \{s ∈ S | f(s) = t\}
  • Дружественность к сетке: Преобразование должно выравнивать границы сетки с границами решений

2. Функция переходов в преобразованном пространстве

В преобразованном пространстве TT определяется новая система управления (T,Act,δT)(T, Act, δ_T): δT(t,a)=f(δS(f1(t),a))δ_T(t, a) = f(δ_S(f^{-1}(t), a))

3. Расширение сетки

Множество управляемых ячеек CφfC_φ^f определяется как: Cφf=f(φ)G{CGaAct.C.CaCCCφf}C_φ^f = ⌊f(φ)⌋_G ∩ \{C ∈ G | ∃a ∈ Act. ∀C'. C \xrightarrow{a} C' ⟹ C' ∈ C_φ^f\}

Технические инновации

1. Стратегии выравнивания сетки

  • Преобразование в полярные координаты: Для круговых траекторий и препятствий используются полярные координаты (θ,r)(θ, r)
  • Энергетическое преобразование: Использование инвариантов системы (например, механической энергии) как измерения преобразования
  • Полиномиальная аппроксимация: Автоматическое создание преобразования путём аппроксимации границ решений

2. Теоретические гарантии

Теорема 1: Корректность метода преобразования

  • Политика безопасности в преобразованном пространстве σY(t)=σG([t]G)σ_Y(t) = σ_G([t]_G)
  • Политика безопасности в исходном пространстве σX(s)=σG([f(s)]G)σ_X(s) = σ_G([f(s)]_G)

3. Вычислительная оптимизация

  • Трёхэтапное вычисление: f1δSff^{-1} → δ_S → f
  • Расширение множеств: Естественная обработка неинъективных преобразований
  • Вычисление по требованию: Избежание предварительного вычисления полной системы переходов

Экспериментальная установка

Практические примеры

1. Модель спутника (Satellite Model)

  • Пространство состояний: (x,y)[2,2]×[2,2](x, y) ∈ [-2, 2] × [-2, 2]
  • Преобразование: Полярные координаты f(x,y)=(atan2(y,x),x2+y2)Tf(x, y) = (atan2(y, x), \sqrt{x^2 + y^2})^T
  • Действия: {ahead,out,in}\{ahead, out, in\}
  • Ограничения безопасности: Избежание препятствий + ограничение расстояния

2. Модель отскакивающего мяча (Bouncing Ball Model)

  • Пространство состояний: (v,p)[13,13]×[0,8](v, p) ∈ [-13, 13] × [0, 8]
  • Преобразование: Механическая энергия f(v,p)=(mgp+12mv2,v)Tf(v, p) = (mgp + \frac{1}{2}mv^2, v)^T
  • Цель: Поддержание непрерывного отскакивания мяча

3. Модель перевёрнутого маятника (Cart-Pole Model)

  • Пространство состояний: (θ,ω)[2.095,2.095]×[3,3](θ, ω) ∈ [-2.095, 2.095] × [-3, 3]
  • Преобразование: Полиномиальная аппроксимация f(θ,ω)=(θ,ωp(θ))Tf(θ, ω) = (θ, ω - p(θ))^T
  • Цель: Поддержание вертикального положения стержня

Метрики оценки

  • Количество ячеек сетки: Измерение вычислительной сложности
  • Время вычисления: Эффективность синтеза
  • Количество узлов дерева решений: Сложность представления политики
  • Накопленное вознаграждение: Производительность обучения с подкреплением

Результаты экспериментов

Основные результаты

Сокращение размера сетки

МодельЯчейки исходного пространстваЯчейки преобразованного пространстваСокращение
Спутник176,40027,3006.5×
Отскакивающий мяч520,000650800×
Перевёрнутый маятник9004002.25×

Улучшение времени вычисления

  • Модель спутника: Сокращение с 2 мин 41 сек до 10 сек
  • Модель отскакивающего мяча: Сокращение с 19 минут до 1.3 сек (три порядка)
  • Перевёрнутый маятник: Сокращение с 512 мс до 244 мс

Представление деревом решений

Дальнейшее сокращение требований к памяти посредством представления деревом решений:

  • Спутник: сокращение с 4,913 узлов до 544 узлов
  • Отскакивающий мяч: сокращение с 940 узлов до 49 узлов
  • Перевёрнутый маятник: сокращение с 99 узлов до 32 узлов

Производительность обучения с подкреплением

При сравнении накопленного вознаграждения на 1000 эпизодов:

  • Модель спутника: Защита с преобразованием достигает максимального вознаграждения 1.499
  • Модель отскакивающего мяча: Защита с преобразованием достигает минимальной стоимости 36.593
  • Перевёрнутый маятник: Защита с преобразованием достигает минимальной стоимости 0.000

Результаты показывают, что защита с преобразованием не только вычислительно эффективнее, но и обеспечивает лучшую практическую производительность.

Важные выводы

  1. Выбор преобразования критичен: Надлежащее преобразование может обеспечить повышение производительности на несколько порядков
  2. Использование инвариантов: Использование инвариантов системы (например, энергии, углового момента) даёт значительные результаты
  3. Автоматическое преобразование осуществимо: Метод инженерии преобразований без знания предметной области является практически осуществимым
  4. Улучшение производительности: Преобразование не только повышает эффективность, но и улучшает производительность итогового контроллера

Связанные работы

Синтез абстрактных контроллеров

  • Традиционные методы: Символические системы переходов на основе регулярных гиперпрямоугольных сеток
  • Многоуровневые абстракции: Многоуровневые методы с использованием сеток различных размеров
  • Эллипсоидальные абстракции: Недавние попытки использования эллипсоидальных сеток

Технология защиты

  • Uppaal Stratego: Реализация инструмента и приложения
  • Вероятностная защита: Безопасное обучение с подкреплением с использованием вероятностной защиты
  • Прогнозирующее управление моделью: Аналогичные концепции в безопасном прогнозирующем управлении моделью

Связанные с преобразованием пространства состояний

  • Абстрактная интерпретация: Функции абстракции и конкретизации в связях Галуа
  • Снижение порядка модели: Приблизительные методы снижения размерности системы
  • Бисимуляция: Сокращение пространства состояний на основе бисимуляции

Заключение и обсуждение

Основные выводы

  1. Преобразование пространства состояний является мощным инструментом для синтеза защиты, способным значительно повысить вычислительную эффективность
  2. Теоретическая корректность гарантирована, свойства безопасности корректно передаются из преобразованного пространства в исходное пространство
  3. Высокая практическая ценность, повышение не только вычислительной эффективности, но и производительности управления
  4. Метод универсален, применим к различным типам систем управления

Ограничения

  1. Зависимость от выбора преобразования: Качество преобразования напрямую влияет на эффективность метода
  2. Требование знания предметной области: Первые два примера требуют специализированного знания
  3. Неинъективные преобразования: Могут вводить дополнительные ошибки аппроксимации
  4. Область применения: Главным образом применим к системам, для которых можно найти надлежащее преобразование

Направления будущих исследований

  1. Автоматическое обнаружение преобразований: Разработка более универсальных методов автоматического создания преобразований
  2. Комбинация множественных преобразований: Исследование совместного использования семейств преобразований
  3. Онлайн-преобразования: Исследование адаптивных преобразований во время выполнения
  4. Расширенная интеграция: Комбинирование с ортогональными методами, такими как многоуровневые абстракции

Глубокая оценка

Преимущества

  1. Высокая инновационность: Первое систематическое применение преобразования пространства состояний к синтезу защиты
  2. Теоретическая полнота: Полный теоретический анализ и доказательства корректности
  3. Достаточные эксперименты: Три различных практических примера подтверждают широкую применимость метода
  4. Высокая практическая ценность: Повышение производительности на несколько порядков имеет важное практическое значение
  5. Универсальность метода: Может быть ортогонально объединён с существующими методами абстракции сетки

Недостатки

  1. Сложность проектирования преобразования: Для сложных систем поиск надлежащего преобразования остаётся сложной задачей
  2. Степень автоматизации: Автоматический метод в третьем примере ещё недостаточно развит
  3. Теоретический анализ: Отсутствует теоретическое руководство относительно того, когда существует хорошее преобразование
  4. Сравнительные базовые показатели: Недостаточно сравнений с другими неиспользующими сетку методами

Влияние

  1. Академический вклад: Предоставляет новое направление исследований для области синтеза безопасности систем управления
  2. Практическая ценность: Значительное повышение производительности делает возможным синтез безопасности для более сложных систем
  3. Воспроизводимость: Предоставляется полная реализация и пакет для воспроизведения
  4. Расширяемость: Метод может быть расширен на другие абстракции и методы синтеза

Сценарии применения

  1. Системы с геометрической структурой: Такие как навигация роботов, управление космическими аппаратами
  2. Системы с физическими инвариантами: Такие как системы с сохранением энергии
  3. Приложения, требующие эффективного синтеза безопасности: Встроенные системы, управление в реальном времени
  4. Безопасные приложения обучения с подкреплением: Системы обучения, требующие гарантий безопасности

Библиография

Статья цитирует 31 связанную работу, охватывающую важные работы в области теории управления, формальных методов, обучения с подкреплением и абстрактной интерпретации, обеспечивая прочную теоретическую основу для исследования.


Общая оценка: Это высококачественная исследовательская работа, предлагающая инновационное решение для преодоления вычислительных проблем при синтезе защиты. Метод имеет прочную теоретическую основу и значительную практическую ценность, внося важный вклад в область синтеза безопасности систем управления.