2025-11-12T00:43:29.720804

Efficient Shield Synthesis via State-Space Transformation

Brorholt, HÃ¸eg-Petersen, Larsen et al.

We consider the problem of synthesizing safety strategies for control systems, also known as shields. Since the state space is infinite, shields are typically computed over a finite-state abstraction, with the most common abstraction being a rectangular grid. However, for many systems, such a grid does not align well with the safety property or the system dynamics. That is why a coarse grid is rarely sufficient, but a fine grid is typically computationally infeasible to obtain. In this paper, we show that appropriate state-space transformations can still allow to use a coarse grid at almost no computational overhead. We demonstrate in three case studies that our transformation-based synthesis outperforms a standard synthesis by several orders of magnitude. In the first two case studies, we use domain knowledge to select a suitable transformation. In the third case study, we instead report on results in engineering a transformation without domain knowledge.

academic

Síntesis Eficiente de Escudos mediante Transformación del Espacio de Estados

Información Básica

ID del Artículo: 2407.19911
Título: Efficient Shield Synthesis via State-Space Transformation
Autores: Asger Horn Brorholt, Andreas Holck Høeg-Petersen, Kim Guldstrand Larsen, Christian Schilling
Institución: Universidad de Aalborg, Dinamarca
Clasificación: cs.LO cs.AI cs.LG cs.SY eess.SY
Fecha de Publicación: Julio de 2024 (preimpresión en arXiv)
Enlace del Artículo: https://arxiv.org/abs/2407.19911

Resumen

Este artículo investiga el problema de síntesis de políticas de seguridad para sistemas de control, también conocido como síntesis de escudos. Debido a que el espacio de estados es infinito, los escudos se calculan típicamente sobre abstracciones de estados finitos, siendo la más común la malla rectangular. Sin embargo, para muchos sistemas, esta malla se alinea mal con las propiedades de seguridad o la dinámica del sistema. Las mallas gruesas suelen ser insuficientes, mientras que las mallas finas a menudo son computacionalmente inviables. Este artículo demuestra que transformaciones apropiadas del espacio de estados permiten seguir utilizando mallas gruesas con prácticamente ningún costo computacional adicional. Mediante tres estudios de caso, se demuestra que el método de síntesis basado en transformación mejora el rendimiento respecto al método de síntesis estándar en varios órdenes de magnitud.

Antecedentes y Motivación de la Investigación

Definición del Problema

El problema central que aborda esta investigación es cómo sintetizar de manera eficiente políticas de seguridad (escudos) para sistemas de control. En sistemas ciber-físicos, los controladores digitales necesitan garantizar la seguridad del sistema, lo que ha motivado el desarrollo de métodos automáticos de construcción de controladores.

Importancia

Criticidad de Seguridad: Muchos sistemas ciber-físicos son críticos para la seguridad y requieren garantías de seguridad formalizadas
Complementariedad de Métodos: El aprendizaje por refuerzo proporciona optimalidad pero carece de garantías de seguridad, mientras que la síntesis reactiva proporciona garantías de seguridad pero carece de optimalidad
Marco de Escudos: Combina las ventajas de ambos métodos, previniendo acciones inseguras durante el proceso de aprendizaje mediante escudos

Limitaciones de Métodos Existentes

Problema de Abstracción de Malla: Las mallas rectangulares típicamente no se alinean bien con la dinámica del sistema y las propiedades de seguridad
Complejidad Computacional: Las mallas gruesas carecen de precisión suficiente, mientras que las mallas finas son computacionalmente inviables
Explosión del Espacio de Estados: A medida que aumentan los requisitos de precisión, el espacio de estados crece exponencialmente

Motivación de la Investigación

Mediante transformaciones del espacio de estados, alinear mejor la malla con la dinámica del sistema en el nuevo espacio de estados, mejorando así la calidad de la síntesis mientras se mantiene la eficiencia computacional.

Contribuciones Principales

Se propone un método de síntesis de escudos basado en transformación del espacio de estados, que puede reducir significativamente el número de celdas de malla requeridas
Se demuestra la corrección teórica del método de transformación, incluyendo la transferencia de garantías de seguridad del espacio transformado al espacio original
Se valida la efectividad del método en tres estudios de caso, con mejoras de rendimiento de varios órdenes de magnitud
Se proporciona un método de ingeniería de transformación sin conocimiento de dominio, ampliando la aplicabilidad del método
Se implementa la integración con aprendizaje por refuerzo, demostrando el valor de aplicación práctica

Explicación Detallada del Método

Definición de la Tarea

Dado un sistema de control $(S, Act, δ)$ , donde:

$S ⊆ \mathbb{R}^d$ : espacio de estados acotado de dimensión d
$Act$ : conjunto finito de acciones de control
$δ: S × Act → 2^S$ : función de sucesor

Objetivo: Sintetizar una política de seguridad $σ: S → 2^{Act}$ para la propiedad de seguridad $φ ⊆ S$

Arquitectura Principal

1. Transformación del Espacio de Estados

Función de Transformación: $f: S → T$ , que mapea el espacio de estados original $S$ al espacio transformado $T$
Transformación Inversa: $f^{-1}: T → 2^S$ , definida como $f^{-1}(t) = \{s ∈ S | f(s) = t\}$
Compatibilidad con Malla: La transformación debe alinear los límites de la malla con los límites de decisión

2. Función de Sucesor en el Espacio Transformado

Se define un nuevo sistema de control en el espacio transformado $T$ como $(T, Act, δ_T)$ : $δ_T(t, a) = f(δ_S(f^{-1}(t), a))$

3. Extensión de Malla

El conjunto de celdas controlables $C_φ^f$ se define como: $C_φ^f = ⌊f(φ)⌋_G ∩ \{C ∈ G | ∃a ∈ Act. ∀C'. C \xrightarrow{a} C' ⟹ C' ∈ C_φ^f\}$

Puntos de Innovación Técnica

1. Estrategia de Alineación de Malla

Transformación Polar: Para trayectorias circulares y obstáculos, se utiliza coordenadas polares $(θ, r)$
Transformación de Energía: Se aprovechan los invariantes del sistema (como la energía mecánica) como dimensión de transformación
Ajuste Polinomial: Se generan transformaciones automáticamente mediante ajuste de límites de decisión

2. Garantías Teóricas

Teorema 1: Corrección del método de transformación

Política de seguridad en el espacio transformado $σ_Y(t) = σ_G([t]_G)$
Política de seguridad en el espacio original $σ_X(s) = σ_G([f(s)]_G)$

3. Optimización Computacional

Cálculo de Tres Pasos: $f^{-1} → δ_S → f$
Extensión de Conjuntos: Manejo natural de transformaciones no biyectivas
Cálculo Bajo Demanda: Evita precomputar el sistema de transición completo

Configuración Experimental

Estudios de Caso

1. Modelo de Satélite

Espacio de Estados: $(x, y) ∈ [-2, 2] × [-2, 2]$
Transformación: Coordenadas polares $f(x, y) = (atan2(y, x), \sqrt{x^2 + y^2})^T$
Acciones: $\{ahead, out, in\}$
Restricciones de Seguridad: Evitar obstáculos + limitaciones de distancia

2. Modelo de Pelota Rebotante

Espacio de Estados: $(v, p) ∈ [-13, 13] × [0, 8]$
Transformación: Energía mecánica $f(v, p) = (mgp + \frac{1}{2}mv^2, v)^T$
Objetivo: Mantener la pelota rebotando continuamente

3. Modelo de Péndulo Invertido

Espacio de Estados: $(θ, ω) ∈ [-2.095, 2.095] × [-3, 3]$
Transformación: Ajuste polinomial $f(θ, ω) = (θ, ω - p(θ))^T$
Objetivo: Mantener la varilla vertical

Métricas de Evaluación

Número de Celdas de Malla: Mide la complejidad computacional
Tiempo de Cálculo: Eficiencia de síntesis
Número de Nodos del Árbol de Decisión: Complejidad de representación de política
Recompensa Acumulada: Rendimiento del aprendizaje por refuerzo

Resultados Experimentales

Resultados Principales

Reducción del Tamaño de Malla

Modelo	Celdas en Espacio Original	Celdas en Espacio Transformado	Factor de Reducción
Satélite	176,400	27,300	6.5×
Pelota Rebotante	520,000	650	800×
Péndulo Invertido	900	400	2.25×

Mejora del Tiempo de Cálculo

Modelo de Satélite: Reducción de 2 minutos 41 segundos a 10 segundos
Modelo de Pelota Rebotante: Reducción de 19 minutos a 1.3 segundos (tres órdenes de magnitud)
Péndulo Invertido: Reducción de 512 milisegundos a 244 milisegundos

Representación del Árbol de Decisión

Mediante representación en árbol de decisión se logra una reducción adicional de requisitos de almacenamiento:

Satélite: Reducción de 4,913 nodos a 544 nodos
Pelota Rebotante: Reducción de 940 nodos a 49 nodos
Péndulo Invertido: Reducción de 99 nodos a 32 nodos

Rendimiento del Aprendizaje por Refuerzo

En comparación de recompensa acumulada en 1000 episodios:

Modelo de Satélite: El escudo transformado alcanza la máxima recompensa de 1.499
Modelo de Pelota Rebotante: El escudo transformado alcanza el costo mínimo de 36.593
Péndulo Invertido: El escudo transformado alcanza el costo mínimo de 0.000

Los resultados demuestran que el escudo transformado no solo es computacionalmente más eficiente, sino que también tiene un rendimiento práctico superior.

Hallazgos Importantes

Selección de Transformación Crítica: Las transformaciones apropiadas pueden proporcionar mejoras de varios órdenes de magnitud
Utilización de Invariantes: La explotación de invariantes del sistema (como energía, momento angular) es muy efectiva
Transformación Automática Viable: El método de ingeniería de transformación sin conocimiento de dominio es viable
Mejora de Rendimiento: La transformación no solo mejora la eficiencia sino también el rendimiento del controlador final

Trabajo Relacionado

Síntesis de Controladores Abstractos

Métodos Tradicionales: Sistemas de transición simbólica basados en mallas de superhiperrrectángulos regulares
Abstracciones Multinivel: Métodos multinivel que utilizan mallas de diferentes tamaños
Abstracción Elipsoidal: Esfuerzos recientes utilizando abstracciones de malla elipsoidal

Técnicas de Escudos

Uppaal Stratego: Implementación de herramientas y aplicaciones
Escudos Probabilísticos: Aprendizaje de refuerzo seguro utilizando escudos probabilísticos
Control Predictivo de Modelo: Conceptos similares en control predictivo de modelo seguro

Transformación del Espacio de Estados Relacionada

Interpretación Abstracta: Funciones de abstracción y concretización en conexiones de Galois
Reducción de Orden de Modelo: Métodos de aproximación para reducir la dimensionalidad del sistema
Bisimulación: Reducción del espacio de estados basada en bisimulación

Conclusiones y Discusión

Conclusiones Principales

La transformación del espacio de estados es una herramienta poderosa para la síntesis de escudos, capaz de mejorar significativamente la eficiencia computacional
La corrección teórica está garantizada, las propiedades de seguridad se transfieren correctamente del espacio transformado al espacio original
El valor de aplicación práctica es alto, mejorando no solo la eficiencia computacional sino también el rendimiento del control
El método tiene universalidad, siendo aplicable a múltiples tipos de sistemas de control

Limitaciones

Dependencia de Selección de Transformación: La calidad de la transformación impacta directamente en la efectividad del método
Requisito de Conocimiento de Dominio: Los dos primeros casos requieren conocimiento especializado del dominio
Transformaciones No Biyectivas: Pueden introducir errores de aproximación adicionales
Rango de Aplicabilidad: Principalmente aplicable a sistemas donde se puede encontrar una transformación apropiada

Direcciones Futuras

Descubrimiento Automático de Transformaciones: Desarrollar métodos más universales de generación automática de transformaciones
Combinación de Múltiples Transformaciones: Investigar el uso combinado de familias de transformaciones
Transformación en Línea: Explorar transformaciones adaptativas en tiempo de ejecución
Integración Extendida: Combinar con métodos ortogonales como abstracciones multinivel

Evaluación Profunda

Fortalezas

Innovación Fuerte: Primera aplicación sistemática de transformación del espacio de estados a síntesis de escudos
Teoría Completa: Proporciona análisis teórico completo y pruebas de corrección
Experimentación Suficiente: Tres estudios de caso de diferentes tipos validan la amplia aplicabilidad del método
Valor Práctico Alto: Las mejoras de varios órdenes de magnitud tienen importancia práctica significativa
Método Universal: Puede combinarse ortogonalmente con métodos de abstracción de malla existentes

Insuficiencias

Desafío de Diseño de Transformación: Para sistemas complejos, encontrar transformaciones apropiadas sigue siendo difícil
Grado de Automatización: El método automático del tercer caso aún no está suficientemente maduro
Análisis Teórico: Falta orientación teórica sobre cuándo existen buenas transformaciones
Comparación de Referencia: La comparación con otros métodos no basados en malla es insuficiente

Impacto

Contribución Académica: Proporciona una nueva dirección de investigación para el campo de síntesis de seguridad de sistemas de control
Valor Práctico: Las mejoras significativas de rendimiento hacen posible la síntesis de seguridad de sistemas más complejos
Reproducibilidad: Proporciona implementación completa y paquete de reproducción
Extensibilidad: El método puede extenderse a otras técnicas de abstracción y síntesis

Escenarios de Aplicación

Sistemas con Estructura Geométrica: Como navegación de robots, control de naves espaciales
Sistemas con Invariantes Físicos: Como sistemas con conservación de energía
Aplicaciones que Requieren Síntesis de Seguridad Eficiente: Sistemas embebidos, control en tiempo real
Aplicaciones de Aprendizaje Seguro: Sistemas de aprendizaje que requieren garantías de seguridad

Referencias

El artículo cita 31 referencias relacionadas, cubriendo trabajos importantes en múltiples campos incluyendo teoría de control, métodos formales, aprendizaje por refuerzo e interpretación abstracta, proporcionando una base teórica sólida para la investigación.

Evaluación General: Este es un artículo de investigación de alta calidad que propone una solución innovadora para abordar los desafíos computacionales en la síntesis de escudos. El método tiene una base teórica sólida y un valor práctico significativo, haciendo una contribución importante al campo de síntesis de seguridad de sistemas de control.