2025-11-12T00:43:29.720804

Efficient Shield Synthesis via State-Space Transformation

Brorholt, Høeg-Petersen, Larsen et al.
We consider the problem of synthesizing safety strategies for control systems, also known as shields. Since the state space is infinite, shields are typically computed over a finite-state abstraction, with the most common abstraction being a rectangular grid. However, for many systems, such a grid does not align well with the safety property or the system dynamics. That is why a coarse grid is rarely sufficient, but a fine grid is typically computationally infeasible to obtain. In this paper, we show that appropriate state-space transformations can still allow to use a coarse grid at almost no computational overhead. We demonstrate in three case studies that our transformation-based synthesis outperforms a standard synthesis by several orders of magnitude. In the first two case studies, we use domain knowledge to select a suitable transformation. In the third case study, we instead report on results in engineering a transformation without domain knowledge.
academic

Síntesis Eficiente de Escudos mediante Transformación del Espacio de Estados

Información Básica

  • ID del Artículo: 2407.19911
  • Título: Efficient Shield Synthesis via State-Space Transformation
  • Autores: Asger Horn Brorholt, Andreas Holck Høeg-Petersen, Kim Guldstrand Larsen, Christian Schilling
  • Institución: Universidad de Aalborg, Dinamarca
  • Clasificación: cs.LO cs.AI cs.LG cs.SY eess.SY
  • Fecha de Publicación: Julio de 2024 (preimpresión en arXiv)
  • Enlace del Artículo: https://arxiv.org/abs/2407.19911

Resumen

Este artículo investiga el problema de síntesis de políticas de seguridad para sistemas de control, también conocido como síntesis de escudos. Debido a que el espacio de estados es infinito, los escudos se calculan típicamente sobre abstracciones de estados finitos, siendo la más común la malla rectangular. Sin embargo, para muchos sistemas, esta malla se alinea mal con las propiedades de seguridad o la dinámica del sistema. Las mallas gruesas suelen ser insuficientes, mientras que las mallas finas a menudo son computacionalmente inviables. Este artículo demuestra que transformaciones apropiadas del espacio de estados permiten seguir utilizando mallas gruesas con prácticamente ningún costo computacional adicional. Mediante tres estudios de caso, se demuestra que el método de síntesis basado en transformación mejora el rendimiento respecto al método de síntesis estándar en varios órdenes de magnitud.

Antecedentes y Motivación de la Investigación

Definición del Problema

El problema central que aborda esta investigación es cómo sintetizar de manera eficiente políticas de seguridad (escudos) para sistemas de control. En sistemas ciber-físicos, los controladores digitales necesitan garantizar la seguridad del sistema, lo que ha motivado el desarrollo de métodos automáticos de construcción de controladores.

Importancia

  1. Criticidad de Seguridad: Muchos sistemas ciber-físicos son críticos para la seguridad y requieren garantías de seguridad formalizadas
  2. Complementariedad de Métodos: El aprendizaje por refuerzo proporciona optimalidad pero carece de garantías de seguridad, mientras que la síntesis reactiva proporciona garantías de seguridad pero carece de optimalidad
  3. Marco de Escudos: Combina las ventajas de ambos métodos, previniendo acciones inseguras durante el proceso de aprendizaje mediante escudos

Limitaciones de Métodos Existentes

  1. Problema de Abstracción de Malla: Las mallas rectangulares típicamente no se alinean bien con la dinámica del sistema y las propiedades de seguridad
  2. Complejidad Computacional: Las mallas gruesas carecen de precisión suficiente, mientras que las mallas finas son computacionalmente inviables
  3. Explosión del Espacio de Estados: A medida que aumentan los requisitos de precisión, el espacio de estados crece exponencialmente

Motivación de la Investigación

Mediante transformaciones del espacio de estados, alinear mejor la malla con la dinámica del sistema en el nuevo espacio de estados, mejorando así la calidad de la síntesis mientras se mantiene la eficiencia computacional.

Contribuciones Principales

  1. Se propone un método de síntesis de escudos basado en transformación del espacio de estados, que puede reducir significativamente el número de celdas de malla requeridas
  2. Se demuestra la corrección teórica del método de transformación, incluyendo la transferencia de garantías de seguridad del espacio transformado al espacio original
  3. Se valida la efectividad del método en tres estudios de caso, con mejoras de rendimiento de varios órdenes de magnitud
  4. Se proporciona un método de ingeniería de transformación sin conocimiento de dominio, ampliando la aplicabilidad del método
  5. Se implementa la integración con aprendizaje por refuerzo, demostrando el valor de aplicación práctica

Explicación Detallada del Método

Definición de la Tarea

Dado un sistema de control (S,Act,δ)(S, Act, δ), donde:

  • SRdS ⊆ \mathbb{R}^d: espacio de estados acotado de dimensión d
  • ActAct: conjunto finito de acciones de control
  • δ:S×Act2Sδ: S × Act → 2^S: función de sucesor

Objetivo: Sintetizar una política de seguridad σ:S2Actσ: S → 2^{Act} para la propiedad de seguridad φSφ ⊆ S

Arquitectura Principal

1. Transformación del Espacio de Estados

  • Función de Transformación: f:STf: S → T, que mapea el espacio de estados original SS al espacio transformado TT
  • Transformación Inversa: f1:T2Sf^{-1}: T → 2^S, definida como f1(t)={sSf(s)=t}f^{-1}(t) = \{s ∈ S | f(s) = t\}
  • Compatibilidad con Malla: La transformación debe alinear los límites de la malla con los límites de decisión

2. Función de Sucesor en el Espacio Transformado

Se define un nuevo sistema de control en el espacio transformado TT como (T,Act,δT)(T, Act, δ_T): δT(t,a)=f(δS(f1(t),a))δ_T(t, a) = f(δ_S(f^{-1}(t), a))

3. Extensión de Malla

El conjunto de celdas controlables CφfC_φ^f se define como: Cφf=f(φ)G{CGaAct.C.CaCCCφf}C_φ^f = ⌊f(φ)⌋_G ∩ \{C ∈ G | ∃a ∈ Act. ∀C'. C \xrightarrow{a} C' ⟹ C' ∈ C_φ^f\}

Puntos de Innovación Técnica

1. Estrategia de Alineación de Malla

  • Transformación Polar: Para trayectorias circulares y obstáculos, se utiliza coordenadas polares (θ,r)(θ, r)
  • Transformación de Energía: Se aprovechan los invariantes del sistema (como la energía mecánica) como dimensión de transformación
  • Ajuste Polinomial: Se generan transformaciones automáticamente mediante ajuste de límites de decisión

2. Garantías Teóricas

Teorema 1: Corrección del método de transformación

  • Política de seguridad en el espacio transformado σY(t)=σG([t]G)σ_Y(t) = σ_G([t]_G)
  • Política de seguridad en el espacio original σX(s)=σG([f(s)]G)σ_X(s) = σ_G([f(s)]_G)

3. Optimización Computacional

  • Cálculo de Tres Pasos: f1δSff^{-1} → δ_S → f
  • Extensión de Conjuntos: Manejo natural de transformaciones no biyectivas
  • Cálculo Bajo Demanda: Evita precomputar el sistema de transición completo

Configuración Experimental

Estudios de Caso

1. Modelo de Satélite

  • Espacio de Estados: (x,y)[2,2]×[2,2](x, y) ∈ [-2, 2] × [-2, 2]
  • Transformación: Coordenadas polares f(x,y)=(atan2(y,x),x2+y2)Tf(x, y) = (atan2(y, x), \sqrt{x^2 + y^2})^T
  • Acciones: {ahead,out,in}\{ahead, out, in\}
  • Restricciones de Seguridad: Evitar obstáculos + limitaciones de distancia

2. Modelo de Pelota Rebotante

  • Espacio de Estados: (v,p)[13,13]×[0,8](v, p) ∈ [-13, 13] × [0, 8]
  • Transformación: Energía mecánica f(v,p)=(mgp+12mv2,v)Tf(v, p) = (mgp + \frac{1}{2}mv^2, v)^T
  • Objetivo: Mantener la pelota rebotando continuamente

3. Modelo de Péndulo Invertido

  • Espacio de Estados: (θ,ω)[2.095,2.095]×[3,3](θ, ω) ∈ [-2.095, 2.095] × [-3, 3]
  • Transformación: Ajuste polinomial f(θ,ω)=(θ,ωp(θ))Tf(θ, ω) = (θ, ω - p(θ))^T
  • Objetivo: Mantener la varilla vertical

Métricas de Evaluación

  • Número de Celdas de Malla: Mide la complejidad computacional
  • Tiempo de Cálculo: Eficiencia de síntesis
  • Número de Nodos del Árbol de Decisión: Complejidad de representación de política
  • Recompensa Acumulada: Rendimiento del aprendizaje por refuerzo

Resultados Experimentales

Resultados Principales

Reducción del Tamaño de Malla

ModeloCeldas en Espacio OriginalCeldas en Espacio TransformadoFactor de Reducción
Satélite176,40027,3006.5×
Pelota Rebotante520,000650800×
Péndulo Invertido9004002.25×

Mejora del Tiempo de Cálculo

  • Modelo de Satélite: Reducción de 2 minutos 41 segundos a 10 segundos
  • Modelo de Pelota Rebotante: Reducción de 19 minutos a 1.3 segundos (tres órdenes de magnitud)
  • Péndulo Invertido: Reducción de 512 milisegundos a 244 milisegundos

Representación del Árbol de Decisión

Mediante representación en árbol de decisión se logra una reducción adicional de requisitos de almacenamiento:

  • Satélite: Reducción de 4,913 nodos a 544 nodos
  • Pelota Rebotante: Reducción de 940 nodos a 49 nodos
  • Péndulo Invertido: Reducción de 99 nodos a 32 nodos

Rendimiento del Aprendizaje por Refuerzo

En comparación de recompensa acumulada en 1000 episodios:

  • Modelo de Satélite: El escudo transformado alcanza la máxima recompensa de 1.499
  • Modelo de Pelota Rebotante: El escudo transformado alcanza el costo mínimo de 36.593
  • Péndulo Invertido: El escudo transformado alcanza el costo mínimo de 0.000

Los resultados demuestran que el escudo transformado no solo es computacionalmente más eficiente, sino que también tiene un rendimiento práctico superior.

Hallazgos Importantes

  1. Selección de Transformación Crítica: Las transformaciones apropiadas pueden proporcionar mejoras de varios órdenes de magnitud
  2. Utilización de Invariantes: La explotación de invariantes del sistema (como energía, momento angular) es muy efectiva
  3. Transformación Automática Viable: El método de ingeniería de transformación sin conocimiento de dominio es viable
  4. Mejora de Rendimiento: La transformación no solo mejora la eficiencia sino también el rendimiento del controlador final

Trabajo Relacionado

Síntesis de Controladores Abstractos

  • Métodos Tradicionales: Sistemas de transición simbólica basados en mallas de superhiperrrectángulos regulares
  • Abstracciones Multinivel: Métodos multinivel que utilizan mallas de diferentes tamaños
  • Abstracción Elipsoidal: Esfuerzos recientes utilizando abstracciones de malla elipsoidal

Técnicas de Escudos

  • Uppaal Stratego: Implementación de herramientas y aplicaciones
  • Escudos Probabilísticos: Aprendizaje de refuerzo seguro utilizando escudos probabilísticos
  • Control Predictivo de Modelo: Conceptos similares en control predictivo de modelo seguro

Transformación del Espacio de Estados Relacionada

  • Interpretación Abstracta: Funciones de abstracción y concretización en conexiones de Galois
  • Reducción de Orden de Modelo: Métodos de aproximación para reducir la dimensionalidad del sistema
  • Bisimulación: Reducción del espacio de estados basada en bisimulación

Conclusiones y Discusión

Conclusiones Principales

  1. La transformación del espacio de estados es una herramienta poderosa para la síntesis de escudos, capaz de mejorar significativamente la eficiencia computacional
  2. La corrección teórica está garantizada, las propiedades de seguridad se transfieren correctamente del espacio transformado al espacio original
  3. El valor de aplicación práctica es alto, mejorando no solo la eficiencia computacional sino también el rendimiento del control
  4. El método tiene universalidad, siendo aplicable a múltiples tipos de sistemas de control

Limitaciones

  1. Dependencia de Selección de Transformación: La calidad de la transformación impacta directamente en la efectividad del método
  2. Requisito de Conocimiento de Dominio: Los dos primeros casos requieren conocimiento especializado del dominio
  3. Transformaciones No Biyectivas: Pueden introducir errores de aproximación adicionales
  4. Rango de Aplicabilidad: Principalmente aplicable a sistemas donde se puede encontrar una transformación apropiada

Direcciones Futuras

  1. Descubrimiento Automático de Transformaciones: Desarrollar métodos más universales de generación automática de transformaciones
  2. Combinación de Múltiples Transformaciones: Investigar el uso combinado de familias de transformaciones
  3. Transformación en Línea: Explorar transformaciones adaptativas en tiempo de ejecución
  4. Integración Extendida: Combinar con métodos ortogonales como abstracciones multinivel

Evaluación Profunda

Fortalezas

  1. Innovación Fuerte: Primera aplicación sistemática de transformación del espacio de estados a síntesis de escudos
  2. Teoría Completa: Proporciona análisis teórico completo y pruebas de corrección
  3. Experimentación Suficiente: Tres estudios de caso de diferentes tipos validan la amplia aplicabilidad del método
  4. Valor Práctico Alto: Las mejoras de varios órdenes de magnitud tienen importancia práctica significativa
  5. Método Universal: Puede combinarse ortogonalmente con métodos de abstracción de malla existentes

Insuficiencias

  1. Desafío de Diseño de Transformación: Para sistemas complejos, encontrar transformaciones apropiadas sigue siendo difícil
  2. Grado de Automatización: El método automático del tercer caso aún no está suficientemente maduro
  3. Análisis Teórico: Falta orientación teórica sobre cuándo existen buenas transformaciones
  4. Comparación de Referencia: La comparación con otros métodos no basados en malla es insuficiente

Impacto

  1. Contribución Académica: Proporciona una nueva dirección de investigación para el campo de síntesis de seguridad de sistemas de control
  2. Valor Práctico: Las mejoras significativas de rendimiento hacen posible la síntesis de seguridad de sistemas más complejos
  3. Reproducibilidad: Proporciona implementación completa y paquete de reproducción
  4. Extensibilidad: El método puede extenderse a otras técnicas de abstracción y síntesis

Escenarios de Aplicación

  1. Sistemas con Estructura Geométrica: Como navegación de robots, control de naves espaciales
  2. Sistemas con Invariantes Físicos: Como sistemas con conservación de energía
  3. Aplicaciones que Requieren Síntesis de Seguridad Eficiente: Sistemas embebidos, control en tiempo real
  4. Aplicaciones de Aprendizaje Seguro: Sistemas de aprendizaje que requieren garantías de seguridad

Referencias

El artículo cita 31 referencias relacionadas, cubriendo trabajos importantes en múltiples campos incluyendo teoría de control, métodos formales, aprendizaje por refuerzo e interpretación abstracta, proporcionando una base teórica sólida para la investigación.


Evaluación General: Este es un artículo de investigación de alta calidad que propone una solución innovadora para abordar los desafíos computacionales en la síntesis de escudos. El método tiene una base teórica sólida y un valor práctico significativo, haciendo una contribución importante al campo de síntesis de seguridad de sistemas de control.