2025-11-12T22:13:10.653124

SigSPARQL: Signals as a First-Class Citizen When Querying Knowledge Graphs

Schwarzinger, Steindl, Frühwirth et al.
Purpose: Cyber-Physical Systems (CPSs) integrate computation and physical processes, producing time series data from thousands of sensors. Knowledge graphs can contextualize these data, yet current approaches that are applicably to monitoring CPS rely on observation-based approaches. This limits the ability to express computations on sensor data, especially when no assumptions can be made about sampling synchronicity or sampling rates. Methodology: We propose an approach for integrating knowledge graphs with signals that model run-time sensor data as functions from time to data. To demonstrate this approach, we introduce SigSPARQL, a query language that can combine RDF data and signals. We assess its technical feasibility with a prototype and demonstrate its use in a typical CPS monitoring use case. Findings: Our approach enables queries to combine graph-based knowledge with signals, overcoming some key limits of observation-based methods. The developed prototype successfully demonstrated feasibility and applicability. Value: This work presents a query-based approach for CPS monitoring that integrates knowledge graphs and signals, alleviating problems of observation-based approaches. By leveraging system knowledge, it enables operators to run a single query across different system instances within the same domain. Future work will extend SigSPARQL with additional signal functions and evaluate it in large-scale CPS deployments.
academic

SigSPARQL: Señales como Ciudadano de Primera Clase al Consultar Grafos de Conocimiento

Información Básica

  • ID del Artículo: 2506.03826
  • Título: SigSPARQL: Signals as a First-Class Citizen When Querying Knowledge Graphs
  • Autores: Tobias Schwarzinger, Gernot Steindl, Thomas Frühwirth, Thomas Preindl, Konrad Diwold, Katrin Ehrenmüller, Fajar J. Ekaputra
  • Clasificación: cs.DB (Bases de Datos)
  • Fecha de Publicación: Julio de 2025
  • Enlace del Artículo: https://arxiv.org/abs/2506.03826

Resumen

Este artículo propone un nuevo enfoque que combina grafos de conocimiento con procesamiento de señales para abordar problemas de consulta de datos en la supervisión de sistemas ciber-físicos (CPS). Los métodos tradicionales basados en observaciones presentan limitaciones al procesar cálculos de datos de sensores, particularmente cuando el muestreo es asincrónico o las tasas de muestreo son inconsistentes. Los autores proponen el lenguaje de consulta SigSPARQL, que modela datos de sensores en tiempo de ejecución como funciones de tiempo a datos (señales), logrando una consulta unificada de datos RDF y señales. La viabilidad técnica se verifica mediante un sistema prototipo y se demuestran los efectos de aplicación en casos de uso típicos de supervisión de CPS.

Antecedentes de Investigación y Motivación

Definición del Problema

  1. Problema Central: Los sistemas ciber-físicos generan grandes volúmenes de datos de sensores de series temporales que requieren combinarse con información contextual del sistema para análisis, pero los métodos actuales basados en observaciones presentan complejidad y limitaciones en la expresión de cálculos de datos de sensores.
  2. Importancia: Con el desarrollo de la digitalización, los CPS se aplican ampliamente en construcción, redes energéticas, manufactura y otros campos, siendo crucial la utilización efectiva de datos de sensores para análisis, supervisión y control del sistema.
  3. Limitaciones de Métodos Existentes:
    • Los métodos de acceso a datos basados en ontología (OBDA) dispersan valores temporales de un único sensor en miles de elementos que representan observaciones independientes al mapear series temporales a estructuras gráficas
    • La complejidad de consultas aumenta, requiriendo reconstruir el concepto de valor temporal a partir de observaciones independientes
    • Enfrentan desafíos al procesar series temporales asincrónicas, siendo difícil combinar observaciones con diferentes marcas de tiempo
    • Carecen de un concepto unificado para modelar datos entre valores observados
  4. Motivación de Investigación: Introducir el concepto de señal (Signal) como "ciudadano de primera clase", abstraer observaciones independientes y superar las deficiencias de los métodos actuales en la expresión de cálculos de datos de sensores.

Contribuciones Principales

  1. Se propone un marco independiente del lenguaje: Define tres operadores principales (Signal, ApplySF, LiftVal) para integrar lenguajes de consulta de grafos de conocimiento con procesamiento de señales
  2. Se diseña el lenguaje de consulta SigSPARQL: Extiende la sintaxis y semántica de SPARQL, permitiendo que las señales sean ciudadanos de primera clase en los resultados de consultas
  3. Se construye un sistema prototipo: Implementado basado en Oxigraph, verificando la viabilidad técnica
  4. Se proporciona una base teórica completa: Basada en la teoría de programación reactiva funcional (FRP), estableciendo relaciones formalizadas entre señales y datos de series temporales
  5. Se demuestra valor de aplicación práctica: A través de un caso de uso de supervisión de estaciones de carga de vehículos eléctricos, se prueba la aplicabilidad del método

Explicación Detallada del Método

Definición de la Tarea

Entrada: Conjunto de datos RDF anotado con señales <D, S, φ>, donde D es el conjunto de datos RDF, S es el conjunto de señales RDF, φ es la función de anotación de señales Salida: Series temporales de soluciones (TSS) o grafo RDF actualizado continuamente Restricciones: Soportar consultas continuas, procesar flujos de datos de sensores asincrónico

Conceptos Principales y Modelo de Datos

1. Definición de Señal

Definición 7.1: Una señal RDF ψ es una función (posiblemente parcial) 
de la forma T→RDF, donde T es el dominio temporal y RDF es el 
conjunto de términos RDF

2. Conjunto de Datos RDF Anotado con Señales

Definición 7.2: <D, S, φ>
- D: Conjunto de datos RDF convencional
- S: Conjunto de señales RDF  
- φ: Función parcial IRI×IRI→S (función de anotación de señales)

Marco Independiente del Lenguaje

Los autores proponen tres operadores principales:

  1. Signal(s, p): Construir una señal basada en la fuente de señal s y la propiedad de señal p
  2. ApplySF(f, a⃗): Aplicar una función de señal n-aria f a una lista de parámetros de señal de longitud n
  3. LiftVal(v): Elevar el valor v a una señal constante

Diseño del Lenguaje SigSPARQL

Extensión de Sintaxis

  1. Cláusula SIGNALS:
SIGNALS {
    ev:ActivePower FROM ?device AS ?ap
    ev:Envelope FROM ?garage AS ?env
}
  1. Cláusula WHEN:
WHEN {
    SUM(?ap * ?sign) > ?env
    BECOMES TRUE AT ?violation_time
}

Definición de Semántica

  1. Series Temporales de Soluciones (TSS): Permite que las soluciones vinculen variables a términos RDF o señales RDF, evaluables en puntos temporales τ
  2. Consultas Continuas: Las consultas SELECT devuelven TSS, las consultas CONSTRUCT devuelven grafos RDF que crecen continuamente
  3. Cálculo de Señales: Mediante aplicación puntual, se elevan funciones y operadores SPARQL al dominio de señales

Puntos de Innovación Técnica

  1. Abstracción de Señal: Utilizar el concepto de señal de FRP para reemplazar el método basado en observaciones, proporcionando un modelado de datos temporales más natural
  2. Modelo de Consulta Unificado: Combinar conocimiento de estructura gráfica y procesamiento de señales temporales en una única consulta
  3. Extensión del Sistema de Tipos: Extender el álgebra SPARQL para soportar tipos de señal, manejando automáticamente la elevación de tipos
  4. Semántica de Consulta Continua: Definir mecanismo de eventos desencadenantes, soportando aplicaciones de supervisión en tiempo real

Configuración Experimental

Implementación del Prototipo

  • Marco Base: Basado en la base de datos de grafos Oxigraph
  • Modelo Temporal: Tiempo discreto, utilizando estrategia de "última observación" para modelar datos entre observaciones
  • Método de Evaluación: Evaluación en dos pasos - construir descripción de cálculo de señal, luego registrar motor de consultas continuas

Caso de Uso de Verificación

Escenario de Supervisión de Estación de Carga de Vehículos Eléctricos:

  • Composición del Sistema: Múltiples cargadores EV, sistema fotovoltaico, batería
  • Objetivo de Supervisión: Detectar eventos de violación donde el consumo de potencia excede el límite de envolvente operativo
  • Fuentes de Datos: Sensores de potencia activa (AP), sensores de estado de carga (SoC), límites de envolvente operativo

Ejemplo de Consulta

CONSTRUCT {
    ?garage ev:hasEnvelopeViolation [
        ev:description "¡Envolvente Violada!" ;
        ev:startTime ?violation_time
    ]
}
WHEN {
    SUM(?ap * ?sign) > ?env
    BECOMES TRUE AT ?violation_time
}
SIGNALS {
    ev:ActivePower FROM ?device AS ?ap
    ev:Envelope FROM ?garage AS ?env
}
WHERE {
    ?garage a ev:Garage ; sosa:hosts ?device .
    ?device a ?ap_device_type .
    BIND(IF(?ap_device_type = ev:PVSystem, -1, 1) AS ?sign)
}
GROUP BY ?garage

Resultados Experimentales

Verificación de Viabilidad Técnica

  1. Implementación del Sistema Prototipo Exitosa: Implementación completa de sintaxis y semántica de SigSPARQL
  2. Ejecución de Consultas: Soporta consultas SELECT continuas (devolviendo TSS) y consultas CONSTRUCT (devolviendo grafos RDF actualizados continuamente)
  3. Procesamiento de Señales: Procesamiento exitoso de adquisición, cálculo y detección de eventos de señales

Efectos de Aplicación

  1. Capacidad de Consulta Unificada: Una única consulta puede aplicarse a diferentes instancias de sistemas dentro del mismo dominio
  2. Supervisión en Tiempo Real: Detección efectiva de eventos de violación de envolvente operativo
  3. Consulta Consciente del Contexto: Utilizar el conocimiento del sistema proporcionado por el grafo de conocimiento para mejorar la capacidad de expresión de consultas

Verificación Funcional

  • Procesamiento unificado exitoso de datos de sensores asincrónico
  • Soportar cálculos de señales complejos (suma, comparación, etc.)
  • Implementación de mecanismo de desencadenamiento de eventos y vinculación de marcas de tiempo
  • Verificación de corrección de consultas continuas

Trabajo Relacionado

Procesamiento de Flujos RDF

  1. Métodos Basados en Ventanas (C-SPARQL, RSP-QL, etc.): Dividir flujos sin límites en relaciones acotadas
  2. Sistemas Inspirados en CEP (EP-SPARQL, etc.): Detectar patrones en flujos de eventos

Consulta de Datos Temporales y OBDA

  1. Chrontext: Reescritura de consultas SPARQL a consultas de bases de datos de series temporales
  2. Ontop-temporal: Extender capacidad de consulta de fórmulas lógicas temporales
  3. STARQL: Método integral que soporta consultas continuas e históricas

Integración de Grafos y Series Temporales

  1. Método de Bollen et al.: Extender coincidencia de grafos para soportar mediciones y patrones de series temporales
  2. Investigación de Modelos de Datos Híbridos: Fusión de datos de grafos y series temporales

Ventaja Diferenciadora de este Artículo: Modelado de valores temporales basado en señales, utilizando teoría FRP para resolver problemas del método basado en observaciones

Conclusiones y Discusión

Conclusiones Principales

  1. El enfoque de "señales como ciudadano de primera clase" resuelve efectivamente las limitaciones de los métodos tradicionales basados en observaciones
  2. SigSPARQL proporciona una interfaz de consulta unificada para grafos de conocimiento y procesamiento de señales
  3. La viabilidad técnica se verifica mediante el sistema prototipo
  4. El valor práctico se demuestra en escenarios de supervisión de CPS

Limitaciones

  1. Restricción de Tipos de Señal: La complejidad de soportar todos los tipos de señal posibles es alta, el prototipo actual solo soporta la estrategia de "última observación"
  2. Limitación de Capacidad Expresiva: No se pueden expresar cálculos complejos de ventanas temporales como "promedio de los últimos 10 minutos"
  3. Análisis de Rendimiento Ausente: No incluye evaluación de rendimiento detallada
  4. Validación de Escala Insuficiente: Carece de validación en despliegues de CPS a gran escala

Direcciones Futuras

  1. Optimización de Rendimiento: Diseñar prototipo optimizado para evaluación de rendimiento y casos de uso de supervisión a gran escala
  2. Extensión Funcional: Agregar funciones avanzadas de procesamiento de señales (como operaciones de integración)
  3. Evaluación de Usuarios: Evaluar ventajas de usabilidad del lenguaje
  4. Grafos de Conocimiento Temporal: Extender semántica del lenguaje de consulta para soportar grafos de conocimiento temporal
  5. Despliegue Práctico: Investigar requisitos de despliegue en CPS reales

Evaluación Profunda

Fortalezas

  1. Base Teórica Sólida: Basada en teoría FRP, proporciona definiciones matemáticas rigurosas y semántica
  2. Definición Clara del Problema: Identifica con precisión los problemas principales de los métodos existentes y propone soluciones específicas
  3. Diseño Razonable: La extensión del lenguaje mantiene compatibilidad con SPARQL, con bajo costo de aprendizaje
  4. Implementación Completa: Forma una cadena completa desde teoría hasta prototipo hasta aplicación
  5. Innovación Fuerte: Primera introducción del concepto de señal FRP en consultas de grafos de conocimiento

Deficiencias

  1. Evaluación Limitada: Carece de comparación cuantitativa con métodos existentes y validación a gran escala
  2. Funcionalidad Restringida: La biblioteca de funciones de señal es relativamente simple, capacidad insuficiente para análisis temporal complejo
  3. Rendimiento Desconocido: Sin pruebas de rendimiento y análisis de optimización
  4. Alcance de Aplicación: Principalmente dirigido a supervisión de CPS, aplicabilidad en otros campos pendiente de verificación

Impacto

  1. Contribución Académica: Proporciona nuevas perspectivas para la integración de grafos de conocimiento y datos temporales
  2. Valor Práctico: Amplias perspectivas de aplicación en IoT, Industria 4.0 y otros campos
  3. Impulso Tecnológico: Puede promover el desarrollo adicional del estándar SPARQL
  4. Fusión Interdisciplinaria: Promueve la intersección de bases de datos, web semántica y programación funcional

Escenarios Aplicables

  1. Supervisión Industrial: Supervisión en tiempo real de sistemas de manufactura y redes energéticas
  2. Edificios Inteligentes: Monitoreo y control del estado de equipos de construcción
  3. Transporte Inteligente: Supervisión de flujo de tráfico y estado de vehículos
  4. Monitoreo Ambiental: Análisis de datos de redes de sensores a gran escala

Referencias

El artículo cita 36 referencias relacionadas, abarcando trabajos importantes en procesamiento de flujos RDF, consulta de datos temporales, programación reactiva funcional y otros campos clave, proporcionando una base teórica sólida y antecedentes técnicos para esta investigación.


Evaluación General: Este es un artículo de investigación de alta calidad en sistemas de bases de datos que realiza contribuciones importantes en la extensión de lenguajes de consulta de grafos de conocimiento. Posee una base teórica sólida, una solución técnica razonable e implementación relativamente completa. Aunque hay espacio para mejora en evaluación y rendimiento, proporciona una dirección valiosa y nueva para el desarrollo de campos relacionados.