2025-11-12T22:13:10.653124

SigSPARQL: Signals as a First-Class Citizen When Querying Knowledge Graphs

Schwarzinger, Steindl, FrÃ¼hwirth et al.

Purpose: Cyber-Physical Systems (CPSs) integrate computation and physical processes, producing time series data from thousands of sensors. Knowledge graphs can contextualize these data, yet current approaches that are applicably to monitoring CPS rely on observation-based approaches. This limits the ability to express computations on sensor data, especially when no assumptions can be made about sampling synchronicity or sampling rates. Methodology: We propose an approach for integrating knowledge graphs with signals that model run-time sensor data as functions from time to data. To demonstrate this approach, we introduce SigSPARQL, a query language that can combine RDF data and signals. We assess its technical feasibility with a prototype and demonstrate its use in a typical CPS monitoring use case. Findings: Our approach enables queries to combine graph-based knowledge with signals, overcoming some key limits of observation-based methods. The developed prototype successfully demonstrated feasibility and applicability. Value: This work presents a query-based approach for CPS monitoring that integrates knowledge graphs and signals, alleviating problems of observation-based approaches. By leveraging system knowledge, it enables operators to run a single query across different system instances within the same domain. Future work will extend SigSPARQL with additional signal functions and evaluate it in large-scale CPS deployments.

academic

SigSPARQL: Señales como Ciudadano de Primera Clase al Consultar Grafos de Conocimiento

Información Básica

ID del Artículo: 2506.03826
Título: SigSPARQL: Signals as a First-Class Citizen When Querying Knowledge Graphs
Autores: Tobias Schwarzinger, Gernot Steindl, Thomas Frühwirth, Thomas Preindl, Konrad Diwold, Katrin Ehrenmüller, Fajar J. Ekaputra
Clasificación: cs.DB (Bases de Datos)
Fecha de Publicación: Julio de 2025
Enlace del Artículo: https://arxiv.org/abs/2506.03826

Resumen

Este artículo propone un nuevo enfoque que combina grafos de conocimiento con procesamiento de señales para abordar problemas de consulta de datos en la supervisión de sistemas ciber-físicos (CPS). Los métodos tradicionales basados en observaciones presentan limitaciones al procesar cálculos de datos de sensores, particularmente cuando el muestreo es asincrónico o las tasas de muestreo son inconsistentes. Los autores proponen el lenguaje de consulta SigSPARQL, que modela datos de sensores en tiempo de ejecución como funciones de tiempo a datos (señales), logrando una consulta unificada de datos RDF y señales. La viabilidad técnica se verifica mediante un sistema prototipo y se demuestran los efectos de aplicación en casos de uso típicos de supervisión de CPS.

Antecedentes de Investigación y Motivación

Definición del Problema

Problema Central: Los sistemas ciber-físicos generan grandes volúmenes de datos de sensores de series temporales que requieren combinarse con información contextual del sistema para análisis, pero los métodos actuales basados en observaciones presentan complejidad y limitaciones en la expresión de cálculos de datos de sensores.
Importancia: Con el desarrollo de la digitalización, los CPS se aplican ampliamente en construcción, redes energéticas, manufactura y otros campos, siendo crucial la utilización efectiva de datos de sensores para análisis, supervisión y control del sistema.
Limitaciones de Métodos Existentes:
- Los métodos de acceso a datos basados en ontología (OBDA) dispersan valores temporales de un único sensor en miles de elementos que representan observaciones independientes al mapear series temporales a estructuras gráficas
- La complejidad de consultas aumenta, requiriendo reconstruir el concepto de valor temporal a partir de observaciones independientes
- Enfrentan desafíos al procesar series temporales asincrónicas, siendo difícil combinar observaciones con diferentes marcas de tiempo
- Carecen de un concepto unificado para modelar datos entre valores observados
Motivación de Investigación: Introducir el concepto de señal (Signal) como "ciudadano de primera clase", abstraer observaciones independientes y superar las deficiencias de los métodos actuales en la expresión de cálculos de datos de sensores.

Contribuciones Principales

Se propone un marco independiente del lenguaje: Define tres operadores principales (Signal, ApplySF, LiftVal) para integrar lenguajes de consulta de grafos de conocimiento con procesamiento de señales
Se diseña el lenguaje de consulta SigSPARQL: Extiende la sintaxis y semántica de SPARQL, permitiendo que las señales sean ciudadanos de primera clase en los resultados de consultas
Se construye un sistema prototipo: Implementado basado en Oxigraph, verificando la viabilidad técnica
Se proporciona una base teórica completa: Basada en la teoría de programación reactiva funcional (FRP), estableciendo relaciones formalizadas entre señales y datos de series temporales
Se demuestra valor de aplicación práctica: A través de un caso de uso de supervisión de estaciones de carga de vehículos eléctricos, se prueba la aplicabilidad del método

Explicación Detallada del Método

Definición de la Tarea

Entrada: Conjunto de datos RDF anotado con señales <D, S, φ>, donde D es el conjunto de datos RDF, S es el conjunto de señales RDF, φ es la función de anotación de señales Salida: Series temporales de soluciones (TSS) o grafo RDF actualizado continuamente Restricciones: Soportar consultas continuas, procesar flujos de datos de sensores asincrónico

Conceptos Principales y Modelo de Datos

1. Definición de Señal

Definición 7.1: Una señal RDF ψ es una función (posiblemente parcial) 
de la forma T→RDF, donde T es el dominio temporal y RDF es el 
conjunto de términos RDF

2. Conjunto de Datos RDF Anotado con Señales

Definición 7.2: <D, S, φ>
- D: Conjunto de datos RDF convencional
- S: Conjunto de señales RDF  
- φ: Función parcial IRI×IRI→S (función de anotación de señales)

Marco Independiente del Lenguaje

Los autores proponen tres operadores principales:

Signal(s, p): Construir una señal basada en la fuente de señal s y la propiedad de señal p
ApplySF(f, a⃗): Aplicar una función de señal n-aria f a una lista de parámetros de señal de longitud n
LiftVal(v): Elevar el valor v a una señal constante

Diseño del Lenguaje SigSPARQL

Extensión de Sintaxis

Cláusula SIGNALS:

SIGNALS {
    ev:ActivePower FROM ?device AS ?ap
    ev:Envelope FROM ?garage AS ?env
}

Cláusula WHEN:

WHEN {
    SUM(?ap * ?sign) > ?env
    BECOMES TRUE AT ?violation_time
}

Definición de Semántica

Series Temporales de Soluciones (TSS): Permite que las soluciones vinculen variables a términos RDF o señales RDF, evaluables en puntos temporales τ
Consultas Continuas: Las consultas SELECT devuelven TSS, las consultas CONSTRUCT devuelven grafos RDF que crecen continuamente
Cálculo de Señales: Mediante aplicación puntual, se elevan funciones y operadores SPARQL al dominio de señales

Puntos de Innovación Técnica

Abstracción de Señal: Utilizar el concepto de señal de FRP para reemplazar el método basado en observaciones, proporcionando un modelado de datos temporales más natural
Modelo de Consulta Unificado: Combinar conocimiento de estructura gráfica y procesamiento de señales temporales en una única consulta
Extensión del Sistema de Tipos: Extender el álgebra SPARQL para soportar tipos de señal, manejando automáticamente la elevación de tipos
Semántica de Consulta Continua: Definir mecanismo de eventos desencadenantes, soportando aplicaciones de supervisión en tiempo real

Configuración Experimental

Implementación del Prototipo

Marco Base: Basado en la base de datos de grafos Oxigraph
Modelo Temporal: Tiempo discreto, utilizando estrategia de "última observación" para modelar datos entre observaciones
Método de Evaluación: Evaluación en dos pasos - construir descripción de cálculo de señal, luego registrar motor de consultas continuas

Caso de Uso de Verificación

Escenario de Supervisión de Estación de Carga de Vehículos Eléctricos:

Composición del Sistema: Múltiples cargadores EV, sistema fotovoltaico, batería
Objetivo de Supervisión: Detectar eventos de violación donde el consumo de potencia excede el límite de envolvente operativo
Fuentes de Datos: Sensores de potencia activa (AP), sensores de estado de carga (SoC), límites de envolvente operativo

Ejemplo de Consulta

CONSTRUCT {
    ?garage ev:hasEnvelopeViolation [
        ev:description "¡Envolvente Violada!" ;
        ev:startTime ?violation_time
    ]
}
WHEN {
    SUM(?ap * ?sign) > ?env
    BECOMES TRUE AT ?violation_time
}
SIGNALS {
    ev:ActivePower FROM ?device AS ?ap
    ev:Envelope FROM ?garage AS ?env
}
WHERE {
    ?garage a ev:Garage ; sosa:hosts ?device .
    ?device a ?ap_device_type .
    BIND(IF(?ap_device_type = ev:PVSystem, -1, 1) AS ?sign)
}
GROUP BY ?garage

Resultados Experimentales

Verificación de Viabilidad Técnica

Implementación del Sistema Prototipo Exitosa: Implementación completa de sintaxis y semántica de SigSPARQL
Ejecución de Consultas: Soporta consultas SELECT continuas (devolviendo TSS) y consultas CONSTRUCT (devolviendo grafos RDF actualizados continuamente)
Procesamiento de Señales: Procesamiento exitoso de adquisición, cálculo y detección de eventos de señales

Efectos de Aplicación

Capacidad de Consulta Unificada: Una única consulta puede aplicarse a diferentes instancias de sistemas dentro del mismo dominio
Supervisión en Tiempo Real: Detección efectiva de eventos de violación de envolvente operativo
Consulta Consciente del Contexto: Utilizar el conocimiento del sistema proporcionado por el grafo de conocimiento para mejorar la capacidad de expresión de consultas

Verificación Funcional

Procesamiento unificado exitoso de datos de sensores asincrónico
Soportar cálculos de señales complejos (suma, comparación, etc.)
Implementación de mecanismo de desencadenamiento de eventos y vinculación de marcas de tiempo
Verificación de corrección de consultas continuas

Trabajo Relacionado

Procesamiento de Flujos RDF

Métodos Basados en Ventanas (C-SPARQL, RSP-QL, etc.): Dividir flujos sin límites en relaciones acotadas
Sistemas Inspirados en CEP (EP-SPARQL, etc.): Detectar patrones en flujos de eventos

Consulta de Datos Temporales y OBDA

Chrontext: Reescritura de consultas SPARQL a consultas de bases de datos de series temporales
Ontop-temporal: Extender capacidad de consulta de fórmulas lógicas temporales
STARQL: Método integral que soporta consultas continuas e históricas

Integración de Grafos y Series Temporales

Método de Bollen et al.: Extender coincidencia de grafos para soportar mediciones y patrones de series temporales
Investigación de Modelos de Datos Híbridos: Fusión de datos de grafos y series temporales

Ventaja Diferenciadora de este Artículo: Modelado de valores temporales basado en señales, utilizando teoría FRP para resolver problemas del método basado en observaciones

Conclusiones y Discusión

Conclusiones Principales

El enfoque de "señales como ciudadano de primera clase" resuelve efectivamente las limitaciones de los métodos tradicionales basados en observaciones
SigSPARQL proporciona una interfaz de consulta unificada para grafos de conocimiento y procesamiento de señales
La viabilidad técnica se verifica mediante el sistema prototipo
El valor práctico se demuestra en escenarios de supervisión de CPS

Limitaciones

Restricción de Tipos de Señal: La complejidad de soportar todos los tipos de señal posibles es alta, el prototipo actual solo soporta la estrategia de "última observación"
Limitación de Capacidad Expresiva: No se pueden expresar cálculos complejos de ventanas temporales como "promedio de los últimos 10 minutos"
Análisis de Rendimiento Ausente: No incluye evaluación de rendimiento detallada
Validación de Escala Insuficiente: Carece de validación en despliegues de CPS a gran escala

Direcciones Futuras

Optimización de Rendimiento: Diseñar prototipo optimizado para evaluación de rendimiento y casos de uso de supervisión a gran escala
Extensión Funcional: Agregar funciones avanzadas de procesamiento de señales (como operaciones de integración)
Evaluación de Usuarios: Evaluar ventajas de usabilidad del lenguaje
Grafos de Conocimiento Temporal: Extender semántica del lenguaje de consulta para soportar grafos de conocimiento temporal
Despliegue Práctico: Investigar requisitos de despliegue en CPS reales

Evaluación Profunda

Fortalezas

Base Teórica Sólida: Basada en teoría FRP, proporciona definiciones matemáticas rigurosas y semántica
Definición Clara del Problema: Identifica con precisión los problemas principales de los métodos existentes y propone soluciones específicas
Diseño Razonable: La extensión del lenguaje mantiene compatibilidad con SPARQL, con bajo costo de aprendizaje
Implementación Completa: Forma una cadena completa desde teoría hasta prototipo hasta aplicación
Innovación Fuerte: Primera introducción del concepto de señal FRP en consultas de grafos de conocimiento

Deficiencias

Evaluación Limitada: Carece de comparación cuantitativa con métodos existentes y validación a gran escala
Funcionalidad Restringida: La biblioteca de funciones de señal es relativamente simple, capacidad insuficiente para análisis temporal complejo
Rendimiento Desconocido: Sin pruebas de rendimiento y análisis de optimización
Alcance de Aplicación: Principalmente dirigido a supervisión de CPS, aplicabilidad en otros campos pendiente de verificación

Impacto

Contribución Académica: Proporciona nuevas perspectivas para la integración de grafos de conocimiento y datos temporales
Valor Práctico: Amplias perspectivas de aplicación en IoT, Industria 4.0 y otros campos
Impulso Tecnológico: Puede promover el desarrollo adicional del estándar SPARQL
Fusión Interdisciplinaria: Promueve la intersección de bases de datos, web semántica y programación funcional

Escenarios Aplicables

Supervisión Industrial: Supervisión en tiempo real de sistemas de manufactura y redes energéticas
Edificios Inteligentes: Monitoreo y control del estado de equipos de construcción
Transporte Inteligente: Supervisión de flujo de tráfico y estado de vehículos
Monitoreo Ambiental: Análisis de datos de redes de sensores a gran escala

Referencias

El artículo cita 36 referencias relacionadas, abarcando trabajos importantes en procesamiento de flujos RDF, consulta de datos temporales, programación reactiva funcional y otros campos clave, proporcionando una base teórica sólida y antecedentes técnicos para esta investigación.

Evaluación General: Este es un artículo de investigación de alta calidad en sistemas de bases de datos que realiza contribuciones importantes en la extensión de lenguajes de consulta de grafos de conocimiento. Posee una base teórica sólida, una solución técnica razonable e implementación relativamente completa. Aunque hay espacio para mejora en evaluación y rendimiento, proporciona una dirección valiosa y nueva para el desarrollo de campos relacionados.