SigSPARQL: Signals as a First-Class Citizen When Querying Knowledge Graphs
Schwarzinger, Steindl, Frühwirth et al.
Purpose: Cyber-Physical Systems (CPSs) integrate computation and physical processes, producing time series data from thousands of sensors. Knowledge graphs can contextualize these data, yet current approaches that are applicably to monitoring CPS rely on observation-based approaches. This limits the ability to express computations on sensor data, especially when no assumptions can be made about sampling synchronicity or sampling rates.
Methodology: We propose an approach for integrating knowledge graphs with signals that model run-time sensor data as functions from time to data. To demonstrate this approach, we introduce SigSPARQL, a query language that can combine RDF data and signals. We assess its technical feasibility with a prototype and demonstrate its use in a typical CPS monitoring use case.
Findings: Our approach enables queries to combine graph-based knowledge with signals, overcoming some key limits of observation-based methods. The developed prototype successfully demonstrated feasibility and applicability.
Value: This work presents a query-based approach for CPS monitoring that integrates knowledge graphs and signals, alleviating problems of observation-based approaches. By leveraging system knowledge, it enables operators to run a single query across different system instances within the same domain. Future work will extend SigSPARQL with additional signal functions and evaluate it in large-scale CPS deployments.
academic
SigSPARQL: Señales como Ciudadano de Primera Clase al Consultar Grafos de Conocimiento
Este artículo propone un nuevo enfoque que combina grafos de conocimiento con procesamiento de señales para abordar problemas de consulta de datos en la supervisión de sistemas ciber-físicos (CPS). Los métodos tradicionales basados en observaciones presentan limitaciones al procesar cálculos de datos de sensores, particularmente cuando el muestreo es asincrónico o las tasas de muestreo son inconsistentes. Los autores proponen el lenguaje de consulta SigSPARQL, que modela datos de sensores en tiempo de ejecución como funciones de tiempo a datos (señales), logrando una consulta unificada de datos RDF y señales. La viabilidad técnica se verifica mediante un sistema prototipo y se demuestran los efectos de aplicación en casos de uso típicos de supervisión de CPS.
Problema Central: Los sistemas ciber-físicos generan grandes volúmenes de datos de sensores de series temporales que requieren combinarse con información contextual del sistema para análisis, pero los métodos actuales basados en observaciones presentan complejidad y limitaciones en la expresión de cálculos de datos de sensores.
Importancia: Con el desarrollo de la digitalización, los CPS se aplican ampliamente en construcción, redes energéticas, manufactura y otros campos, siendo crucial la utilización efectiva de datos de sensores para análisis, supervisión y control del sistema.
Limitaciones de Métodos Existentes:
Los métodos de acceso a datos basados en ontología (OBDA) dispersan valores temporales de un único sensor en miles de elementos que representan observaciones independientes al mapear series temporales a estructuras gráficas
La complejidad de consultas aumenta, requiriendo reconstruir el concepto de valor temporal a partir de observaciones independientes
Enfrentan desafíos al procesar series temporales asincrónicas, siendo difícil combinar observaciones con diferentes marcas de tiempo
Carecen de un concepto unificado para modelar datos entre valores observados
Motivación de Investigación: Introducir el concepto de señal (Signal) como "ciudadano de primera clase", abstraer observaciones independientes y superar las deficiencias de los métodos actuales en la expresión de cálculos de datos de sensores.
Se propone un marco independiente del lenguaje: Define tres operadores principales (Signal, ApplySF, LiftVal) para integrar lenguajes de consulta de grafos de conocimiento con procesamiento de señales
Se diseña el lenguaje de consulta SigSPARQL: Extiende la sintaxis y semántica de SPARQL, permitiendo que las señales sean ciudadanos de primera clase en los resultados de consultas
Se construye un sistema prototipo: Implementado basado en Oxigraph, verificando la viabilidad técnica
Se proporciona una base teórica completa: Basada en la teoría de programación reactiva funcional (FRP), estableciendo relaciones formalizadas entre señales y datos de series temporales
Se demuestra valor de aplicación práctica: A través de un caso de uso de supervisión de estaciones de carga de vehículos eléctricos, se prueba la aplicabilidad del método
Entrada: Conjunto de datos RDF anotado con señales <D, S, φ>, donde D es el conjunto de datos RDF, S es el conjunto de señales RDF, φ es la función de anotación de señales
Salida: Series temporales de soluciones (TSS) o grafo RDF actualizado continuamente
Restricciones: Soportar consultas continuas, procesar flujos de datos de sensores asincrónico
Definición 7.1: Una señal RDF ψ es una función (posiblemente parcial)
de la forma T→RDF, donde T es el dominio temporal y RDF es el
conjunto de términos RDF
Definición 7.2: <D, S, φ>
- D: Conjunto de datos RDF convencional
- S: Conjunto de señales RDF
- φ: Función parcial IRI×IRI→S (función de anotación de señales)
Abstracción de Señal: Utilizar el concepto de señal de FRP para reemplazar el método basado en observaciones, proporcionando un modelado de datos temporales más natural
Modelo de Consulta Unificado: Combinar conocimiento de estructura gráfica y procesamiento de señales temporales en una única consulta
Extensión del Sistema de Tipos: Extender el álgebra SPARQL para soportar tipos de señal, manejando automáticamente la elevación de tipos
Semántica de Consulta Continua: Definir mecanismo de eventos desencadenantes, soportando aplicaciones de supervisión en tiempo real
Capacidad de Consulta Unificada: Una única consulta puede aplicarse a diferentes instancias de sistemas dentro del mismo dominio
Supervisión en Tiempo Real: Detección efectiva de eventos de violación de envolvente operativo
Consulta Consciente del Contexto: Utilizar el conocimiento del sistema proporcionado por el grafo de conocimiento para mejorar la capacidad de expresión de consultas
Método de Bollen et al.: Extender coincidencia de grafos para soportar mediciones y patrones de series temporales
Investigación de Modelos de Datos Híbridos: Fusión de datos de grafos y series temporales
Ventaja Diferenciadora de este Artículo: Modelado de valores temporales basado en señales, utilizando teoría FRP para resolver problemas del método basado en observaciones
Restricción de Tipos de Señal: La complejidad de soportar todos los tipos de señal posibles es alta, el prototipo actual solo soporta la estrategia de "última observación"
Limitación de Capacidad Expresiva: No se pueden expresar cálculos complejos de ventanas temporales como "promedio de los últimos 10 minutos"
Análisis de Rendimiento Ausente: No incluye evaluación de rendimiento detallada
Validación de Escala Insuficiente: Carece de validación en despliegues de CPS a gran escala
El artículo cita 36 referencias relacionadas, abarcando trabajos importantes en procesamiento de flujos RDF, consulta de datos temporales, programación reactiva funcional y otros campos clave, proporcionando una base teórica sólida y antecedentes técnicos para esta investigación.
Evaluación General: Este es un artículo de investigación de alta calidad en sistemas de bases de datos que realiza contribuciones importantes en la extensión de lenguajes de consulta de grafos de conocimiento. Posee una base teórica sólida, una solución técnica razonable e implementación relativamente completa. Aunque hay espacio para mejora en evaluación y rendimiento, proporciona una dirección valiosa y nueva para el desarrollo de campos relacionados.