2025-11-12T22:13:10.653124

SigSPARQL: Signals as a First-Class Citizen When Querying Knowledge Graphs

Schwarzinger, Steindl, FrÃ¼hwirth et al.

Purpose: Cyber-Physical Systems (CPSs) integrate computation and physical processes, producing time series data from thousands of sensors. Knowledge graphs can contextualize these data, yet current approaches that are applicably to monitoring CPS rely on observation-based approaches. This limits the ability to express computations on sensor data, especially when no assumptions can be made about sampling synchronicity or sampling rates. Methodology: We propose an approach for integrating knowledge graphs with signals that model run-time sensor data as functions from time to data. To demonstrate this approach, we introduce SigSPARQL, a query language that can combine RDF data and signals. We assess its technical feasibility with a prototype and demonstrate its use in a typical CPS monitoring use case. Findings: Our approach enables queries to combine graph-based knowledge with signals, overcoming some key limits of observation-based methods. The developed prototype successfully demonstrated feasibility and applicability. Value: This work presents a query-based approach for CPS monitoring that integrates knowledge graphs and signals, alleviating problems of observation-based approaches. By leveraging system knowledge, it enables operators to run a single query across different system instances within the same domain. Future work will extend SigSPARQL with additional signal functions and evaluate it in large-scale CPS deployments.

academic

SigSPARQL : Les Signaux en tant que Citoyen de Première Classe lors de l'Interrogation de Graphes de Connaissances

Informations Fondamentales

ID de l'article : 2506.03826
Titre : SigSPARQL: Signals as a First-Class Citizen When Querying Knowledge Graphs
Auteurs : Tobias Schwarzinger, Gernot Steindl, Thomas Frühwirth, Thomas Preindl, Konrad Diwold, Katrin Ehrenmüller, Fajar J. Ekaputra
Classification : cs.DB (Bases de Données)
Date de Publication : Juillet 2025
Lien de l'article : https://arxiv.org/abs/2506.03826

Résumé

Cet article propose une nouvelle approche combinant les graphes de connaissances et le traitement des signaux pour résoudre les problèmes d'interrogation de données dans la surveillance des systèmes cyberphysiques (CPS). Les méthodes traditionnelles basées sur les observations présentent des limitations lors du traitement des calculs de données de capteurs, particulièrement en cas d'échantillonnage asynchrone ou de fréquences d'échantillonnage incohérentes. Les auteurs proposent le langage de requête SigSPARQL, qui modélise les données de capteurs à l'exécution en tant que fonctions temps-vers-données (signaux), permettant l'interrogation unifiée des données RDF et des signaux. La faisabilité technique est validée par un système prototype, et les effets d'application sont démontrés dans des cas d'usage typiques de surveillance de CPS.

Contexte et Motivation de la Recherche

Définition du Problème

Problème central : Les systèmes cyberphysiques génèrent de grandes quantités de données de capteurs de séries temporelles qui doivent être analysées en combinaison avec les informations contextuelles du système. Cependant, les méthodes existantes basées sur les observations présentent une complexité et des limitations dans l'expression des calculs de données de capteurs.
Importance : Avec le développement de la numérisation, les CPS sont largement appliqués dans les bâtiments, les réseaux énergétiques, la fabrication et d'autres domaines. L'utilisation efficace des données de capteurs est cruciale pour l'analyse, la surveillance et le contrôle des systèmes.
Limitations des Méthodes Existantes :
- Les méthodes d'accès aux données basées sur l'ontologie (OBDA) dispersent les valeurs temporelles d'un seul capteur dans des milliers d'éléments représentant des observations indépendantes lors du mappage des séries temporelles vers des structures graphiques
- La complexité des requêtes augmente, nécessitant la reconstruction du concept de valeur temporelle à partir d'observations indépendantes
- Des défis se posent lors du traitement de séries temporelles asynchrones, où les observations avec des horodatages différents sont difficiles à combiner
- Absence d'un concept unifié pour la modélisation des données entre les observations
Motivation de la Recherche : Introduire le concept de signal en tant que « citoyen de première classe » pour abstraire les observations indépendantes et surmonter les insuffisances des méthodes actuelles dans l'expression des calculs de données de capteurs.

Contributions Principales

Proposition d'un cadre indépendant du langage : Définition de trois opérateurs fondamentaux (Signal, ApplySF, LiftVal) pour intégrer les langages de requête de graphes de connaissances et le traitement des signaux
Conception du langage de requête SigSPARQL : Extension de la syntaxe et de la sémantique SPARQL, supportant les signaux en tant que citoyens de première classe dans les résultats de requête
Construction d'un système prototype : Implémentation basée sur Oxigraph, validant la faisabilité technique
Fourniture d'une base théorique complète : Basée sur la théorie de la programmation réactive fonctionnelle (FRP), établissant les relations formelles entre les signaux et les données de séries temporelles
Démonstration de la valeur pratique : Preuve de l'applicabilité de la méthode par le biais d'un cas d'usage de surveillance de stations de recharge de véhicules électriques

Explication Détaillée de la Méthode

Définition de la Tâche

Entrée : Ensemble de données RDF annoté par des signaux <D, S, φ>, où D est l'ensemble de données RDF, S est l'ensemble de signaux RDF, et φ est la fonction d'annotation de signaux Sortie : Séquence de solutions temporelles (TSS) ou graphe RDF mis à jour en continu Contraintes : Support des requêtes continues, traitement des flux de données de capteurs asynchrones

Concepts Fondamentaux et Modèle de Données

1. Définition du Signal

Définition 7.1 : Un signal RDF ψ est une fonction (possiblement partielle) 
de la forme T → RDF, où T est le domaine temporel et RDF est l'ensemble 
des termes RDF

2. Ensemble de Données RDF Annoté par des Signaux

Définition 7.2 : <D, S, φ>
- D : Ensemble de données RDF conventionnel
- S : Ensemble de signaux RDF
- φ : Fonction partielle IRI×IRI → S (fonction d'annotation de signaux)

Cadre Indépendant du Langage

Les auteurs proposent trois opérateurs fondamentaux :

Signal(s, p) : Construction d'un signal basé sur une source de signal s et une propriété de signal p
ApplySF(f, a⃗) : Application d'une fonction de signal n-aire f à une liste de paramètres de signal de longueur n
LiftVal(v) : Élévation de la valeur v en signal constant

Conception du Langage SigSPARQL

Extensions Syntaxiques

Clause SIGNALS :

SIGNALS {
    ev:ActivePower FROM ?device AS ?ap
    ev:Envelope FROM ?garage AS ?env
}

Clause WHEN :

WHEN {
    SUM(?ap * ?sign) > ?env
    BECOMES TRUE AT ?violation_time
}

Définitions Sémantiques

Séquence de Solutions Temporelles (TSS) : Permet aux solutions de lier des variables à des termes RDF ou des signaux RDF, évaluables au point temporel τ
Requêtes Continues : Les requêtes SELECT retournent une TSS, les requêtes CONSTRUCT retournent un graphe RDF en croissance continue
Calcul de Signaux : Application ponctuelle des fonctions et opérateurs SPARQL au domaine des signaux

Points d'Innovation Technique

Abstraction des Signaux : Utilisation du concept de signal issu de la FRP pour remplacer l'approche basée sur les observations, fournissant une modélisation plus naturelle des données temporelles
Modèle de Requête Unifié : Combinaison des connaissances de structure graphique et du traitement des signaux temporels dans une seule requête
Extension du Système de Types : Extension de l'algèbre SPARQL pour supporter les types de signaux, gérant automatiquement l'élévation de type
Sémantique de Requête Continue : Définition d'un mécanisme de déclenchement d'événements, supportant les applications de surveillance en temps réel

Configuration Expérimentale

Implémentation du Prototype

Cadre de Base : Basé sur la base de données graphique Oxigraph
Modèle Temporel : Temps discret, utilisant la stratégie de « dernière observation » pour modéliser les données entre les observations
Approche d'Évaluation : Évaluation en deux étapes - construction de la description du calcul du signal, puis enregistrement du moteur de requête continue

Cas d'Usage de Validation

Scénario de Surveillance de Station de Recharge de Véhicules Électriques :

Composition du Système : Plusieurs chargeurs EV, système photovoltaïque, batterie
Objectif de Surveillance : Détection des événements de violation où la consommation d'énergie dépasse la limite d'enveloppe opérationnelle
Sources de Données : Capteurs de puissance active (AP), capteurs d'état de charge de batterie (SoC), limites d'enveloppe opérationnelle

Exemple de Requête

CONSTRUCT {
    ?garage ev:hasEnvelopeViolation [
        ev:description "Envelope Violated!" ;
        ev:startTime ?violation_time
    ]
}
WHEN {
    SUM(?ap * ?sign) > ?env
    BECOMES TRUE AT ?violation_time
}
SIGNALS {
    ev:ActivePower FROM ?device AS ?ap
    ev:Envelope FROM ?garage AS ?env
}
WHERE {
    ?garage a ev:Garage ; sosa:hosts ?device .
    ?device a ?ap_device_type .
    BIND(IF(?ap_device_type = ev:PVSystem, -1, 1) AS ?sign)
}
GROUP BY ?garage

Résultats Expérimentaux

Validation de la Faisabilité Technique

Implémentation du Prototype Réussie : Implémentation complète de la syntaxe et de la sémantique SigSPARQL
Exécution des Requêtes : Support des requêtes SELECT continues (retournant une TSS) et des requêtes CONSTRUCT (retournant un graphe RDF continuellement mis à jour)
Traitement des Signaux : Traitement réussi de l'acquisition, du calcul et de la détection d'événements de signaux

Effets d'Application

Capacité de Requête Unifiée : Une seule requête peut s'appliquer à différentes instances de systèmes dans le même domaine
Surveillance en Temps Réel : Détection efficace des événements de violation d'enveloppe opérationnelle
Conscience du Contexte : Amélioration de la capacité d'expression des requêtes en utilisant les connaissances du système fournies par le graphe de connaissances

Validation Fonctionnelle

Traitement unifié réussi des données de capteurs asynchrones
Support des calculs de signaux complexes (sommation, comparaison, etc.)
Implémentation du mécanisme de déclenchement d'événements et de liaison d'horodatage
Vérification de la correction des requêtes continues

Travaux Connexes

Traitement des Flux RDF

Approches Basées sur les Fenêtres (C-SPARQL, RSP-QL, etc.) : Division des flux non bornés en relations bornées
Systèmes Inspirés par CEP (EP-SPARQL, etc.) : Détection de motifs dans les flux d'événements

Interrogation de Données Temporelles et OBDA

Chrontext : Réécriture des requêtes SPARQL en requêtes de base de données de séries temporelles
Ontop-temporal : Extension de la capacité d'interrogation des formules logiques temporelles
STARQL : Approche synthétique supportant les requêtes continues et historiques

Intégration de Graphes et Séries Temporelles

Approche de Bollen et al. : Extension de la correspondance de graphes pour supporter les mesures et les motifs de séries temporelles
Recherche sur les Modèles de Données Hybrides : Fusion des données graphiques et de séries temporelles

Avantage Différencié de cet Article : Modélisation des valeurs temporelles basée sur les signaux, utilisant la théorie FRP pour résoudre les problèmes de la méthode basée sur les observations

Conclusion et Discussion

Conclusions Principales

L'approche des signaux en tant que citoyens de première classe résout efficacement les limitations des méthodes traditionnelles basées sur les observations
SigSPARQL fournit une interface de requête unifiée pour les graphes de connaissances et le traitement des signaux
La faisabilité technique est validée par le système prototype
La valeur pratique est démontrée dans les scénarios de surveillance de CPS

Limitations

Limitation des Types de Signaux : La complexité du support de tous les types de signaux possibles est élevée ; le prototype actuel ne supporte que la stratégie de « dernière observation »
Limitation de la Capacité d'Expression : Impossibilité d'exprimer des calculs complexes de fenêtres temporelles tels que « la moyenne des 10 dernières minutes »
Absence d'Analyse de Performance : Pas d'évaluation de performance détaillée
Validation d'Échelle Insuffisante : Manque de validation dans les déploiements de CPS à grande échelle

Directions Futures

Optimisation des Performances : Conception d'un prototype optimisé pour l'évaluation des performances et les cas d'usage de surveillance à grande échelle
Extension Fonctionnelle : Ajout de fonctions avancées de traitement des signaux (comme les opérations d'intégration)
Évaluation Utilisateur : Évaluation des avantages d'utilisabilité du langage
Graphes de Connaissances Temporels : Extension de la sémantique du langage de requête pour supporter les graphes de connaissances temporels
Déploiement Réel : Enquête sur les besoins des déploiements réels de CPS

Évaluation Approfondie

Points Forts

Base Théorique Solide : Basée sur la théorie FRP, fournissant des définitions mathématiques et une sémantique rigoureuses
Définition Claire du Problème : Identification précise des problèmes fondamentaux des méthodes existantes et proposition de solutions ciblées
Conception Rationnelle : L'extension du langage maintient la compatibilité avec SPARQL, réduisant les coûts d'apprentissage
Implémentation Complète : Formation d'une chaîne complète allant de la théorie au prototype à l'application
Innovation Forte : Introduction pour la première fois du concept de signal FRP dans l'interrogation de graphes de connaissances

Insuffisances

Évaluation Limitée : Absence de comparaison quantitative avec les méthodes existantes et de validation à grande échelle
Fonctionnalités Limitées : Bibliothèque de fonctions de signaux relativement simple, capacités d'analyse temporelle complexe insuffisantes
Performance Inconnue : Absence de tests de performance et d'analyse d'optimisation
Portée d'Application : Principalement orientée vers la surveillance de CPS, applicabilité à d'autres domaines à vérifier

Impact

Contribution Académique : Fournit une nouvelle perspective pour l'intégration des graphes de connaissances et des données temporelles
Valeur Pratique : Perspectives d'application larges dans l'Internet des Objets, l'Industrie 4.0 et d'autres domaines
Promotion Technologique : Peut promouvoir le développement ultérieur de la norme SPARQL
Fusion Interdisciplinaire : Favorise l'intersection entre les bases de données, le web sémantique et la programmation fonctionnelle

Scénarios Applicables

Surveillance Industrielle : Surveillance en temps réel des systèmes de fabrication et des réseaux énergétiques
Bâtiments Intelligents : Surveillance et contrôle de l'état des équipements de bâtiment
Transport Intelligent : Surveillance du flux de trafic et de l'état des véhicules
Surveillance Environnementale : Analyse des données de réseaux de capteurs à grande échelle

Références

L'article cite 36 références connexes, couvrant les travaux importants dans les domaines clés du traitement des flux RDF, de l'interrogation de données temporelles et de la programmation réactive fonctionnelle, fournissant une base théorique et un contexte technique solides pour cette recherche.

Évaluation Globale : Ceci est un article de recherche de haute qualité dans le domaine des systèmes de bases de données, apportant des contributions importantes à l'extension des langages de requête de graphes de connaissances. La base théorique est solide, la solution technique est rationnelle et l'implémentation est relativement complète. Bien qu'il y ait de la place pour l'amélioration dans l'évaluation et les performances, cet article fournit une direction nouvelle et précieuse pour le développement des domaines connexes.