2025-11-12T22:13:10.653124

SigSPARQL: Signals as a First-Class Citizen When Querying Knowledge Graphs

Schwarzinger, Steindl, Frühwirth et al.
Purpose: Cyber-Physical Systems (CPSs) integrate computation and physical processes, producing time series data from thousands of sensors. Knowledge graphs can contextualize these data, yet current approaches that are applicably to monitoring CPS rely on observation-based approaches. This limits the ability to express computations on sensor data, especially when no assumptions can be made about sampling synchronicity or sampling rates. Methodology: We propose an approach for integrating knowledge graphs with signals that model run-time sensor data as functions from time to data. To demonstrate this approach, we introduce SigSPARQL, a query language that can combine RDF data and signals. We assess its technical feasibility with a prototype and demonstrate its use in a typical CPS monitoring use case. Findings: Our approach enables queries to combine graph-based knowledge with signals, overcoming some key limits of observation-based methods. The developed prototype successfully demonstrated feasibility and applicability. Value: This work presents a query-based approach for CPS monitoring that integrates knowledge graphs and signals, alleviating problems of observation-based approaches. By leveraging system knowledge, it enables operators to run a single query across different system instances within the same domain. Future work will extend SigSPARQL with additional signal functions and evaluate it in large-scale CPS deployments.
academic

SigSPARQL: Signale als Bürger erster Klasse beim Abfragen von Wissensgraphen

Grundinformationen

  • Paper-ID: 2506.03826
  • Titel: SigSPARQL: Signals as a First-Class Citizen When Querying Knowledge Graphs
  • Autoren: Tobias Schwarzinger, Gernot Steindl, Thomas Frühwirth, Thomas Preindl, Konrad Diwold, Katrin Ehrenmüller, Fajar J. Ekaputra
  • Klassifizierung: cs.DB (Datenbanken)
  • Veröffentlichungsdatum: Juli 2025
  • Paper-Link: https://arxiv.org/abs/2506.03826

Zusammenfassung

Dieses Papier präsentiert einen neuartigen Ansatz zur Datenabfrage in der Überwachung von Cyber-physischen Systemen (CPS), der Wissensgraphen mit Signalverarbeitung kombiniert. Traditionelle Methoden basieren auf Beobachtungsdaten und weisen Einschränkungen bei der Verarbeitung von Sensordatenberechnungen auf, besonders bei asynchronem oder inkonsistentem Abtastverhalten. Die Autoren stellen die Abfragesprache SigSPARQL vor, die Laufzeit-Sensordaten als zeitabhängige Funktionen (Signale) modelliert und einheitliche Abfragen von RDF-Daten und Signalen ermöglicht. Ein Prototypsystem validiert die technische Machbarkeit und demonstriert die Anwendungseffektivität in typischen CPS-Überwachungsszenarien.

Forschungshintergrund und Motivation

Problemdefinition

  1. Kernproblem: Cyber-physische Systeme erzeugen große Mengen zeitlicher Sensordaten, die mit Systeminformationen kombiniert werden müssen. Bestehende beobachtungsbasierte Methoden weisen jedoch Komplexität und Einschränkungen bei der Ausdrucksfähigkeit von Sensordatenberechnungen auf.
  2. Bedeutung: Mit der digitalen Transformation werden CPS in Gebäuden, Energienetzen, Fertigung und anderen Bereichen weit verbreitet. Die effektive Nutzung von Sensordaten ist für Systemanalyse, Überwachung und Steuerung entscheidend.
  3. Einschränkungen bestehender Methoden:
    • Ontologie-basierte Datenzugriffsmethoden (OBDA) verteilen zeitliche Werte eines einzelnen Sensors über Tausende von Elementen, die unabhängige Beobachtungen darstellen
    • Die Abfragekomplexität nimmt zu, da zeitliche Wertkonzepte aus unabhängigen Beobachtungen rekonstruiert werden müssen
    • Herausforderungen bei der Verarbeitung asynchroner Zeitreihen, da Beobachtungen mit unterschiedlichen Zeitstempeln schwer zu kombinieren sind
    • Fehlende einheitliche Konzepte für die Datenmodellierung zwischen Beobachtungen
  4. Forschungsmotivation: Einführung des Signalkonzepts als „Bürger erster Klasse" zur Abstraktion unabhängiger Beobachtungen und Überwindung der Ausdruckslimitierungen bestehender Methoden.

Kernbeiträge

  1. Sprachunabhängiges Framework: Definition von drei Kernoperatoren (Signal, ApplySF, LiftVal) zur Integration von Wissensgraph-Abfragesprachen mit Signalverarbeitung
  2. Entwurf der SigSPARQL-Abfragesprache: Erweiterung der SPARQL-Syntax und -Semantik mit Unterstützung für Signale als Bürger erster Klasse in Abfrageergebnissen
  3. Prototypsystem: Implementierung basierend auf Oxigraph zur Validierung der technischen Machbarkeit
  4. Umfassende theoretische Grundlagen: Basierend auf funktionaler reaktiver Programmierung (FRP), etabliert formale Beziehungen zwischen Signalen und Zeitreihendaten
  5. Praktischer Anwendungswert: Demonstration der Anwendbarkeit durch ein Überwachungsszenario für Elektrofahrzeug-Ladestationen

Methodische Details

Aufgabendefinition

Eingabe: Mit Signalen annotierter RDF-Datensatz <D, S, φ>, wobei D der RDF-Datensatz ist, S die Menge der RDF-Signale und φ die Signalnotationsfunktion Ausgabe: Zeitlich gelöste Sequenzen (TSS) oder kontinuierlich aktualisierte RDF-Graphen Einschränkungen: Unterstützung kontinuierlicher Abfragen, Verarbeitung asynchroner Sensordatenströme

Kernkonzepte und Datenmodell

1. Signaledefinition

Definition 7.1: Ein RDF-Signal ψ ist eine (möglicherweise partielle) Funktion 
der Form T→RDF, wobei T die Zeitdomäne und RDF die Menge der RDF-Terme ist

2. Mit Signalen annotierter RDF-Datensatz

Definition 7.2: <D, S, φ>
- D: Konventioneller RDF-Datensatz
- S: Menge der RDF-Signale  
- φ: Partielle Funktion IRI×IRI→S (Signalnotationsfunktion)

Sprachunabhängiges Framework

Die Autoren präsentieren drei Kernoperatoren:

  1. Signal(s, p): Konstruktion eines Signals basierend auf Signalquelle s und Signaleigenschaft p
  2. ApplySF(f, a⃗): Anwendung einer n-stelligen Signalfunktion f auf eine Parameterliste von n Signalen
  3. LiftVal(v): Erhebung des Wertes v zu einem konstanten Signal

SigSPARQL-Sprachentwurf

Syntaxerweiterung

  1. SIGNALS-Klausel:
SIGNALS {
    ev:ActivePower FROM ?device AS ?ap
    ev:Envelope FROM ?garage AS ?env
}
  1. WHEN-Klausel:
WHEN {
    SUM(?ap * ?sign) > ?env
    BECOMES TRUE AT ?violation_time
}

Semantikdefinition

  1. Zeitlich gelöste Sequenzen (TSS): Ermöglichen Lösungen, die Variablen an RDF-Terme oder RDF-Signale binden und zu Zeitpunkt τ auswerten können
  2. Kontinuierliche Abfragen: SELECT-Abfragen geben TSS zurück, CONSTRUCT-Abfragen geben kontinuierlich wachsende RDF-Graphen zurück
  3. Signalberechnung: Punktweise Anwendung von SPARQL-Funktionen und Operatoren auf die Signaldomäne

Technische Innovationen

  1. Signalabstraktion: Verwendung des FRP-Signalkonzepts anstelle beobachtungsbasierter Methoden für natürlichere Zeitdatenmodellierung
  2. Einheitliches Abfragemodell: Kombination von Graphstrukturwissen und zeitlicher Signalverarbeitung in einer einzigen Abfrage
  3. Typensystem-Erweiterung: Erweiterung der SPARQL-Algebra zur Unterstützung von Signaltypen mit automatischer Typerhebung
  4. Kontinuierliche Abfrage-Semantik: Definition von Triggermechanismen zur Unterstützung von Echtzeitüberwachungsanwendungen

Experimentelle Einrichtung

Prototyp-Implementierung

  • Grundgerüst: Basierend auf der Oxigraph-Graphdatenbank
  • Zeitmodell: Diskrete Zeit mit „Last-Observation-Carried-Forward"-Strategie zur Modellierung von Daten zwischen Beobachtungen
  • Evaluierungsmethode: Zweistufige Evaluierung – Konstruktion von Signalberechnungsbeschreibungen, dann Registrierung in der kontinuierlichen Abfrage-Engine

Validierungsszenario

Überwachung von Elektrofahrzeug-Ladestationen:

  • Systemkomponenten: Mehrere EV-Ladegeräte, Photovoltaik-Systeme, Batterien
  • Überwachungsziel: Erkennung von Stromverbrauchsverletzungen, die die Betriebsgrenzen überschreiten
  • Datenquellen: Wirkleistungs-Sensoren (AP), Batterie-Ladezustand-Sensoren (SoC), Betriebsgrenzen

Abfragebeispiel

CONSTRUCT {
    ?garage ev:hasEnvelopeViolation [
        ev:description "Envelope Violated!" ;
        ev:startTime ?violation_time
    ]
}
WHEN {
    SUM(?ap * ?sign) > ?env
    BECOMES TRUE AT ?violation_time
}
SIGNALS {
    ev:ActivePower FROM ?device AS ?ap
    ev:Envelope FROM ?garage AS ?env
}
WHERE {
    ?garage a ev:Garage ; sosa:hosts ?device .
    ?device a ?ap_device_type .
    BIND(IF(?ap_device_type = ev:PVSystem, -1, 1) AS ?sign)
}
GROUP BY ?garage

Experimentelle Ergebnisse

Validierung der technischen Machbarkeit

  1. Erfolgreiche Prototyp-Implementierung: Vollständige Implementierung der SigSPARQL-Syntax und -Semantik
  2. Abfrageausführung: Unterstützung kontinuierlicher SELECT-Abfragen (Rückgabe von TSS) und CONSTRUCT-Abfragen (Rückgabe kontinuierlich aktualisierter RDF-Graphen)
  3. Signalverarbeitung: Erfolgreiche Verarbeitung von Signalbeschaffung, -berechnung und -ereigniserkennung

Anwendungseffektivität

  1. Einheitliche Abfragefähigkeit: Einzelne Abfrage anwendbar auf verschiedene Systeminstanzen innerhalb derselben Domäne
  2. Echtzeitüberwachung: Effektive Erkennung von Betriebsgrenzverletzungen
  3. Kontextbewusstsein: Nutzung von Wissensgraph-Informationen zur Verbesserung der Abfrageausdrucksfähigkeit

Funktionsvalidierung

  • Erfolgreiche Verarbeitung asynchroner Sensordaten in einheitlicher Weise
  • Unterstützung komplexer Signalberechnungen (Summation, Vergleich usw.)
  • Implementierung von Ereignistriggermechanismen und Zeitstempel-Bindung
  • Validierung der Korrektheit kontinuierlicher Abfragen

Verwandte Arbeiten

RDF-Stromverarbeitung

  1. Fensterbasierte Methoden (C-SPARQL, RSP-QL usw.): Aufteilung unbegrenzter Ströme in begrenzte Relationen
  2. CEP-inspirierte Systeme (EP-SPARQL usw.): Mustererkennung in Ereignisströmen

Zeitdaten-Abfrage und OBDA

  1. Chrontext: Umschreibung von SPARQL-Abfragen in Zeitreihendatenbank-Abfragen
  2. Ontop-temporal: Erweiterung der Abfragefähigkeit mit zeitlichen Logikformeln
  3. STARQL: Umfassender Ansatz zur Unterstützung kontinuierlicher und historischer Abfragen

Graph- und Zeitreihen-Integration

  1. Ansatz von Bollen et al.: Erweiterung der Graphabstimmung zur Unterstützung von Messungen und Zeitreihenmuster
  2. Hybride Datenmodellforschung: Fusion von Graph- und Zeitreihendaten

Differenzierungsvorteil dieses Papiers: Signalbasierte Modellierung zeitlicher Werte unter Nutzung der FRP-Theorie zur Lösung von Problemen beobachtungsbasierter Methoden

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Der Ansatz von Signalen als Bürgern erster Klasse löst effektiv die Einschränkungen traditioneller Beobachtungsmethoden
  2. SigSPARQL bietet eine einheitliche Abfrageschnittstelle für Wissensgraphen und Signalverarbeitung
  3. Die technische Machbarkeit wurde durch das Prototypsystem validiert
  4. Der praktische Wert wurde in CPS-Überwachungsszenarien nachgewiesen

Einschränkungen

  1. Signaltyp-Einschränkungen: Die Unterstützung aller möglichen Signaltypen ist komplex; der aktuelle Prototyp unterstützt nur die „Last-Observation-Carried-Forward"-Strategie
  2. Ausdrucksfähigkeits-Einschränkungen: Unmöglichkeit, komplexe Zeitfensterberechnungen wie „Durchschnitt der letzten 10 Minuten" auszudrücken
  3. Fehlende Leistungsanalyse: Keine detaillierten Leistungsbewertungen enthalten
  4. Unzureichende Skalierungsvalidierung: Mangel an Validierung in großflächigen CPS-Bereitstellungen

Zukünftige Richtungen

  1. Leistungsoptimierung: Entwurf eines optimierten Prototyps für Leistungsbewertung und großflächige Überwachungsszenarien
  2. Funktionserweiterung: Hinzufügen fortgeschrittener Signalverarbeitungsfunktionen (z. B. Integralrechnung)
  3. Benutzerbewertung: Evaluierung der Benutzerfreundlichkeitsvorteile der Sprache
  4. Zeitliche Wissensgraphen: Erweiterung der Abfragesprachensemantik zur Unterstützung zeitlicher Wissensgraphen
  5. Praktische Bereitstellung: Untersuchung der Anforderungen echter CPS-Bereitstellungen

Tiefgreifende Bewertung

Stärken

  1. Solide theoretische Grundlagen: Basierend auf FRP-Theorie mit strikten mathematischen Definitionen und Semantik
  2. Klare Problemdefinition: Genaue Identifikation von Kernproblemen bestehender Methoden mit gezielten Lösungsansätzen
  3. Vernünftiger Entwurf: Sprachenerweiterung bewahrt SPARQL-Kompatibilität mit niedrigen Lernkosten
  4. Vollständige Implementierung: Geschlossene Kette von Theorie über Prototyp bis zur Anwendung
  5. Starke Innovation: Erstmalige Einführung des FRP-Signalkonzepts in Wissensgraph-Abfragen

Schwächen

  1. Begrenzte Evaluierung: Mangel an quantitativen Vergleichen mit bestehenden Methoden und großflächigen Validierungen
  2. Funktionsbeschränkungen: Relativ einfache Signalfunktionsbibliothek mit unzureichender Kapazität für komplexe Zeitanalysen
  3. Unbekannte Leistung: Keine Leistungs-Benchmarks und Optimierungsanalysen
  4. Begrenzte Anwendungsreichweite: Hauptsächlich auf CPS-Überwachung ausgerichtet; Anwendbarkeit in anderen Bereichen unklar

Einfluss

  1. Akademischer Beitrag: Neue Perspektive für die Integration von Wissensgraphen und Zeitdaten
  2. Praktischer Wert: Breite Anwendungsperspektiven in IoT, Industrie 4.0 und verwandten Bereichen
  3. Technologischer Fortschritt: Kann die weitere Entwicklung des SPARQL-Standards fördern
  4. Interdisziplinäre Fusion: Fördert Zusammenarbeit zwischen Datenbanken, semantischem Web und funktionaler Programmierung

Anwendungsszenarien

  1. Industrielle Überwachung: Echtzeit-Überwachung von Fertigungssystemen und Energienetzen
  2. Intelligente Gebäude: Zustandsüberwachung und Steuerung von Gebäudeausrüstung
  3. Intelligente Verkehrssysteme: Überwachung von Verkehrsfluss und Fahrzeugzustand
  4. Umweltüberwachung: Datenanalyse großflächiger Sensornetzwerke

Literaturverzeichnis

Das Papier zitiert 36 relevante Arbeiten, die wichtige Arbeiten in den Schlüsselbereichen RDF-Stromverarbeitung, Zeitdaten-Abfrage und funktionaler reaktiver Programmierung abdecken und eine solide theoretische Grundlage und technischen Hintergrund für diese Forschung bieten.


Gesamtbewertung: Dies ist ein hochqualitatives Datenbankforschungspapier, das wichtige Beiträge zur Erweiterung von Wissensgraph-Abfragesprachen leistet. Die theoretischen Grundlagen sind solide, der technische Ansatz ist vernünftig und die Implementierung ist relativ vollständig. Obwohl es Raum für Verbesserungen in Evaluierung und Leistung gibt, bietet es wertvolle neue Richtungen für die Entwicklung verwandter Bereiche.