2025-11-12T22:13:10.653124

SigSPARQL: Signals as a First-Class Citizen When Querying Knowledge Graphs

Schwarzinger, Steindl, Frühwirth et al.
Purpose: Cyber-Physical Systems (CPSs) integrate computation and physical processes, producing time series data from thousands of sensors. Knowledge graphs can contextualize these data, yet current approaches that are applicably to monitoring CPS rely on observation-based approaches. This limits the ability to express computations on sensor data, especially when no assumptions can be made about sampling synchronicity or sampling rates. Methodology: We propose an approach for integrating knowledge graphs with signals that model run-time sensor data as functions from time to data. To demonstrate this approach, we introduce SigSPARQL, a query language that can combine RDF data and signals. We assess its technical feasibility with a prototype and demonstrate its use in a typical CPS monitoring use case. Findings: Our approach enables queries to combine graph-based knowledge with signals, overcoming some key limits of observation-based methods. The developed prototype successfully demonstrated feasibility and applicability. Value: This work presents a query-based approach for CPS monitoring that integrates knowledge graphs and signals, alleviating problems of observation-based approaches. By leveraging system knowledge, it enables operators to run a single query across different system instances within the same domain. Future work will extend SigSPARQL with additional signal functions and evaluate it in large-scale CPS deployments.
academic

SigSPARQL: Signals as a First-Class Citizen When Querying Knowledge Graphs

基本信息

  • 论文ID: 2506.03826
  • 标题: SigSPARQL: Signals as a First-Class Citizen When Querying Knowledge Graphs
  • 作者: Tobias Schwarzinger, Gernot Steindl, Thomas Frühwirth, Thomas Preindl, Konrad Diwold, Katrin Ehrenmüller, Fajar J. Ekaputra
  • 分类: cs.DB (数据库)
  • 发表时间: 2025年7月
  • 论文链接: https://arxiv.org/abs/2506.03826

摘要

本文针对信息物理系统(CPS)监控中的数据查询问题,提出了一种将知识图谱与信号处理相结合的新方法。传统方法基于观测数据,在处理传感器数据计算时存在局限性,特别是在采样不同步或采样率不一致的情况下。作者提出SigSPARQL查询语言,将运行时传感器数据建模为时间到数据的函数(信号),实现了RDF数据与信号的统一查询。通过原型系统验证了技术可行性,并在典型CPS监控用例中展示了应用效果。

研究背景与动机

问题定义

  1. 核心问题:信息物理系统产生大量时间序列传感器数据,需要与系统上下文信息结合进行分析,但现有基于观测的方法在表达传感器数据计算时存在复杂性和局限性。
  2. 重要性:随着数字化发展,CPS广泛应用于建筑、能源网络、制造业等领域,有效利用传感器数据对系统分析、监控和控制至关重要。
  3. 现有方法局限性
    • 基于本体的数据访问(OBDA)方法将时间序列映射为图结构时,单个传感器的时间值分散在数千个表示独立观测的元素中
    • 查询复杂度增加,需要从独立观测重构时间值概念
    • 在处理异步时间序列时面临挑战,不同时间戳的观测难以组合
    • 缺乏对观测值之间数据建模的统一概念
  4. 研究动机:引入信号(Signal)概念作为"一等公民",抽象化独立观测,克服当前方法在传感器数据计算表达上的不足。

核心贡献

  1. 提出了语言无关的框架:定义了三个核心操作符(Signal、ApplySF、LiftVal)用于集成知识图谱查询语言与信号处理
  2. 设计了SigSPARQL查询语言:扩展SPARQL语法和语义,支持信号作为查询结果的一等公民
  3. 构建了原型系统:基于Oxigraph实现,验证了技术可行性
  4. 提供了完整的理论基础:基于函数响应式编程(FRP)理论,建立了信号与时间序列数据的形式化关系
  5. 展示了实际应用价值:通过电动汽车充电站监控用例证明了方法的适用性

方法详解

任务定义

输入:信号注释的RDF数据集 <D, S, φ>,其中D是RDF数据集,S是RDF信号集合,φ是信号注释函数 输出:时间解序列(TSS)或连续更新的RDF图 约束:支持连续查询,处理异步传感器数据流

核心概念与数据模型

1. 信号定义

Definition 7.1: RDF信号ψ是形式为T→RDF的(可能部分的)函数
其中T是时间域,RDF是RDF项集合

2. 信号注释RDF数据集

Definition 7.2: <D, S, φ>
- D: 常规RDF数据集
- S: RDF信号集合  
- φ: IRI×IRI→S的部分函数(信号注释函数)

语言无关框架

作者提出三个核心操作符:

  1. Signal(s, p):基于信号源s和信号属性p构造信号
  2. ApplySF(f, a⃗):将n元信号函数f应用于长度为n的信号参数列表
  3. LiftVal(v):将值v提升为常量信号

SigSPARQL语言设计

语法扩展

  1. SIGNALS子句
SIGNALS {
    ev:ActivePower FROM ?device AS ?ap
    ev:Envelope FROM ?garage AS ?env
}
  1. WHEN子句
WHEN {
    SUM(?ap * ?sign) > ?env
    BECOMES TRUE AT ?violation_time
}

语义定义

  1. 时间解序列(TSS):允许解将变量绑定到RDF项或RDF信号,可在时间点τ评估
  2. 连续查询:SELECT查询返回TSS,CONSTRUCT查询返回连续增长的RDF图
  3. 信号计算:通过点式应用提升SPARQL函数和操作符到信号域

技术创新点

  1. 信号抽象:使用FRP中的信号概念替代基于观测的方法,提供更自然的时间数据建模
  2. 统一查询模型:在单一查询中结合图结构知识和时间信号处理
  3. 类型系统扩展:扩展SPARQL代数支持信号类型,自动处理类型提升
  4. 连续查询语义:定义触发事件机制,支持实时监控应用

实验设置

原型实现

  • 基础框架:基于Oxigraph图数据库
  • 时间模型:离散时间,使用"最后观测"策略建模观测间数据
  • 评估方式:两步骤评估 - 构造信号计算描述,然后注册连续查询引擎

验证用例

电动汽车充电站监控场景

  • 系统组成:多个EV充电器、光伏系统、电池
  • 监控目标:检测功率消耗超过运营封装限制的违规事件
  • 数据源:有功功率(AP)传感器、电池状态(SoC)传感器、运营封装限制

查询示例

CONSTRUCT {
    ?garage ev:hasEnvelopeViolation [
        ev:description "Envelope Violated!" ;
        ev:startTime ?violation_time
    ]
}
WHEN {
    SUM(?ap * ?sign) > ?env
    BECOMES TRUE AT ?violation_time
}
SIGNALS {
    ev:ActivePower FROM ?device AS ?ap
    ev:Envelope FROM ?garage AS ?env
}
WHERE {
    ?garage a ev:Garage ; sosa:hosts ?device .
    ?device a ?ap_device_type .
    BIND(IF(?ap_device_type = ev:PVSystem, -1, 1) AS ?sign)
}
GROUP BY ?garage

实验结果

技术可行性验证

  1. 原型系统成功实现:完整实现了SigSPARQL语法和语义
  2. 查询执行:支持连续SELECT查询(返回TSS)和CONSTRUCT查询(返回持续更新的RDF图)
  3. 信号处理:成功处理信号获取、计算和事件检测

应用效果

  1. 统一查询能力:单一查询可应用于同域内不同系统实例
  2. 实时监控:有效检测运营封装违规事件
  3. 上下文感知:利用知识图谱提供的系统知识增强查询表达能力

功能验证

  • 成功实现异步传感器数据的统一处理
  • 支持复杂信号计算(求和、比较等)
  • 实现事件触发机制和时间戳绑定
  • 验证了连续查询的正确性

相关工作

RDF流处理

  1. 基于窗口的方法(C-SPARQL, RSP-QL等):将无界流分割为有界关系
  2. CEP启发的系统(EP-SPARQL等):检测事件流中的模式

时间数据查询与OBDA

  1. Chrontext:将SPARQL查询重写为时间序列数据库查询
  2. Ontop-temporal:扩展时间逻辑公式查询能力
  3. STARQL:支持连续和历史查询的综合方法

图与时间序列集成

  1. Bollen等人的方法:扩展匹配图支持测量和时间序列模式
  2. 混合数据模型研究:图和时间序列数据的融合

本文差异化优势:基于信号建模时间值,利用FRP理论解决观测方法的问题

结论与讨论

主要结论

  1. 信号作为一等公民的方法有效解决了传统观测方法的局限性
  2. SigSPARQL提供了知识图谱与信号处理的统一查询接口
  3. 技术可行性通过原型系统得到验证
  4. 实用价值在CPS监控场景中得到证明

局限性

  1. 信号类型限制:支持所有可能信号类型的复杂性较高,当前原型仅支持"最后观测"策略
  2. 表达能力限制:无法表达"过去10分钟平均值"等复杂时间窗口计算
  3. 性能分析缺失:未包含详细的性能评估
  4. 规模验证不足:缺乏大规模CPS部署的验证

未来方向

  1. 性能优化:设计优化的原型进行性能评估和大规模监控用例
  2. 功能扩展:添加高级信号处理函数(如积分运算)
  3. 用户评估:评估语言的可用性优势
  4. 时间知识图谱:扩展查询语言语义支持时间知识图谱
  5. 实际部署:调研真实CPS部署需求

深度评价

优点

  1. 理论基础扎实:基于FRP理论,提供了严格的数学定义和语义
  2. 问题定义清晰:准确识别了现有方法的核心问题并提出针对性解决方案
  3. 设计合理:语言扩展保持了与SPARQL的兼容性,学习成本低
  4. 实现完整:从理论到原型到应用形成完整链条
  5. 创新性强:首次将FRP信号概念引入知识图谱查询

不足

  1. 评估有限:缺乏与现有方法的定量比较和大规模验证
  2. 功能受限:信号函数库相对简单,复杂时间分析能力不足
  3. 性能未知:没有性能基准测试和优化分析
  4. 应用范围:主要针对CPS监控,其他领域适用性待验证

影响力

  1. 学术贡献:为知识图谱与时间数据集成提供了新思路
  2. 实用价值:在物联网、工业4.0等领域有广泛应用前景
  3. 技术推动:可能推动SPARQL标准的进一步发展
  4. 跨领域融合:促进了数据库、语义网和函数式编程的交叉

适用场景

  1. 工业监控:制造系统、能源网络实时监控
  2. 智能建筑:建筑设备状态监测和控制
  3. 智能交通:交通流量和车辆状态监控
  4. 环境监测:大规模传感器网络数据分析

参考文献

论文引用了36篇相关文献,涵盖了RDF流处理、时间数据查询、函数响应式编程等关键领域的重要工作,为本研究提供了坚实的理论基础和技术背景。


总体评价:这是一篇高质量的数据库系统研究论文,在知识图谱查询语言扩展方面做出了重要贡献。理论基础扎实,技术方案合理,实现较为完整。虽然在评估和性能方面还有提升空间,但为相关领域的发展提供了有价值的新方向。