SigSPARQL: Signals as a First-Class Citizen When Querying Knowledge Graphs
Schwarzinger, Steindl, Frühwirth et al.
Purpose: Cyber-Physical Systems (CPSs) integrate computation and physical processes, producing time series data from thousands of sensors. Knowledge graphs can contextualize these data, yet current approaches that are applicably to monitoring CPS rely on observation-based approaches. This limits the ability to express computations on sensor data, especially when no assumptions can be made about sampling synchronicity or sampling rates.
Methodology: We propose an approach for integrating knowledge graphs with signals that model run-time sensor data as functions from time to data. To demonstrate this approach, we introduce SigSPARQL, a query language that can combine RDF data and signals. We assess its technical feasibility with a prototype and demonstrate its use in a typical CPS monitoring use case.
Findings: Our approach enables queries to combine graph-based knowledge with signals, overcoming some key limits of observation-based methods. The developed prototype successfully demonstrated feasibility and applicability.
Value: This work presents a query-based approach for CPS monitoring that integrates knowledge graphs and signals, alleviating problems of observation-based approaches. By leveraging system knowledge, it enables operators to run a single query across different system instances within the same domain. Future work will extend SigSPARQL with additional signal functions and evaluate it in large-scale CPS deployments.
academic
SigSPARQL: Сигналы как объекты первого класса при запросе графов знаний
В данной статье предлагается новый подход к решению проблем запроса данных при мониторинге киберфизических систем (КФС) путём объединения графов знаний с обработкой сигналов. Традиционные методы, основанные на наблюдаемых данных, имеют ограничения при обработке вычислений данных датчиков, особенно в случаях асинхронной дискретизации или несогласованных частот дискретизации. Авторы предлагают язык запросов SigSPARQL, который моделирует данные датчиков во время выполнения как функции времени в данные (сигналы), обеспечивая унифицированный запрос данных RDF и сигналов. Прототипная система подтверждает техническую осуществимость, а типичные варианты использования мониторинга КФС демонстрируют практическую применимость.
Основная проблема: Киберфизические системы генерируют большие объёмы временных рядов данных датчиков, требующих анализа в сочетании с информацией о контексте системы. Однако существующие методы, основанные на наблюдениях, имеют сложность и ограничения при выражении вычислений данных датчиков.
Значимость: С развитием цифровизации КФС широко применяются в строительстве, энергетических сетях, производстве и других областях. Эффективное использование данных датчиков критически важно для анализа, мониторинга и управления системами.
Ограничения существующих методов:
Методы доступа к данным на основе онтологий (OBDA) при отображении временных рядов в структуру графа распределяют временные значения одного датчика по тысячам элементов, представляющих независимые наблюдения
Сложность запросов возрастает, требуя реконструкции концепции временных значений из независимых наблюдений
Возникают трудности при обработке асинхронных временных рядов, когда наблюдения с разными временными метками сложно комбинировать
Отсутствует унифицированная концепция моделирования данных между наблюдениями
Исследовательская мотивация: Введение концепции сигнала как "объекта первого класса" для абстрагирования независимых наблюдений и преодоления недостатков текущих методов в выражении вычислений данных датчиков.
Предложена независимая от языка архитектура: Определены три основных оператора (Signal, ApplySF, LiftVal) для интеграции языков запросов графов знаний с обработкой сигналов
Разработан язык запросов SigSPARQL: Расширена синтаксис и семантика SPARQL для поддержки сигналов как объектов первого класса в результатах запросов
Построена прототипная система: Реализована на основе Oxigraph, подтверждающая техническую осуществимость
Предоставлена полная теоретическая база: На основе функционального реактивного программирования (FRP) установлены формальные отношения между сигналами и данными временных рядов
Продемонстрирована практическая ценность: Вариант использования мониторинга зарядных станций электромобилей подтверждает применимость метода
Входные данные: Аннотированный сигналами набор данных RDF <D, S, φ>, где D — набор данных RDF, S — набор сигналов RDF, φ — функция аннотации сигналов
Выходные данные: Последовательность временных решений (TSS) или постоянно обновляемый граф RDF
Ограничения: Поддержка непрерывных запросов, обработка асинхронных потоков данных датчиков
Последовательность временных решений (TSS): Позволяет решениям связывать переменные с терминами RDF или сигналами RDF, которые можно оценить в момент времени τ
Непрерывные запросы: Запросы SELECT возвращают TSS, запросы CONSTRUCT возвращают постоянно растущий граф RDF
Вычисление сигналов: Функции и операторы SPARQL поточечно применяются к сигналам
Абстракция сигналов: Использование концепции сигналов из FRP вместо методов на основе наблюдений обеспечивает более естественное моделирование временных данных
Унифицированная модель запросов: Объединение структурных знаний графа и обработки временных сигналов в едином запросе
Расширение системы типов: Расширение алгебры SPARQL для поддержки типов сигналов с автоматической обработкой повышения типов
Семантика непрерывных запросов: Определение механизма срабатывания событий для поддержки приложений мониторинга в реальном времени
Метод Bollena и др.: Расширение сопоставления графов для поддержки измерений и паттернов временных рядов
Исследования гибридных моделей данных: Слияние данных графов и временных рядов
Отличительные преимущества данной работы: Моделирование временных значений на основе сигналов с использованием теории FRP для решения проблем методов на основе наблюдений
Ограничения типов сигналов: Высокая сложность поддержки всех возможных типов сигналов; текущий прототип поддерживает только стратегию "последнего наблюдения"
Ограничения выразительности: Невозможность выражения сложных вычислений временных окон, таких как "среднее значение за последние 10 минут"
Отсутствие анализа производительности: Отсутствуют детальные оценки производительности
Недостаточная проверка масштабируемости: Отсутствует проверка на крупномасштабных развёртываниях КФС
Статья цитирует 36 связанных работ, охватывающих ключевые области обработки потоков RDF, запросов временных данных и функционального реактивного программирования, обеспечивая прочную теоретическую базу и технический контекст для данного исследования.
Общая оценка: Это высококачественная научная работа в области систем баз данных, вносящая важный вклад в расширение языков запросов графов знаний. Имеет прочную теоретическую базу, разумное техническое решение и относительно полную реализацию. Хотя в оценке и производительности есть место для улучшения, работа предоставляет ценное новое направление для развития соответствующих областей.