Incremental Learning with Concept Drift Detection and Prototype-based Embeddings for Graph Stream Classification
Malialis, Li, Panayiotou et al.
Data stream mining aims at extracting meaningful knowledge from continually evolving data streams, addressing the challenges posed by nonstationary environments, particularly, concept drift which refers to a change in the underlying data distribution over time. Graph structures offer a powerful modelling tool to represent complex systems, such as, critical infrastructure systems and social networks. Learning from graph streams becomes a necessity to understand the dynamics of graph structures and to facilitate informed decision-making. This work introduces a novel method for graph stream classification which operates under the general setting where a data generating process produces graphs with varying nodes and edges over time. The method uses incremental learning for continual model adaptation, selecting representative graphs (prototypes) for each class, and creating graph embeddings. Additionally, it incorporates a loss-based concept drift detection mechanism to recalculate graph prototypes when drift is detected.
academic
Инкрементальное обучение с обнаружением дрейфа концепции и прототипными встраиваниями для классификации потоков графов
Интеллектуальный анализ потоков данных направлен на извлечение значимых знаний из постоянно развивающихся потоков данных, решая проблемы нестационарной среды, в частности дрейф концепции (concept drift) — изменение базового распределения данных во времени. Структуры графов предоставляют мощный инструмент моделирования для представления сложных систем, таких как критическая инфраструктура и социальные сети. Обучение на потоках графов становится необходимым условием для понимания динамики структур графов и принятия обоснованных решений. В данной работе предлагается новый метод классификации потоков графов, применимый к общему случаю, когда процесс генерации данных создает графы с изменяющимися во времени узлами и ребрами. Метод использует инкрементальное обучение для непрерывной адаптации модели, выбирает репрезентативные графы (прототипы) для каждого класса и создает встраивания графов. Кроме того, он интегрирует механизм обнаружения дрейфа концепции на основе потерь, пересчитывая прототипы графов при обнаружении дрейфа.
Основная проблема, которую решает данное исследование, — это задача классификации в динамической среде потоков графов, где количество узлов и ребер графов изменяется во времени и присутствует явление дрейфа концепции.
Практическая необходимость: Многие реальные системы (такие как критическая инфраструктура, социальные сети, системы рекомендаций) могут быть представлены динамическими структурами графов
Характеристики данных: Данные, генерируемые этими системами, обладают высокой скоростью, большим объемом и разнообразием
Вызовы окружающей среды: Дрейф концепции в нестационарной среде приводит к снижению производительности модели
Традиционные методы классификации графов: Ориентированы в основном на статические графы и не могут обрабатывать потоки динамических графов
Существующие методы для потоков графов: Большинство сосредоточены на обнаружении аномалий, а не на многоклассовой классификации; отсутствуют эффективные механизмы обработки дрейфа концепции
Извлечение признаков: Существующие методы используют простые признаки графов (такие как плотность ребер, спектральный разрыв) с ограниченной выразительной способностью
Предложена новая структура классификации потоков графов: Применима к общему случаю потоков графов с переменным количеством узлов и ребер, поддерживает задачи многоклассовой классификации
Разработан метод встраивания графов на основе прототипов: Путем выбора репрезентативных графов каждого класса в качестве прототипов графы преобразуются в векторные представления фиксированной размерности
Интегрирован гибридный механизм обнаружения дрейфа концепции: Сочетание инкрементального обучения и обнаружения дрейфа на основе потерь реализует стратегию активно-пассивной гибридной адаптации
Предоставлена полная экспериментальная проверка: Метод проверен на нескольких эталонных наборах данных с подробными исследованиями абляции
Используется алгоритм Centers для выбора R прототипных графов для каждого класса:
pc=argming1∈qc∑g2∈qcδ(g1,g2)
где δ(⋅,⋅) — расстояние редактирования графа.
Используется нейросетевой классификатор с функцией стоимости:
C=L×K1∑i=1L×Kl(yi,h(egi))
Классификатор обновляется посредством инкрементального обучения: ht=ht−1.train(⋅)
Стратегия выбора прототипов: Использование расстояния редактирования графа и медианного метода для выбора наиболее репрезентативных графов в качестве прототипов
Гибридная адаптация к дрейфу: Сочетание пассивного инкрементального обучения и активного обнаружения дрейфа с пересчетом прототипов при обнаружении дрейфа
Обработка графов переменного размера: Обработка графов с переменным количеством узлов и ребер посредством метода встраивания на основе расстояния
Обнаружение, управляемое потерями: Использование производительности предсказания вместо изменения распределения данных для обнаружения дрейфа концепции
Роль памяти графов: Использование памяти графов значительно улучшает скорость обучения и финальную производительность, особенно на начальных этапах обучения.
Влияние количества прототипов:
При отсутствии дрейфа или легком дрейфе 3 прототипа превосходят 1 прототип
После серьезного дрейфа концепции меньшее количество прототипов показывает лучшие результаты
На наборах данных GREC и Fingerprint 3 прототипа последовательно показывают лучшие результаты
Эффективность обнаружения дрейфа концепции:
До возникновения дрейфа концепции производительность с детектором дрейфа и без него схожа
После дрейфа методы с детектором дрейфа показывают значительное улучшение производительности
Подтверждена эффективность пересчета прототипов
Сравнение методов: Предложенный метод на основе встраивания значительно превосходит метод на основе простых признаков на всех наборах данных.
Традиционная классификация графов: Ориентирована в основном на статические графы, методы богаты, но не применимы к потоковым сценариям
Существующие методы для потоков графов: Сосредоточены в основном на обнаружении аномалий, исследования многоклассовой классификации ограничены
Встраивание графов: Использование автокодировщиков и других методов для обучения представлениям графов
Инновация данной работы заключается в сочетании встраивания прототипов, инкрементального обучения и обнаружения дрейфа концепции, специально ориентированном на задачу многоклассовой классификации потоков графов.
Эффективность метода: Предложенный гибридный метод показывает отличные результаты на задачах классификации потоков графов, особенно в сценариях с дрейфом концепции
Важность компонентов: Память графов, выбор прототипов и механизм обнаружения дрейфа все вносят важный вклад в финальную производительность
Адаптивность: Метод эффективно обрабатывает потоки динамических графов с переменным количеством узлов и ребер
Статья явно предлагает два важных направления будущих исследований:
Обучение встраиванию графов: Исследование методов обучения встраиванию графов end-to-end для применения к крупномасштабным проблемам потоков графов
Обучение с ограниченными метками: Рассмотрение парадигм без учителя, полусупервизированного обучения, активного обучения, а также методов обучения с малым количеством примеров и увеличения данных
Статья цитирует 37 связанных работ, охватывающих несколько смежных областей, включая обнаружение дрейфа концепции, графовые нейронные сети, инкрементальное обучение и другие важные работы, обеспечивая прочную теоретическую основу для исследования.
Общая оценка: Это высококачественная статья с важным вкладом в область классификации потоков графов. Метод разработан рационально, экспериментальная проверка полна, изложение ясно, работа предоставляет ценные insights и решения для развития этой области. Несмотря на некоторые ограничения, её инновационность и практическая применимость придают ей значительную академическую и прикладную ценность.