Incremental Learning with Concept Drift Detection and Prototype-based Embeddings for Graph Stream Classification
Malialis, Li, Panayiotou et al.
Data stream mining aims at extracting meaningful knowledge from continually evolving data streams, addressing the challenges posed by nonstationary environments, particularly, concept drift which refers to a change in the underlying data distribution over time. Graph structures offer a powerful modelling tool to represent complex systems, such as, critical infrastructure systems and social networks. Learning from graph streams becomes a necessity to understand the dynamics of graph structures and to facilitate informed decision-making. This work introduces a novel method for graph stream classification which operates under the general setting where a data generating process produces graphs with varying nodes and edges over time. The method uses incremental learning for continual model adaptation, selecting representative graphs (prototypes) for each class, and creating graph embeddings. Additionally, it incorporates a loss-based concept drift detection mechanism to recalculate graph prototypes when drift is detected.
academic
Aprendizaje Incremental con Detección de Cambio de Concepto e Incrustaciones Basadas en Prototipos para Clasificación de Flujos de Grafos
Título: Incremental Learning with Concept Drift Detection and Prototype-based Embeddings for Graph Stream Classification
Autores: Kleanthis Malialis, Jin Li, Christos G. Panayiotou, Marios M. Polycarpou
Clasificación: cs.LG
Fecha de Publicación: 12 de abril de 2024 (arXiv v2)
Institución Afiliada: Centro de Excelencia en Investigación e Innovación KIOS de la Universidad de Chipre, Departamento de Ingeniería Eléctrica y Computacional
La minería de flujos de datos tiene como objetivo extraer conocimiento significativo de flujos de datos en continua evolución, abordando los desafíos presentados por entornos no estacionarios, particularmente el cambio de concepto (concept drift), es decir, la variación de la distribución de datos subyacente a lo largo del tiempo. Las estructuras de grafos proporcionan herramientas de modelado potentes para representar sistemas complejos, como sistemas de infraestructura crítica y redes sociales. El aprendizaje a partir de flujos de grafos se ha convertido en una necesidad para comprender la dinámica de estructuras de grafos y facilitar la toma de decisiones informadas. Este trabajo propone un nuevo método de clasificación de flujos de grafos aplicable a configuraciones generales donde el proceso generador de datos produce grafos con nodos y aristas que varían en el tiempo. El método utiliza aprendizaje incremental para la adaptación continua del modelo, selecciona grafos representativos (prototipos) para cada clase y crea incrustaciones de grafos. Además, integra un mecanismo de detección de cambio de concepto basado en pérdida, que recalcula los prototipos de grafos cuando se detecta un cambio.
El problema central que aborda esta investigación es la tarea de clasificación en entornos dinámicos de flujos de grafos, donde el número de nodos y aristas de los grafos varía en el tiempo y existe el fenómeno de cambio de concepto.
Necesidad Práctica: Muchos sistemas del mundo real (como infraestructura crítica, redes sociales, sistemas de recomendación) pueden representarse mediante estructuras de grafos dinámicos
Características de Datos: Los datos generados por estos sistemas poseen características de alta velocidad, gran volumen y diversidad
Desafíos Ambientales: El cambio de concepto en entornos no estacionarios puede causar degradación del rendimiento del modelo
Métodos Tradicionales de Clasificación de Grafos: Se enfocan principalmente en grafos estáticos, incapaces de procesar flujos de grafos dinámicos
Métodos Existentes de Flujos de Grafos: La mayoría se enfoca en detección de anomalías en lugar de clasificación multiclase; carecen de mecanismos efectivos para manejar cambios de concepto
Extracción de Características: Los métodos existentes utilizan características de grafos simples (como densidad de aristas, brecha espectral) con capacidad expresiva limitada
Propone un nuevo marco de clasificación de flujos de grafos: Aplicable a configuraciones generales de flujos de grafos con número variable de nodos y aristas, soportando tareas de clasificación multiclase
Diseña un método de incrustación de grafos basado en prototipos: Convierte grafos en representaciones vectoriales de dimensión fija seleccionando grafos representativos de cada clase como prototipos
Integra un mecanismo híbrido de detección de cambio de concepto: Combina aprendizaje incremental y detección de cambio basada en pérdida, implementando una estrategia de adaptación activa-pasiva híbrida
Proporciona validación experimental completa: Verifica la efectividad del método en múltiples conjuntos de datos de referencia y realiza estudios de ablación detallados
Utiliza el algoritmo Centers para seleccionar R grafos prototipo para cada clase:
pc=argming1∈qc∑g2∈qcδ(g1,g2)
donde δ(⋅,⋅) es la distancia de edición de grafos.
Utiliza un clasificador de red neuronal con función de costo:
C=L×K1∑i=1L×Kl(yi,h(egi))
El clasificador se actualiza mediante entrenamiento incremental: ht=ht−1.train(⋅)
Estrategia de Selección de Prototipos: Utiliza distancia de edición de grafos y método de mediana para seleccionar los grafos más representativos como prototipos
Adaptación Híbrida de Cambio: Combina aprendizaje incremental pasivo y detección activa de cambio, recalculando prototipos cuando se detecta un cambio
Procesamiento de Grafos Variables: Maneja grafos con número variable de nodos y aristas mediante método de incrustación basado en distancia
Detección Impulsada por Pérdida: Utiliza rendimiento de predicción en lugar de cambios en distribución de datos para detectar cambios de concepto
Efecto de la Memoria de Grafos: El uso de memoria de grafos mejora significativamente la velocidad de aprendizaje y el rendimiento final, particularmente en las etapas iniciales del aprendizaje.
Impacto de la Cantidad de Prototipos:
Sin cambio o con cambio leve, 3 prototipos superan a 1 prototipo
Después de cambio de concepto severo, menor cantidad de prototipos muestra mejor rendimiento
En conjuntos de datos GREC y Fingerprint, 3 prototipos muestran consistentemente mejor rendimiento
Efectividad de Detección de Cambio de Concepto:
Antes de que ocurra el cambio, el rendimiento es similar con o sin detector de cambio
Después del cambio, el método con detector de cambio muestra mejora significativa de rendimiento
Valida la efectividad del recálculo de prototipos
Comparación de Métodos: El método propuesto basado en incrustaciones supera significativamente al método basado en características simples en todos los conjuntos de datos.
Clasificación Tradicional de Grafos: Se enfoca principalmente en grafos estáticos, con métodos ricos pero no aplicables a escenarios de flujo
Métodos Existentes de Flujos de Grafos: Se enfoca principalmente en detección de anomalías, con investigación limitada en clasificación multiclase
Incrustación de Grafos: Utiliza métodos como autocodificadores para aprender representaciones de grafos
La innovación de este artículo radica en combinar incrustación de prototipos, aprendizaje incremental y detección de cambio de concepto, dirigidos específicamente a tareas de clasificación multiclase de flujos de grafos.
Efectividad del Método: El método híbrido propuesto muestra excelente rendimiento en tareas de clasificación de flujos de grafos, particularmente en escenarios con cambio de concepto
Importancia de Componentes: La memoria de grafos, selección de prototipos y mecanismo de detección de cambio contribuyen todos significativamente al rendimiento final
Adaptabilidad: El método puede manejar efectivamente flujos de grafos dinámicos con número variable de nodos y aristas
Complejidad Computacional: El cálculo de distancia de edición de grafos tiene alta complejidad computacional, lo que puede limitar aplicaciones a gran escala
Sensibilidad de Parámetros: El parámetro de sensibilidad de detección de cambio necesita ajustarse según la tarea
Disponibilidad de Etiquetas: Asume que se pueden obtener etiquetas verdaderas en cada paso, lo que puede no ser realista en aplicaciones prácticas
El artículo identifica explícitamente dos direcciones de investigación futuras importantes:
Aprendizaje de Incrustaciones de Grafos: Investigar métodos de aprendizaje de incrustaciones de grafos de extremo a extremo para aplicaciones a flujos de grafos a gran escala
Aprendizaje con Etiquetas Limitadas: Considerar paradigmas no supervisados, semi-supervisados, de aprendizaje activo, así como técnicas de aprendizaje con pocas muestras y aumento de datos
Importancia del Problema: La clasificación de flujos de grafos es un problema práctico e importante con amplio valor de aplicación
Innovación del Método: Combina orgánicamente selección de prototipos, aprendizaje incremental y detección de cambio de concepto, formando una solución completa
Suficiencia Experimental: Realiza validación experimental completa, incluyendo estudios de ablación y análisis de parámetros
Claridad de Escritura: La estructura del artículo es clara, la descripción del método es detallada y fácil de entender y reproducir
Escala de Conjuntos de Datos: Los conjuntos de datos utilizados son relativamente pequeños, el efecto en flujos de grafos a gran escala es desconocido
Eficiencia Computacional: La complejidad computacional del cálculo de distancia de edición de grafos puede convertirse en cuello de botella en aplicaciones prácticas
Análisis Teórico: Carece de análisis teórico y garantías de convergencia
Tipos de Cambio: Se enfoca principalmente en cambios abruptos, el efecto en cambios graduales no está claro
El artículo cita 37 referencias relacionadas, cubriendo múltiples campos relacionados incluyendo detección de cambio de concepto, redes neuronales de grafos, aprendizaje incremental, etc., proporcionando una base teórica sólida para la investigación.
Evaluación General: Este es un artículo de alta calidad con contribuciones importantes en el campo de clasificación de flujos de grafos. El diseño del método es razonable, la validación experimental es suficiente, la escritura es clara, y proporciona insights valiosos y soluciones para el desarrollo del campo. Aunque existen algunas limitaciones, su innovación y practicidad le confieren valor académico y de aplicación significativo.