2025-11-12T07:37:09.358830

Incremental Learning with Concept Drift Detection and Prototype-based Embeddings for Graph Stream Classification

Malialis, Li, Panayiotou et al.

Data stream mining aims at extracting meaningful knowledge from continually evolving data streams, addressing the challenges posed by nonstationary environments, particularly, concept drift which refers to a change in the underlying data distribution over time. Graph structures offer a powerful modelling tool to represent complex systems, such as, critical infrastructure systems and social networks. Learning from graph streams becomes a necessity to understand the dynamics of graph structures and to facilitate informed decision-making. This work introduces a novel method for graph stream classification which operates under the general setting where a data generating process produces graphs with varying nodes and edges over time. The method uses incremental learning for continual model adaptation, selecting representative graphs (prototypes) for each class, and creating graph embeddings. Additionally, it incorporates a loss-based concept drift detection mechanism to recalculate graph prototypes when drift is detected.

academic

Apprendimento Incrementale con Rilevamento della Deriva Concettuale e Incorporamenti Basati su Prototipi per la Classificazione di Flussi di Grafi

Informazioni Fondamentali

ID Articolo: 2404.02572
Titolo: Incremental Learning with Concept Drift Detection and Prototype-based Embeddings for Graph Stream Classification
Autori: Kleanthis Malialis, Jin Li, Christos G. Panayiotou, Marios M. Polycarpou
Classificazione: cs.LG
Data di Pubblicazione: 12 aprile 2024 (arXiv v2)
Istituzioni Affiliate: Centro di Eccellenza KIOS per la Ricerca e l'Innovazione, Università di Cipro, Dipartimento di Ingegneria Elettrica e Informatica
Collegamento Articolo: https://arxiv.org/abs/2404.02572

Riassunto

L'estrazione di dati da flussi mira a estrarre conoscenze significative da flussi di dati in continua evoluzione, affrontando le sfide poste da ambienti non stazionari, in particolare la deriva concettuale (concept drift), ovvero il cambiamento della distribuzione dei dati sottostanti nel tempo. Le strutture grafiche forniscono potenti strumenti di modellazione per rappresentare sistemi complessi, come infrastrutture critiche e reti sociali. L'apprendimento da flussi di grafi diventa necessario per comprendere la dinamica delle strutture grafiche e facilitare il processo decisionale consapevole. Questo lavoro propone un nuovo metodo per la classificazione di flussi di grafi, applicabile all'impostazione generale in cui il processo di generazione dei dati produce grafi con nodi e archi che variano nel tempo. Il metodo utilizza l'apprendimento incrementale per l'adattamento continuo del modello, seleziona grafi rappresentativi (prototipi) per ogni classe e crea incorporamenti di grafi. Inoltre, integra un meccanismo di rilevamento della deriva concettuale basato sulla perdita, che ricalcola i prototipi dei grafi quando viene rilevata una deriva.

Contesto di Ricerca e Motivazione

1. Problema Centrale

Il problema centrale affrontato da questa ricerca è il compito di classificazione in ambienti dinamici di flussi di grafi, dove il numero di nodi e archi dei grafi varia nel tempo e sono presenti fenomeni di deriva concettuale.

2. Importanza del Problema

Necessità Pratica: Molti sistemi reali (come infrastrutture critiche, reti sociali, sistemi di raccomandazione) possono essere rappresentati mediante strutture grafiche dinamiche
Caratteristiche dei Dati: I dati generati da questi sistemi presentano caratteristiche di alta velocità, grande volume e diversità
Sfide Ambientali: La deriva concettuale in ambienti non stazionari causa il deterioramento delle prestazioni del modello

3. Limitazioni dei Metodi Esistenti

Metodi Tradizionali di Classificazione di Grafi: Principalmente orientati a grafi statici, incapaci di gestire flussi di grafi dinamici
Metodi Esistenti per Flussi di Grafi: Principalmente focalizzati sul rilevamento di anomalie piuttosto che sulla classificazione multiclasse; mancano meccanismi efficaci per gestire la deriva concettuale
Estrazione di Caratteristiche: I metodi esistenti utilizzano caratteristiche grafiche semplici (come densità dei bordi, gap spettrale) con capacità espressiva limitata

4. Motivazione della Ricerca

È necessario sviluppare metodi in grado di:

Gestire flussi di grafi dinamici con numero variabile di nodi e archi
Eseguire classificazione multiclasse piuttosto che limitarsi al rilevamento di anomalie
Rilevare e adattarsi efficacemente alla deriva concettuale
Utilizzare rappresentazioni grafiche più ricche

Contributi Principali

Propone un nuovo framework per la classificazione di flussi di grafi: Applicabile all'impostazione generale di flussi di grafi con numero variabile di nodi e archi, supporta compiti di classificazione multiclasse
Progetta un metodo di incorporamento di grafi basato su prototipi: Trasforma i grafi in rappresentazioni vettoriali di dimensione fissa selezionando grafi rappresentativi come prototipi per ogni classe
Integra un meccanismo ibrido di rilevamento della deriva concettuale: Combina apprendimento incrementale e rilevamento di deriva basato sulla perdita, implementando una strategia di adattamento attivo-passivo ibrida
Fornisce una verifica sperimentale completa: Valida l'efficacia del metodo su più dataset di riferimento e conduce studi di ablazione dettagliati

Spiegazione Dettagliata del Metodo

Definizione del Compito

Dato un flusso di grafi $D = \{(g_t, y_t)\}_{t=1}^{\infty}$ , dove:

$g_t = (V, E)$ è un grafo attributato al passo temporale $t$
$y_t \in \{1, ..., K\}$ è l'etichetta di classe del grafo
I grafi possono avere un numero variabile di nodi e archi
I dati provengono da una distribuzione di probabilità potenzialmente non stazionaria $p_t(g, y)$

L'obiettivo è imparare un classificatore $h: G \rightarrow Y$ in grado di:

Classificare accuratamente i grafi appena arrivati
Adattarsi continuamente attraverso l'apprendimento incrementale
Rilevare e gestire la deriva concettuale

Architettura del Modello

1. Gestione della Memoria dei Grafi

Mantiene più code che memorizzano i grafi recenti: $q = \{q_c\}_{c=1}^K$ $q_c = \{g_i\}_{i=1}^L$ dove $L$ è la dimensione della coda per ogni classe.

2. Selezione dei Prototipi dei Grafi

Utilizza l'algoritmo Centers per selezionare $R$ grafi prototipo per ogni classe: $p_c = \arg\min_{g_1 \in q_c} \sum_{g_2 \in q_c} \delta(g_1, g_2)$ dove $\delta(\cdot, \cdot)$ è la distanza di edit dei grafi.

3. Generazione di Incorporamenti di Grafi

Calcola gli incorporamenti dei grafi basati sui prototipi: $e_g = \{\delta(g, p_i)\}_{i=1}^{R \times K}$ Trasforma il grafo in un vettore di dimensione $R \times K$ .

4. Apprendimento Incrementale

Utilizza un classificatore di rete neurale con funzione di costo: $C = \frac{1}{L \times K} \sum_{i=1}^{L \times K} l(y_i, h(e_{g_i}))$ Il classificatore viene aggiornato attraverso l'addestramento incrementale: $h_t = h_{t-1}.train(\cdot)$

5. Rilevamento della Deriva Concettuale

Mantiene due code di accuratezza di predizione:

Coda di riferimento $q_{ref}$ : memorizza i punteggi di predizione storici
Coda mobile $q_{mov}$ : memorizza i punteggi di predizione recenti

Utilizza la distribuzione binomiale per la modellazione, condizione di rilevamento: $\mu_{mov} \leq \mu_{ref} - \beta\sigma_{ref}$ dove $\beta$ è il parametro di sensibilità.

Punti di Innovazione Tecnica

Strategia di Selezione dei Prototipi: Utilizza la distanza di edit dei grafi e il metodo della mediana per selezionare i grafi più rappresentativi come prototipi
Adattamento Ibrido alla Deriva: Combina l'apprendimento incrementale passivo e il rilevamento attivo della deriva, ricalcolando i prototipi quando viene rilevata una deriva
Gestione di Grafi Variabili: Gestisce grafi con numero variabile di nodi e archi attraverso il metodo di incorporamento basato sulla distanza
Rilevamento Guidato dalla Perdita: Utilizza le prestazioni di predizione piuttosto che i cambiamenti nella distribuzione dei dati per rilevare la deriva concettuale

Impostazione Sperimentale

Dataset

Dataset Letter:
- Contiene rappresentazioni grafiche delle lettere "A", "I", "Z"
- Due varianti: Letter high (perturbazione elevata), Letter med high (perturbazione media-elevata)
- Utilizzato per testare la capacità di adattamento alla deriva concettuale
Dataset GREC:
- Rappresentazioni grafiche di simboli di disegni architettonici ed elettronici
- Cinque livelli di perturbazione
- Tre classi, grafi distribuiti uniformemente
Dataset Fingerprint:
- Rappresentazioni grafiche di immagini di impronte digitali
- Due classi: "arch" e "left"
- Provenienti dal database di impronte digitali NIST-4

Metriche di Valutazione

Utilizza la media geometrica (G-mean): $G\text{-mean} = \sqrt[K]{\prod_{c=1}^K r_c}$ dove $r_c$ è il recall della classe $c$ .

Adotta il metodo di valutazione prequential con fattore di decadimento con fattore di decadimento impostato a 0,99.

Metodi di Confronto

Metodo Proposto: Metodo completo con incorporamento basato su prototipi
Metodo Basato su Caratteristiche: Metodo baseline che utilizza due semplici caratteristiche: densità dei bordi e gap spettrale

Dettagli di Implementazione

Distanza del grafo: distanza di edit dei grafi
Classificatore: rete neurale completamente connessa
Ottimizzatore: Adam
Tasso di apprendimento: 0,001-0,01 (dipendente dal dataset)
Dimensione della memoria: $L = 10$
Numero di prototipi: $R = 1$ o $R = 3$

Risultati Sperimentali

Risultati Principali

Ruolo della Memoria dei Grafi: L'utilizzo della memoria dei grafi migliora significativamente la velocità di apprendimento e le prestazioni finali, in particolare nella fase iniziale dell'apprendimento.
Impatto del Numero di Prototipi:
- In assenza di deriva o con deriva lieve, 3 prototipi superano 1 prototipo
- Dopo una deriva concettuale grave, un numero minore di prototipi mostra prestazioni migliori
- Sui dataset GREC e Fingerprint, 3 prototipi mostrano costantemente prestazioni migliori
Efficacia del Rilevamento della Deriva Concettuale:
- Prima che si verifichi la deriva concettuale, le prestazioni con e senza rilevatore di deriva sono simili
- Dopo la deriva, il metodo con rilevatore di deriva mostra un miglioramento significativo delle prestazioni
- Verifica l'efficacia del ricalcolo dei prototipi
Confronto dei Metodi: Il metodo proposto basato su incorporamento supera significativamente il metodo basato su caratteristiche semplici su tutti i dataset.

Studi di Ablazione

Dimensione della Memoria: Verifica il ruolo critico della memoria dei grafi sulle prestazioni
Numero di Prototipi: Analizza le prestazioni di diversi numeri di prototipi in diversi scenari di deriva
Rilevamento della Deriva: Dimostra la necessità del meccanismo di rilevamento della deriva

Scoperte Sperimentali

Curve di Apprendimento: Tutti i metodi hanno una fase di apprendimento iniziale, ma il metodo proposto converge più rapidamente
Adattamento alla Deriva: La strategia di adattamento alla deriva basata sul ricalcolo dei prototipi è efficace
Capacità di Rappresentazione: L'incorporamento basato su prototipi è più espressivo delle semplici caratteristiche grafiche

Lavori Correlati

Adattamento alla Deriva Concettuale

Metodi Attivi: Utilizzano test statistici o metodi di soglia per rilevare esplicitamente la deriva
Metodi Passivi: Utilizzano l'apprendimento incrementale per adattarsi implicitamente alla deriva
Metodi Ibridi: Combinano i vantaggi del rilevamento attivo e dell'adattamento passivo

Classificazione di Flussi di Grafi

Classificazione Tradizionale di Grafi: Principalmente orientata a grafi statici, metodi ricchi ma non applicabili a scenari di streaming
Metodi Esistenti per Flussi di Grafi: Principalmente focalizzati sul rilevamento di anomalie, ricerca limitata sulla classificazione multiclasse
Incorporamenti di Grafi: Utilizza metodi come autoencoder per imparare rappresentazioni grafiche

L'innovazione di questo articolo risiede nella combinazione di incorporamenti basati su prototipi, apprendimento incrementale e rilevamento della deriva concettuale, specificamente orientata al compito di classificazione multiclasse di flussi di grafi.

Conclusioni e Discussione

Conclusioni Principali

Efficacia del Metodo: Il metodo ibrido proposto mostra prestazioni eccellenti nel compito di classificazione di flussi di grafi, in particolare in scenari con deriva concettuale
Importanza dei Componenti: La memoria dei grafi, la selezione dei prototipi e il meccanismo di rilevamento della deriva contribuiscono tutti in modo importante alle prestazioni finali
Adattabilità: Il metodo può gestire efficacemente flussi di grafi dinamici con numero variabile di nodi e archi

Limitazioni

Complessità Computazionale: La complessità computazionale del calcolo della distanza di edit dei grafi è elevata, il che potrebbe limitare le applicazioni su larga scala
Sensibilità ai Parametri: Il parametro di sensibilità del rilevamento della deriva deve essere regolato in base al compito
Disponibilità delle Etichette: Presuppone che le etichette vere siano disponibili ad ogni passo, il che potrebbe non essere realistico nelle applicazioni pratiche

Direzioni Future

L'articolo identifica chiaramente due importanti direzioni di ricerca futura:

Apprendimento di Incorporamenti di Grafi: Ricerca di metodi per imparare end-to-end gli incorporamenti di grafi, da applicare a problemi di flussi di grafi su larga scala
Apprendimento con Etichette Limitate: Considerazione di paradigmi non supervisionati, semi-supervisionati, di apprendimento attivo, nonché tecniche di apprendimento con pochi campioni e aumento dei dati

Valutazione Approfondita

Punti di Forza

Importanza del Problema: La classificazione di flussi di grafi è un problema pratico e importante con ampio valore applicativo
Innovazione del Metodo: Combina organicamente la selezione dei prototipi, l'apprendimento incrementale e il rilevamento della deriva concettuale, formando una soluzione completa
Completezza Sperimentale: Conduce una verifica sperimentale completa, inclusi studi di ablazione e analisi dei parametri
Chiarezza della Scrittura: La struttura dell'articolo è chiara, la descrizione del metodo è dettagliata e facile da comprendere e riprodurre

Insufficienze

Scala dei Dataset: I dataset utilizzati sono relativamente piccoli, l'effetto su flussi di grafi su larga scala rimane sconosciuto
Efficienza Computazionale: La complessità computazionale del calcolo della distanza di edit dei grafi è elevata, potrebbe diventare un collo di bottiglia nelle applicazioni pratiche
Analisi Teorica: Manca l'analisi teorica e le garanzie di convergenza
Tipi di Deriva: Principalmente considera la deriva improvvisa, l'effetto sulla gestione della deriva graduale non è chiaro

Impatto

Contributo Accademico: Fornisce nuove prospettive di soluzione per la classificazione di flussi di grafi, colmando le lacune in questo campo
Valore Pratico: Il metodo ha potenziale di applicazione pratica, in particolare nel monitoraggio delle infrastrutture critiche
Riproducibilità: Fornisce dettagli di implementazione dettagliati e impostazioni dei parametri, facilitando la riproduzione

Scenari Applicabili

Questo metodo è particolarmente adatto per:

Monitoraggio di sistemi di infrastrutture critiche
Analisi dinamica di reti sociali
Scoperta di farmaci mediante grafi molecolari
Analisi del comportamento degli utenti nei sistemi di raccomandazione
Qualsiasi scenario che richieda la gestione di strutture grafiche dinamiche con deriva concettuale

Bibliografia

L'articolo cita 37 lavori correlati, coprendo molteplici campi correlati come rilevamento della deriva concettuale, reti neurali grafiche e apprendimento incrementale, fornendo una base teorica solida per la ricerca.

Valutazione Complessiva: Questo è un articolo di alta qualità con importanti contributi nel campo della classificazione di flussi di grafi. Il design del metodo è ragionevole, la verifica sperimentale è completa, la scrittura è chiara e fornisce insights e soluzioni di valore per lo sviluppo del campo. Sebbene presenti alcune limitazioni, la sua innovazione e praticità gli conferiscono importante valore accademico e applicativo.