2025-11-12T07:37:09.358830

Incremental Learning with Concept Drift Detection and Prototype-based Embeddings for Graph Stream Classification

Malialis, Li, Panayiotou et al.
Data stream mining aims at extracting meaningful knowledge from continually evolving data streams, addressing the challenges posed by nonstationary environments, particularly, concept drift which refers to a change in the underlying data distribution over time. Graph structures offer a powerful modelling tool to represent complex systems, such as, critical infrastructure systems and social networks. Learning from graph streams becomes a necessity to understand the dynamics of graph structures and to facilitate informed decision-making. This work introduces a novel method for graph stream classification which operates under the general setting where a data generating process produces graphs with varying nodes and edges over time. The method uses incremental learning for continual model adaptation, selecting representative graphs (prototypes) for each class, and creating graph embeddings. Additionally, it incorporates a loss-based concept drift detection mechanism to recalculate graph prototypes when drift is detected.
academic

Apprendimento Incrementale con Rilevamento della Deriva Concettuale e Incorporamenti Basati su Prototipi per la Classificazione di Flussi di Grafi

Informazioni Fondamentali

  • ID Articolo: 2404.02572
  • Titolo: Incremental Learning with Concept Drift Detection and Prototype-based Embeddings for Graph Stream Classification
  • Autori: Kleanthis Malialis, Jin Li, Christos G. Panayiotou, Marios M. Polycarpou
  • Classificazione: cs.LG
  • Data di Pubblicazione: 12 aprile 2024 (arXiv v2)
  • Istituzioni Affiliate: Centro di Eccellenza KIOS per la Ricerca e l'Innovazione, Università di Cipro, Dipartimento di Ingegneria Elettrica e Informatica
  • Collegamento Articolo: https://arxiv.org/abs/2404.02572

Riassunto

L'estrazione di dati da flussi mira a estrarre conoscenze significative da flussi di dati in continua evoluzione, affrontando le sfide poste da ambienti non stazionari, in particolare la deriva concettuale (concept drift), ovvero il cambiamento della distribuzione dei dati sottostanti nel tempo. Le strutture grafiche forniscono potenti strumenti di modellazione per rappresentare sistemi complessi, come infrastrutture critiche e reti sociali. L'apprendimento da flussi di grafi diventa necessario per comprendere la dinamica delle strutture grafiche e facilitare il processo decisionale consapevole. Questo lavoro propone un nuovo metodo per la classificazione di flussi di grafi, applicabile all'impostazione generale in cui il processo di generazione dei dati produce grafi con nodi e archi che variano nel tempo. Il metodo utilizza l'apprendimento incrementale per l'adattamento continuo del modello, seleziona grafi rappresentativi (prototipi) per ogni classe e crea incorporamenti di grafi. Inoltre, integra un meccanismo di rilevamento della deriva concettuale basato sulla perdita, che ricalcola i prototipi dei grafi quando viene rilevata una deriva.

Contesto di Ricerca e Motivazione

1. Problema Centrale

Il problema centrale affrontato da questa ricerca è il compito di classificazione in ambienti dinamici di flussi di grafi, dove il numero di nodi e archi dei grafi varia nel tempo e sono presenti fenomeni di deriva concettuale.

2. Importanza del Problema

  • Necessità Pratica: Molti sistemi reali (come infrastrutture critiche, reti sociali, sistemi di raccomandazione) possono essere rappresentati mediante strutture grafiche dinamiche
  • Caratteristiche dei Dati: I dati generati da questi sistemi presentano caratteristiche di alta velocità, grande volume e diversità
  • Sfide Ambientali: La deriva concettuale in ambienti non stazionari causa il deterioramento delle prestazioni del modello

3. Limitazioni dei Metodi Esistenti

  • Metodi Tradizionali di Classificazione di Grafi: Principalmente orientati a grafi statici, incapaci di gestire flussi di grafi dinamici
  • Metodi Esistenti per Flussi di Grafi: Principalmente focalizzati sul rilevamento di anomalie piuttosto che sulla classificazione multiclasse; mancano meccanismi efficaci per gestire la deriva concettuale
  • Estrazione di Caratteristiche: I metodi esistenti utilizzano caratteristiche grafiche semplici (come densità dei bordi, gap spettrale) con capacità espressiva limitata

4. Motivazione della Ricerca

È necessario sviluppare metodi in grado di:

  • Gestire flussi di grafi dinamici con numero variabile di nodi e archi
  • Eseguire classificazione multiclasse piuttosto che limitarsi al rilevamento di anomalie
  • Rilevare e adattarsi efficacemente alla deriva concettuale
  • Utilizzare rappresentazioni grafiche più ricche

Contributi Principali

  1. Propone un nuovo framework per la classificazione di flussi di grafi: Applicabile all'impostazione generale di flussi di grafi con numero variabile di nodi e archi, supporta compiti di classificazione multiclasse
  2. Progetta un metodo di incorporamento di grafi basato su prototipi: Trasforma i grafi in rappresentazioni vettoriali di dimensione fissa selezionando grafi rappresentativi come prototipi per ogni classe
  3. Integra un meccanismo ibrido di rilevamento della deriva concettuale: Combina apprendimento incrementale e rilevamento di deriva basato sulla perdita, implementando una strategia di adattamento attivo-passivo ibrida
  4. Fornisce una verifica sperimentale completa: Valida l'efficacia del metodo su più dataset di riferimento e conduce studi di ablazione dettagliati

Spiegazione Dettagliata del Metodo

Definizione del Compito

Dato un flusso di grafi D={(gt,yt)}t=1D = \{(g_t, y_t)\}_{t=1}^{\infty}, dove:

  • gt=(V,E)g_t = (V, E) è un grafo attributato al passo temporale tt
  • yt{1,...,K}y_t \in \{1, ..., K\} è l'etichetta di classe del grafo
  • I grafi possono avere un numero variabile di nodi e archi
  • I dati provengono da una distribuzione di probabilità potenzialmente non stazionaria pt(g,y)p_t(g, y)

L'obiettivo è imparare un classificatore h:GYh: G \rightarrow Y in grado di:

  1. Classificare accuratamente i grafi appena arrivati
  2. Adattarsi continuamente attraverso l'apprendimento incrementale
  3. Rilevare e gestire la deriva concettuale

Architettura del Modello

1. Gestione della Memoria dei Grafi

Mantiene più code che memorizzano i grafi recenti: q={qc}c=1Kq = \{q_c\}_{c=1}^Kqc={gi}i=1Lq_c = \{g_i\}_{i=1}^L dove LL è la dimensione della coda per ogni classe.

2. Selezione dei Prototipi dei Grafi

Utilizza l'algoritmo Centers per selezionare RR grafi prototipo per ogni classe: pc=argming1qcg2qcδ(g1,g2)p_c = \arg\min_{g_1 \in q_c} \sum_{g_2 \in q_c} \delta(g_1, g_2) dove δ(,)\delta(\cdot, \cdot) è la distanza di edit dei grafi.

3. Generazione di Incorporamenti di Grafi

Calcola gli incorporamenti dei grafi basati sui prototipi: eg={δ(g,pi)}i=1R×Ke_g = \{\delta(g, p_i)\}_{i=1}^{R \times K} Trasforma il grafo in un vettore di dimensione R×KR \times K.

4. Apprendimento Incrementale

Utilizza un classificatore di rete neurale con funzione di costo: C=1L×Ki=1L×Kl(yi,h(egi))C = \frac{1}{L \times K} \sum_{i=1}^{L \times K} l(y_i, h(e_{g_i})) Il classificatore viene aggiornato attraverso l'addestramento incrementale: ht=ht1.train()h_t = h_{t-1}.train(\cdot)

5. Rilevamento della Deriva Concettuale

Mantiene due code di accuratezza di predizione:

  • Coda di riferimento qrefq_{ref}: memorizza i punteggi di predizione storici
  • Coda mobile qmovq_{mov}: memorizza i punteggi di predizione recenti

Utilizza la distribuzione binomiale per la modellazione, condizione di rilevamento: μmovμrefβσref\mu_{mov} \leq \mu_{ref} - \beta\sigma_{ref} dove β\beta è il parametro di sensibilità.

Punti di Innovazione Tecnica

  1. Strategia di Selezione dei Prototipi: Utilizza la distanza di edit dei grafi e il metodo della mediana per selezionare i grafi più rappresentativi come prototipi
  2. Adattamento Ibrido alla Deriva: Combina l'apprendimento incrementale passivo e il rilevamento attivo della deriva, ricalcolando i prototipi quando viene rilevata una deriva
  3. Gestione di Grafi Variabili: Gestisce grafi con numero variabile di nodi e archi attraverso il metodo di incorporamento basato sulla distanza
  4. Rilevamento Guidato dalla Perdita: Utilizza le prestazioni di predizione piuttosto che i cambiamenti nella distribuzione dei dati per rilevare la deriva concettuale

Impostazione Sperimentale

Dataset

  1. Dataset Letter:
    • Contiene rappresentazioni grafiche delle lettere "A", "I", "Z"
    • Due varianti: Letter high (perturbazione elevata), Letter med high (perturbazione media-elevata)
    • Utilizzato per testare la capacità di adattamento alla deriva concettuale
  2. Dataset GREC:
    • Rappresentazioni grafiche di simboli di disegni architettonici ed elettronici
    • Cinque livelli di perturbazione
    • Tre classi, grafi distribuiti uniformemente
  3. Dataset Fingerprint:
    • Rappresentazioni grafiche di immagini di impronte digitali
    • Due classi: "arch" e "left"
    • Provenienti dal database di impronte digitali NIST-4

Metriche di Valutazione

Utilizza la media geometrica (G-mean): G-mean=c=1KrcKG\text{-mean} = \sqrt[K]{\prod_{c=1}^K r_c} dove rcr_c è il recall della classe cc.

Adotta il metodo di valutazione prequential con fattore di decadimento con fattore di decadimento impostato a 0,99.

Metodi di Confronto

  • Metodo Proposto: Metodo completo con incorporamento basato su prototipi
  • Metodo Basato su Caratteristiche: Metodo baseline che utilizza due semplici caratteristiche: densità dei bordi e gap spettrale

Dettagli di Implementazione

  • Distanza del grafo: distanza di edit dei grafi
  • Classificatore: rete neurale completamente connessa
  • Ottimizzatore: Adam
  • Tasso di apprendimento: 0,001-0,01 (dipendente dal dataset)
  • Dimensione della memoria: L=10L = 10
  • Numero di prototipi: R=1R = 1 o R=3R = 3

Risultati Sperimentali

Risultati Principali

  1. Ruolo della Memoria dei Grafi: L'utilizzo della memoria dei grafi migliora significativamente la velocità di apprendimento e le prestazioni finali, in particolare nella fase iniziale dell'apprendimento.
  2. Impatto del Numero di Prototipi:
    • In assenza di deriva o con deriva lieve, 3 prototipi superano 1 prototipo
    • Dopo una deriva concettuale grave, un numero minore di prototipi mostra prestazioni migliori
    • Sui dataset GREC e Fingerprint, 3 prototipi mostrano costantemente prestazioni migliori
  3. Efficacia del Rilevamento della Deriva Concettuale:
    • Prima che si verifichi la deriva concettuale, le prestazioni con e senza rilevatore di deriva sono simili
    • Dopo la deriva, il metodo con rilevatore di deriva mostra un miglioramento significativo delle prestazioni
    • Verifica l'efficacia del ricalcolo dei prototipi
  4. Confronto dei Metodi: Il metodo proposto basato su incorporamento supera significativamente il metodo basato su caratteristiche semplici su tutti i dataset.

Studi di Ablazione

  1. Dimensione della Memoria: Verifica il ruolo critico della memoria dei grafi sulle prestazioni
  2. Numero di Prototipi: Analizza le prestazioni di diversi numeri di prototipi in diversi scenari di deriva
  3. Rilevamento della Deriva: Dimostra la necessità del meccanismo di rilevamento della deriva

Scoperte Sperimentali

  1. Curve di Apprendimento: Tutti i metodi hanno una fase di apprendimento iniziale, ma il metodo proposto converge più rapidamente
  2. Adattamento alla Deriva: La strategia di adattamento alla deriva basata sul ricalcolo dei prototipi è efficace
  3. Capacità di Rappresentazione: L'incorporamento basato su prototipi è più espressivo delle semplici caratteristiche grafiche

Lavori Correlati

Adattamento alla Deriva Concettuale

  • Metodi Attivi: Utilizzano test statistici o metodi di soglia per rilevare esplicitamente la deriva
  • Metodi Passivi: Utilizzano l'apprendimento incrementale per adattarsi implicitamente alla deriva
  • Metodi Ibridi: Combinano i vantaggi del rilevamento attivo e dell'adattamento passivo

Classificazione di Flussi di Grafi

  • Classificazione Tradizionale di Grafi: Principalmente orientata a grafi statici, metodi ricchi ma non applicabili a scenari di streaming
  • Metodi Esistenti per Flussi di Grafi: Principalmente focalizzati sul rilevamento di anomalie, ricerca limitata sulla classificazione multiclasse
  • Incorporamenti di Grafi: Utilizza metodi come autoencoder per imparare rappresentazioni grafiche

L'innovazione di questo articolo risiede nella combinazione di incorporamenti basati su prototipi, apprendimento incrementale e rilevamento della deriva concettuale, specificamente orientata al compito di classificazione multiclasse di flussi di grafi.

Conclusioni e Discussione

Conclusioni Principali

  1. Efficacia del Metodo: Il metodo ibrido proposto mostra prestazioni eccellenti nel compito di classificazione di flussi di grafi, in particolare in scenari con deriva concettuale
  2. Importanza dei Componenti: La memoria dei grafi, la selezione dei prototipi e il meccanismo di rilevamento della deriva contribuiscono tutti in modo importante alle prestazioni finali
  3. Adattabilità: Il metodo può gestire efficacemente flussi di grafi dinamici con numero variabile di nodi e archi

Limitazioni

  1. Complessità Computazionale: La complessità computazionale del calcolo della distanza di edit dei grafi è elevata, il che potrebbe limitare le applicazioni su larga scala
  2. Sensibilità ai Parametri: Il parametro di sensibilità del rilevamento della deriva deve essere regolato in base al compito
  3. Disponibilità delle Etichette: Presuppone che le etichette vere siano disponibili ad ogni passo, il che potrebbe non essere realistico nelle applicazioni pratiche

Direzioni Future

L'articolo identifica chiaramente due importanti direzioni di ricerca futura:

  1. Apprendimento di Incorporamenti di Grafi: Ricerca di metodi per imparare end-to-end gli incorporamenti di grafi, da applicare a problemi di flussi di grafi su larga scala
  2. Apprendimento con Etichette Limitate: Considerazione di paradigmi non supervisionati, semi-supervisionati, di apprendimento attivo, nonché tecniche di apprendimento con pochi campioni e aumento dei dati

Valutazione Approfondita

Punti di Forza

  1. Importanza del Problema: La classificazione di flussi di grafi è un problema pratico e importante con ampio valore applicativo
  2. Innovazione del Metodo: Combina organicamente la selezione dei prototipi, l'apprendimento incrementale e il rilevamento della deriva concettuale, formando una soluzione completa
  3. Completezza Sperimentale: Conduce una verifica sperimentale completa, inclusi studi di ablazione e analisi dei parametri
  4. Chiarezza della Scrittura: La struttura dell'articolo è chiara, la descrizione del metodo è dettagliata e facile da comprendere e riprodurre

Insufficienze

  1. Scala dei Dataset: I dataset utilizzati sono relativamente piccoli, l'effetto su flussi di grafi su larga scala rimane sconosciuto
  2. Efficienza Computazionale: La complessità computazionale del calcolo della distanza di edit dei grafi è elevata, potrebbe diventare un collo di bottiglia nelle applicazioni pratiche
  3. Analisi Teorica: Manca l'analisi teorica e le garanzie di convergenza
  4. Tipi di Deriva: Principalmente considera la deriva improvvisa, l'effetto sulla gestione della deriva graduale non è chiaro

Impatto

  1. Contributo Accademico: Fornisce nuove prospettive di soluzione per la classificazione di flussi di grafi, colmando le lacune in questo campo
  2. Valore Pratico: Il metodo ha potenziale di applicazione pratica, in particolare nel monitoraggio delle infrastrutture critiche
  3. Riproducibilità: Fornisce dettagli di implementazione dettagliati e impostazioni dei parametri, facilitando la riproduzione

Scenari Applicabili

Questo metodo è particolarmente adatto per:

  • Monitoraggio di sistemi di infrastrutture critiche
  • Analisi dinamica di reti sociali
  • Scoperta di farmaci mediante grafi molecolari
  • Analisi del comportamento degli utenti nei sistemi di raccomandazione
  • Qualsiasi scenario che richieda la gestione di strutture grafiche dinamiche con deriva concettuale

Bibliografia

L'articolo cita 37 lavori correlati, coprendo molteplici campi correlati come rilevamento della deriva concettuale, reti neurali grafiche e apprendimento incrementale, fornendo una base teorica solida per la ricerca.


Valutazione Complessiva: Questo è un articolo di alta qualità con importanti contributi nel campo della classificazione di flussi di grafi. Il design del metodo è ragionevole, la verifica sperimentale è completa, la scrittura è chiara e fornisce insights e soluzioni di valore per lo sviluppo del campo. Sebbene presenti alcune limitazioni, la sua innovazione e praticità gli conferiscono importante valore accademico e applicativo.