2025-11-18T15:58:13.889736

A Survey of Graph Unlearning

Said, Tran, Zhao et al.
Graph unlearning emerges as a crucial advancement in the pursuit of responsible AI, providing the means to remove sensitive data traces from trained models, thereby upholding the \textit{right to be forgotten}. It is evident that graph machine learning exhibits sensitivity to data privacy and adversarial attacks, necessitating the application of graph unlearning techniques to address these concerns effectively. In this comprehensive survey paper, we present the first systematic review of graph unlearning approaches, encompassing a diverse array of methodologies and offering a detailed taxonomy and up-to-date literature overview to facilitate the understanding of researchers new to this field. To ensure clarity, we provide lucid explanations of the fundamental concepts and evaluation measures used in graph unlearning, catering to a broader audience with varying levels of expertise. Delving into potential applications, we explore the versatility of graph unlearning across various domains, including but not limited to social networks, adversarial settings, recommender systems, and resource-constrained environments like the Internet of Things, illustrating its potential impact in safeguarding data privacy and enhancing AI systems' robustness. Finally, we shed light on promising research directions, encouraging further progress and innovation within the domain of graph unlearning. By laying a solid foundation and fostering continued progress, this survey seeks to inspire researchers to further advance the field of graph unlearning, thereby instilling confidence in the ethical growth of AI systems and reinforcing the responsible application of machine learning techniques in various domains.
academic

Un Sondaggio sull'Oblio nei Grafi

Informazioni Fondamentali

  • ID Articolo: 2310.02164
  • Titolo: A Survey of Graph Unlearning
  • Autori: Anwar Said, Ngoc N. Tran, Yuying Zhao, Tyler Derr, Mudassir Shabbir, Waseem Abbas, Xenofon Koutsoukos
  • Classificazione: cs.LG (Machine Learning)
  • Data di Pubblicazione: arXiv ottobre 2023 (versione più recente 14 ottobre 2025)
  • Link dell'Articolo: https://arxiv.org/abs/2310.02164

Riassunto

L'oblio nei grafi (Graph Unlearning) rappresenta una tecnologia cruciale nello sviluppo dell'IA responsabile, fornendo i mezzi per rimuovere le tracce di dati sensibili dai modelli già addestrati, preservando così il "diritto all'oblio". Data la sensibilità dell'apprendimento automatico su grafi rispetto alla privacy dei dati e agli attacchi avversariali, l'applicazione di tecniche di oblio nei grafi diventa particolarmente necessaria per affrontare efficacemente questi problemi. Questo articolo di sondaggio fornisce la prima revisione sistematica dei metodi di oblio nei grafi, coprendo metodologie diversificate e fornendo una tassonomia dettagliata e una panoramica della letteratura più recente, facilitando i nuovi ricercatori in questo campo. Per garantire chiarezza, l'articolo fornisce spiegazioni esplicite dei concetti fondamentali e delle metriche di valutazione nell'oblio nei grafi, rivolgendosi a un pubblico ampio con diversi livelli di competenza.

Contesto di Ricerca e Motivazione

Contesto del Problema

  1. Esigenze di Protezione della Privacy: Con l'implementazione di normative sulla privacy dei dati (come GDPR, CCPA), gli individui hanno il diritto di richiedere la cancellazione dei loro dati dai modelli di machine learning
  2. Complessità dei Dati Grafici: L'interconnessione tra nodi e archi nei dati strutturati a grafo rende difficile la semplice cancellazione dei dati, poiché le informazioni si propagano ai nodi remoti attraverso meccanismi di message passing
  3. Protezione dagli Attacchi Avversariali: Necessità di rimuovere i dati iniettati malevolmente dal modello per mantenere l'integrità del sistema
  4. Insufficienza dei Metodi Esistenti: I metodi tradizionali di machine unlearning non possono essere direttamente applicati ai dati strutturati a grafo

Importanza della Ricerca

  • Conformità Legale: Soddisfare i requisiti delle normative sulla protezione dei dati
  • Protezione della Privacy: Proteggere le informazioni sensibili personali dalla divulgazione del modello
  • Protezione della Sicurezza: Resistere agli attacchi di data poisoning e simili
  • IA Etica: Promuovere lo sviluppo di sistemi di IA responsabili

Limitazioni Esistenti

  • Mancanza di una revisione sistematica dei metodi di oblio nei grafi
  • La natura interconnessa dei dati grafici rende l'oblio completo complesso
  • Difficoltà nel compromesso tra efficienza e completezza
  • Mancanza di standard di valutazione unificati

Contributi Principali

  1. Primo Sondaggio Sistematico: Fornisce la prima revisione sistematica e completa del campo dell'oblio nei grafi
  2. Tassonomia Dettagliata: Classifica i metodi di oblio nei grafi in due categorie principali: Oblio Esatto (Exact Unlearning) e Oblio Approssimato (Approximate Unlearning)
  3. Analisi Applicativa Completa: Esplora le applicazioni dell'oblio nei grafi in molteplici domini, inclusi reti sociali, sistemi di raccomandazione e reti mediche
  4. Framework di Valutazione: Fornisce metodi per valutare la completezza dell'oblio, l'efficienza e l'utilità del modello
  5. Direzioni Future: Identifica molteplici direzioni di ricerca promettenti

Dettagli dei Metodi

Definizione del Compito

Concetti Fondamentali

  • Definizione di Grafo: G = (V, E, X, Xe), dove V è l'insieme dei nodi, E è l'insieme degli archi, X è la matrice delle caratteristiche dei nodi, Xe è la matrice delle caratteristiche degli archi
  • Insieme di Oblio: S ⊆ D, rappresenta il sottoinsieme di dati che deve essere dimenticato
  • Obiettivo: Aggiornare i parametri del modello θ in modo che l'effetto sia equivalente al riaddestrare su D\S

Definizione di (ε, δ)-Oblio

Per un insieme di dati fisso D, un insieme di oblio S e un algoritmo di apprendimento casuale A, un algoritmo di oblio U è (ε, δ)-oblio se e solo se per tutti R ⊆ R:

Pr[A(D \ S) ∈ R] ≤ e^ε Pr[U(A(D), S, D) ∈ R] + δ
Pr[U(A(D), S, D) ∈ R] ≤ e^ε Pr[A(D \ S) ∈ R] + δ

Classificazione dei Tipi di Oblio nei Grafi

1. Oblio Transduttivo (Transductive)

  • Oblio dei Nodi: Rimozione di nodi specifici e di tutte le loro connessioni
  • Oblio degli Archi: Rimozione di archi specifici mantenendo i nodi
  • Oblio delle Caratteristiche dei Nodi: Rimozione di caratteristiche specifiche dei nodi

2. Oblio Induttivo (Inductive)

  • Oblio Induttivo dei Nodi: Rimozione di insiemi di nodi da molteplici grafi
  • Oblio Induttivo degli Archi: Rimozione di insiemi di archi da molteplici grafi
  • Oblio a Livello di Grafo: Rimozione di istanze di grafi interi

Framework Tecnico

Metodi di Oblio Esatto

  1. Framework SISA: Partiziona i dati di addestramento, richiedendo solo il riaddestramento dei frammenti interessati
  2. Riaddestramento dei Parametri: Archivia i parametri storici, riaddestrando dal primo punto in cui i dati cancellati appaiono
  3. Soluzioni in Forma Chiusa: Come GraphEditor, che converte l'addestramento GNN in un problema risolvibile analiticamente

Metodi di Oblio Approssimato

  1. Metodi in Impostazione Convessa:
    • Utilizzo della matrice Hessiana per l'aggiornamento dei parametri
    • Stima della funzione di influenza dell'impatto dei dati
    • Fornitura di garanzie teoriche
  2. Metodi in Impostazione Non-Convessa:
    • Oblio degli archi basato su funzione di influenza (CEU)
    • Operazioni di cancellazione gerarchica (GNNDelete)
    • Metodi di distillazione della conoscenza (GUKD, D2DGN)

Configurazione Sperimentale

Dimensioni di Valutazione

1. Completezza dell'Oblio

  • Attacchi di Inferenza di Appartenenza: Valutazione se i dati dimenticati possono ancora essere rilevati
  • Differenza di Previsione: Confronto tra gli output del modello dimenticato e del modello riaddestrato
  • Differenza di Parametri: Confronto della distanza euclidea dei parametri del modello

2. Efficienza dell'Oblio

  • Complessità Temporale: La maggior parte dei metodi ha complessità lineare rispetto al numero di strati e quadratica rispetto alla dimensione delle caratteristiche
  • Tempo di Esecuzione Empirico: Tempo effettivo richiesto per l'operazione di oblio

3. Utilità del Modello

  • Prestazioni dei Compiti a Valle: Punteggio F1, accuratezza, AUROC e simili
  • Confronto con Baseline: Generalmente confrontato con le prestazioni del riaddestramento da zero

Insiemi di Dati

I metodi menzionati nell'articolo sono valutati su vari insiemi di dati grafici:

  • Dati di reti sociali
  • Reti di citazioni
  • Dati di grafi molecolari
  • Dati di sistemi di raccomandazione

Risultati Sperimentali

Scoperte Principali

Metodi Esatti vs Approssimati

  • Metodi Esatti: Forniscono garanzie di oblio perfetto ma con elevato costo computazionale
  • Metodi Approssimati: Raggiungono un equilibrio tra efficienza e qualità dell'oblio

Compromessi di Prestazione

  • Esiste un compromesso fondamentale tra completezza dell'oblio ed efficienza computazionale
  • L'interconnessione del grafo fa sì che l'oblio locale influenzi le prestazioni globali
  • Diversi tipi di oblio (nodi/archi/caratteristiche) hanno complessità diverse

Confronto dei Metodi

Secondo il riepilogo della Tabella II:

  • I metodi di tipo SISA mostrano prestazioni eccellenti in termini di precisione
  • I metodi basati su funzione di influenza sono relativamente efficienti nell'oblio approssimato
  • I metodi di distillazione della conoscenza hanno vantaggi nel mantenimento dell'utilità del modello

Effetto Applicativo

  • Sistemi di Raccomandazione: Metodi come RecEraser gestiscono efficacemente l'oblio delle interazioni utente-elemento
  • Reti Sociali: GraphEraser realizza un oblio efficiente attraverso il partizionamento dei grafi
  • Protezione Avversariale: I metodi di oblio rimuovono efficacemente i dati iniettati malevolmente

Lavori Correlati

Machine Unlearning Tradizionale

  • Focalizzato principalmente su dati indipendenti e identicamente distribuiti
  • Non può essere direttamente applicato ai dati strutturati a grafo
  • Manca la considerazione delle relazioni di dipendenza tra i dati

Apprendimento Automatico su Grafi

  • Compiti di classificazione dei nodi, predizione dei collegamenti, classificazione dei grafi
  • Il meccanismo di message passing rende complessa la propagazione delle informazioni
  • Richiede tecniche di oblio specializzate

Protezione della Privacy

  • Applicazione della privacy differenziale ai dati grafici
  • Combinazione dell'apprendimento federato con le reti neurali grafiche
  • Attacchi di inferenza di appartenenza e difese

Conclusioni e Discussione

Conclusioni Principali

  1. L'oblio nei grafi è una tecnologia chiave per l'IA responsabile
  2. I metodi esatti e approssimati hanno ciascuno i loro vantaggi e devono essere scelti in base alle esigenze applicative
  3. Gli standard di valutazione richiedono ulteriore perfezionamento e standardizzazione
  4. Le applicazioni cross-domain mostrano un enorme potenziale

Limitazioni

  1. Controversia negli Standard di Valutazione: I metodi di valutazione esistenti presentano problemi di affidabilità
  2. Sfide nell'Impostazione Non-Convessa: La maggior parte dei modelli GNN pratici sono non-convessi, rendendo difficili le garanzie teoriche
  3. Limitazioni di Scalabilità: L'efficienza dell'oblio su grafi su larga scala richiede ancora miglioramenti
  4. Supporto Insufficiente per Strutture Grafiche Complesse: Supporto inadeguato per grafi diretti, grafi temporali e altre strutture complesse

Direzioni Future

1. Sviluppo Tecnico

  • Oblio Approssimato in Impostazione Non-Convessa: Sviluppare metodi di oblio applicabili a modelli GNN complessi
  • Framework Universale di Oblio nei Grafi: Metodi unificati che supportano molteplici tipi di oblio
  • Supporto per Strutture Grafiche Complesse: Estensione a grafi diretti, grafi temporali, grafi di conoscenza

2. Espansione Applicativa

  • Oblio nei Modelli Fondamentali: Adattarsi alle esigenze di oblio dei modelli fondamentali grafici su larga scala
  • Interazioni Multi-Utente: Affrontare le questioni etiche dell'oblio dei dati di interazione tra utenti
  • Ambienti di Edge Computing: Oblio efficiente in ambienti con risorse limitate

3. Perfezionamento Teorico

  • Metodi di Rimozione Certificata: Fornire garanzie teoriche più forti
  • Standardizzazione della Valutazione: Stabilire un framework affidabile per la valutazione dell'oblio
  • Quantificazione della Privacy: Metodi più precisi per quantificare la divulgazione della privacy

Valutazione Approfondita

Punti di Forza

  1. Lavoro Pioneristico: Primo sondaggio sistematico nel campo dell'oblio nei grafi
  2. Completezza: Copre molteplici dimensioni inclusi metodi, applicazioni e valutazione
  3. Praticità: Fornisce una chiara roadmap tecnica per ricercatori e professionisti
  4. Lungimiranza: Identifica molteplici direzioni di ricerca di valore
  5. Normativa: Stabilisce il framework concettuale e di classificazione fondamentale del campo

Insufficienze

  1. Analisi Empirica Limitata: Come articolo di sondaggio, manca di nuove verifiche sperimentali
  2. Profondità dei Metodi: La descrizione dei dettagli tecnici di alcuni metodi complessi potrebbe essere più approfondita
  3. Assenza di Benchmark: Mancanza di test benchmark unificati e standard di confronto
  4. Analisi Teorica: L'analisi della complessità teorica dei diversi metodi potrebbe essere più dettagliata

Impatto

  1. Valore Accademico: Pone le fondamenta teoriche per il campo emergente dell'oblio nei grafi
  2. Guida Pratica: Fornisce una guida per la selezione dei metodi per le applicazioni industriali
  3. Promozione della Ricerca: Probabilmente stimolerà più lavori di ricerca correlati
  4. Stabilimento di Standard: Aiuta a stabilire standard di valutazione e confronto nel campo

Scenari Applicabili

  1. Applicazioni Sensibili alla Privacy: Domini come sanità e finanza che richiedono rigorosa protezione della privacy
  2. Sistemi Grafici su Larga Scala: Applicazioni Internet come reti sociali e sistemi di raccomandazione
  3. Ambienti Avversariali: Sistemi critici per la sicurezza che necessitano di resistenza agli attacchi di data poisoning
  4. Requisiti di Conformità: Sistemi che devono conformarsi a normative sulla protezione dei dati come il GDPR

Riferimenti Bibliografici

L'articolo cita 113 riferimenti correlati, coprendo importanti lavori in molteplici domini correlati inclusi machine unlearning, reti neurali grafiche e protezione della privacy, fornendo ai lettori una base bibliografica completa.


Valutazione Complessiva: Questo è un articolo di sondaggio di alta qualità che sistematicamente esamina lo stato della ricerca nel campo emergente dell'oblio nei grafi, ponendo importanti fondamenta per lo sviluppo del campo. L'articolo è ben organizzato, completo nei contenuti e ha un significato importante nel promuovere lo sviluppo dell'IA responsabile.