2025-11-18T15:58:13.889736

A Survey of Graph Unlearning

Said, Tran, Zhao et al.
Graph unlearning emerges as a crucial advancement in the pursuit of responsible AI, providing the means to remove sensitive data traces from trained models, thereby upholding the \textit{right to be forgotten}. It is evident that graph machine learning exhibits sensitivity to data privacy and adversarial attacks, necessitating the application of graph unlearning techniques to address these concerns effectively. In this comprehensive survey paper, we present the first systematic review of graph unlearning approaches, encompassing a diverse array of methodologies and offering a detailed taxonomy and up-to-date literature overview to facilitate the understanding of researchers new to this field. To ensure clarity, we provide lucid explanations of the fundamental concepts and evaluation measures used in graph unlearning, catering to a broader audience with varying levels of expertise. Delving into potential applications, we explore the versatility of graph unlearning across various domains, including but not limited to social networks, adversarial settings, recommender systems, and resource-constrained environments like the Internet of Things, illustrating its potential impact in safeguarding data privacy and enhancing AI systems' robustness. Finally, we shed light on promising research directions, encouraging further progress and innovation within the domain of graph unlearning. By laying a solid foundation and fostering continued progress, this survey seeks to inspire researchers to further advance the field of graph unlearning, thereby instilling confidence in the ethical growth of AI systems and reinforcing the responsible application of machine learning techniques in various domains.
academic

Un Sondage sur l'Oubli de Graphes

Informations Fondamentales

  • ID de l'article : 2310.02164
  • Titre : A Survey of Graph Unlearning
  • Auteurs : Anwar Said, Ngoc N. Tran, Yuying Zhao, Tyler Derr, Mudassir Shabbir, Waseem Abbas, Xenofon Koutsoukos
  • Classification : cs.LG (Apprentissage Automatique)
  • Date de publication : arXiv octobre 2023 (dernière version 14 octobre 2025)
  • Lien de l'article : https://arxiv.org/abs/2310.02164

Résumé

L'oubli de graphes en apprentissage automatique (Graph Unlearning) constitue une technologie clé dans le développement d'une IA responsable, offrant les moyens de supprimer les traces de données sensibles des modèles entraînés, préservant ainsi le « droit à l'oubli ». Étant donné la sensibilité de l'apprentissage automatique sur graphes aux problèmes de confidentialité des données et aux attaques adversariales, l'application de techniques d'oubli de graphes pour résoudre efficacement ces problèmes devient particulièrement nécessaire. Cet article de synthèse procède à un examen systématique des méthodes d'oubli de graphes, couvrant des méthodologies diversifiées et fournissant une taxonomie détaillée ainsi qu'un aperçu de la littérature actuelle, facilitant ainsi les nouveaux chercheurs dans ce domaine. Pour assurer la clarté, l'article fournit des explications claires des concepts fondamentaux et des métriques d'évaluation en oubli de graphes, s'adressant à un large public de niveaux d'expertise variés.

Contexte et Motivation de la Recherche

Contexte du Problème

  1. Besoins de protection de la vie privée : Avec la mise en œuvre de réglementations sur la confidentialité des données (telles que le RGPD, la CCPA), les individus ont le droit de demander la suppression de leurs données des modèles d'apprentissage automatique
  2. Complexité des données graphiques : L'interconnexion des nœuds et des arêtes dans les données structurées en graphes rend la simple suppression de données difficile, car les informations se propagent vers les nœuds distants via les mécanismes de passage de messages
  3. Protection contre les attaques adversariales : Nécessité de supprimer les données malveillantes injectées du modèle pour maintenir l'intégrité du système
  4. Insuffisance des méthodes existantes : Les méthodes traditionnelles d'oubli en apprentissage automatique ne peuvent pas être directement appliquées aux données structurées en graphes

Importance de la Recherche

  • Conformité juridique : Satisfaction des exigences de réglementation sur la protection des données
  • Protection de la vie privée : Protection des informations sensibles personnelles contre les fuites de modèles
  • Protection de la sécurité : Résistance aux attaques par empoisonnement de données et autres attaques adversariales
  • IA éthique : Promotion du développement de systèmes d'IA responsables

Limitations Existantes

  • Absence d'une synthèse systématique des méthodes d'oubli de graphes
  • La nature interconnectée des données graphiques rend l'oubli complet complexe
  • Compromis difficile entre l'efficacité et l'intégrité
  • Absence de normes d'évaluation unifiées

Contributions Principales

  1. Première synthèse systématique : Fournit le premier examen systématique et complet du domaine de l'oubli de graphes
  2. Taxonomie détaillée : Classe les méthodes d'oubli de graphes en deux catégories principales : l'oubli exact (Exact Unlearning) et l'oubli approximatif (Approximate Unlearning)
  3. Analyse d'application complète : Explore les applications de l'oubli de graphes dans plusieurs domaines, notamment les réseaux sociaux, les systèmes de recommandation et les réseaux médicaux
  4. Cadre d'évaluation : Fournit des méthodes d'évaluation de l'intégrité de l'oubli, de l'efficacité et de l'utilité du modèle
  5. Directions futures : Identifie plusieurs directions de recherche prometteuses

Détails des Méthodes

Définition des Tâches

Concepts Fondamentaux

  • Définition du graphe : G = (V, E, X, Xe), où V est l'ensemble des nœuds, E est l'ensemble des arêtes, X est la matrice des caractéristiques des nœuds, et Xe est la matrice des caractéristiques des arêtes
  • Ensemble d'oubli : S ⊆ D, représentant le sous-ensemble de données à oublier
  • Objectif : Mettre à jour les paramètres du modèle θ de sorte que l'effet soit équivalent à un réentraînement sur D\S

Définition de l'Oubli (ε, δ)

Pour un ensemble de données fixe D, un ensemble d'oubli S et un algorithme d'apprentissage aléatoire A, un algorithme d'oubli U est (ε, δ)-oubli si et seulement si pour tout R ⊆ R :

Pr[A(D \ S) ∈ R] ≤ e^ε Pr[U(A(D), S, D) ∈ R] + δ
Pr[U(A(D), S, D) ∈ R] ≤ e^ε Pr[A(D \ S) ∈ R] + δ

Classification des Types d'Oubli de Graphes

1. Oubli Transductif (Transductive)

  • Oubli de nœuds : Suppression de nœuds spécifiques et de toutes leurs connexions
  • Oubli d'arêtes : Suppression d'arêtes spécifiques tout en conservant les nœuds
  • Oubli de caractéristiques de nœuds : Suppression de caractéristiques spécifiques de nœuds

2. Oubli Inductif (Inductive)

  • Oubli de nœuds inductif : Suppression d'ensembles de nœuds de plusieurs graphes
  • Oubli d'arêtes inductif : Suppression d'ensembles d'arêtes de plusieurs graphes
  • Oubli au niveau du graphe : Suppression d'instances de graphes entières

Cadre Technique

Méthodes d'Oubli Exact

  1. Cadre SISA : Partitionne les données d'entraînement, nécessitant uniquement le réentraînement des partitions affectées
  2. Réentraînement des paramètres : Stockage des paramètres historiques, réentraînement à partir du point d'apparition initiale des données supprimées
  3. Solutions sous forme fermée : Telles que GraphEditor, convertissant l'entraînement GNN en problèmes analytiquement résolubles

Méthodes d'Oubli Approximatif

  1. Méthodes en cadre convexe :
    • Utilisation de la matrice Hessienne pour la mise à jour des paramètres
    • Estimation de la fonction d'influence de l'impact des données
    • Fourniture de garanties théoriques
  2. Méthodes en cadre non-convexe :
    • Oubli d'arêtes basé sur la fonction d'influence (CEU)
    • Opérations de suppression hiérarchique (GNNDelete)
    • Méthodes de distillation de connaissances (GUKD, D2DGN)

Configuration Expérimentale

Dimensions d'Évaluation

1. Intégrité de l'Oubli

  • Attaques par inférence d'appartenance : Évaluation de la détectabilité des données oubliées
  • Différence de prédiction : Comparaison des résultats entre le modèle oublieux et le modèle réentraîné
  • Différence de paramètres : Comparaison de la distance euclidienne des paramètres du modèle

2. Efficacité de l'Oubli

  • Complexité temporelle : La plupart des méthodes ont une complexité linéaire par rapport au nombre de couches et quadratique par rapport à la dimension des caractéristiques
  • Temps d'exécution empirique : Temps réel requis pour les opérations d'oubli

3. Utilité du Modèle

  • Performance des tâches en aval : Scores F1, précision, AUROC, etc.
  • Comparaison avec les références : Généralement comparée aux performances du réentraînement à partir de zéro

Ensembles de Données

Les méthodes mentionnées dans l'article sont évaluées sur plusieurs ensembles de données graphiques :

  • Données de réseaux sociaux
  • Réseaux de citations
  • Données de graphes moléculaires
  • Données de systèmes de recommandation

Résultats Expérimentaux

Principales Conclusions

Méthodes Exactes vs Approximatives

  • Méthodes exactes : Fournissent des garanties d'oubli parfaites mais avec un coût computationnel élevé
  • Méthodes approximatives : Établissent un équilibre entre l'efficacité et la qualité de l'oubli

Compromis de Performance

  • Existence d'un compromis fondamental entre l'intégrité de l'oubli et l'efficacité computationnelle
  • L'interconnexion du graphe fait que l'oubli local affecte les performances globales
  • Les différents types d'oubli (nœuds/arêtes/caractéristiques) présentent des complexités différentes

Comparaison des Méthodes

Selon le résumé du tableau II :

  • Les méthodes de type SISA excellent en termes de précision
  • Les méthodes basées sur la fonction d'influence sont relativement efficaces en oubli approximatif
  • Les méthodes de distillation de connaissances présentent des avantages dans la préservation de l'utilité du modèle

Efficacité de l'Application

  • Systèmes de recommandation : Les méthodes telles que RecEraser traitent efficacement l'oubli des interactions utilisateur-article
  • Réseaux sociaux : GraphEraser réalise un oubli efficace par partitionnement de graphes
  • Protection adversariale : Les méthodes d'oubli suppriment efficacement les données malveillantes injectées

Travaux Connexes

Oubli en Apprentissage Automatique Traditionnel

  • Concentré principalement sur les données indépendantes et identiquement distribuées
  • Ne peut pas être directement appliqué aux données structurées en graphes
  • Manque de considération pour les dépendances entre les données

Apprentissage Automatique sur Graphes

  • Tâches de classification de nœuds, prédiction de liens, classification de graphes, etc.
  • Les mécanismes de passage de messages rendent la propagation d'informations complexe
  • Nécessité de techniques d'oubli spécialisées

Protection de la Vie Privée

  • Application de la confidentialité différentielle aux données graphiques
  • Apprentissage fédéré combiné avec les réseaux de neurones graphiques
  • Attaques par inférence d'appartenance et défenses

Conclusions et Discussion

Conclusions Principales

  1. L'oubli de graphes est une technologie clé pour une IA responsable
  2. Les méthodes exactes et approximatives présentent chacune des avantages et doivent être choisies selon les besoins de l'application
  3. Les normes d'évaluation nécessitent une amélioration et une normalisation supplémentaires
  4. Les applications intersectorielles démontrent un potentiel énorme

Limitations

  1. Controverse sur les normes d'évaluation : Les méthodes d'évaluation existantes présentent des problèmes de fiabilité
  2. Défis du cadre non-convexe : La plupart des modèles GNN pratiques sont non-convexes, rendant les garanties théoriques difficiles
  3. Limitations de scalabilité : L'efficacité de l'oubli sur les graphes à grande échelle nécessite encore des améliorations
  4. Structures graphiques complexes : Support insuffisant pour les graphes orientés, les graphes temporels, etc.

Directions Futures

1. Développement Technique

  • Oubli approximatif en cadre non-convexe : Développement de méthodes d'oubli applicables aux modèles GNN complexes
  • Cadre d'oubli de graphes universel : Méthodes unifiées supportant plusieurs types d'oubli
  • Support des structures graphiques complexes : Extension aux graphes orientés, graphes temporels, graphes de connaissances

2. Extension des Applications

  • Oubli de modèles fondamentaux : Adaptation aux besoins d'oubli des grands modèles fondamentaux sur graphes
  • Interactions multi-utilisateurs : Traitement des enjeux éthiques de l'oubli des données d'interaction entre utilisateurs
  • Environnements informatiques périphériques : Oubli efficace dans les environnements aux ressources limitées

3. Perfectionnement Théorique

  • Méthodes de suppression certifiée : Fourniture de garanties théoriques plus fortes
  • Normalisation des normes d'évaluation : Établissement d'un cadre d'évaluation d'oubli fiable
  • Quantification de la vie privée : Méthodes plus précises de quantification des fuites de confidentialité

Évaluation Approfondie

Avantages

  1. Travail novateur : Première synthèse systématique du domaine de l'oubli de graphes
  2. Complétude : Couvre plusieurs dimensions incluant les méthodes, les applications et l'évaluation
  3. Praticité : Fournit une feuille de route technologique claire aux chercheurs et praticiens
  4. Prospective : Identifie plusieurs directions de recherche de valeur
  5. Normalisation : Établit les concepts fondamentaux et le cadre de classification du domaine

Insuffisances

  1. Analyse empirique limitée : En tant qu'article de synthèse, manque de nouvelles vérifications expérimentales
  2. Profondeur des méthodes : La description des détails techniques de certaines méthodes complexes pourrait être plus approfondie
  3. Absence de référence : Manque de tests de référence unifiés et de normes de comparaison
  4. Analyse théorique : L'analyse de la complexité théorique des différentes méthodes pourrait être plus détaillée

Impact

  1. Valeur académique : Pose les fondations théoriques du domaine émergent de l'oubli de graphes
  2. Orientation pratique : Fournit un guide de sélection des méthodes pour les applications industrielles
  3. Stimulation de la recherche : Susceptible de stimuler davantage de travaux de recherche connexes
  4. Établissement de normes : Contribue à l'établissement de normes d'évaluation et de comparaison du domaine

Scénarios Applicables

  1. Applications sensibles à la vie privée : Domaines tels que la santé et la finance nécessitant une protection stricte de la vie privée
  2. Systèmes graphiques à grande échelle : Applications Internet telles que les réseaux sociaux et les systèmes de recommandation
  3. Environnements adversariaux : Systèmes critiques pour la sécurité nécessitant une résistance aux attaques par empoisonnement de données
  4. Exigences de conformité : Systèmes devant se conformer à des réglementations telles que le RGPD

Références

L'article cite 113 références connexes, couvrant des travaux importants dans plusieurs domaines connexes incluant l'oubli en apprentissage automatique, les réseaux de neurones graphiques et la protection de la vie privée, fournissant aux lecteurs une base de littérature complète.


Évaluation Générale : Ceci est un article de synthèse de haute qualité qui examine systématiquement l'état actuel de la recherche dans le domaine émergent de l'oubli de graphes, posant les fondations importantes pour le développement du domaine. L'article est bien organisé, complet en contenu et revêt une importance significative pour promouvoir le développement d'une IA responsable.