2025-11-18T15:58:13.889736

A Survey of Graph Unlearning

Said, Tran, Zhao et al.

Graph unlearning emerges as a crucial advancement in the pursuit of responsible AI, providing the means to remove sensitive data traces from trained models, thereby upholding the \textit{right to be forgotten}. It is evident that graph machine learning exhibits sensitivity to data privacy and adversarial attacks, necessitating the application of graph unlearning techniques to address these concerns effectively. In this comprehensive survey paper, we present the first systematic review of graph unlearning approaches, encompassing a diverse array of methodologies and offering a detailed taxonomy and up-to-date literature overview to facilitate the understanding of researchers new to this field. To ensure clarity, we provide lucid explanations of the fundamental concepts and evaluation measures used in graph unlearning, catering to a broader audience with varying levels of expertise. Delving into potential applications, we explore the versatility of graph unlearning across various domains, including but not limited to social networks, adversarial settings, recommender systems, and resource-constrained environments like the Internet of Things, illustrating its potential impact in safeguarding data privacy and enhancing AI systems' robustness. Finally, we shed light on promising research directions, encouraging further progress and innovation within the domain of graph unlearning. By laying a solid foundation and fostering continued progress, this survey seeks to inspire researchers to further advance the field of graph unlearning, thereby instilling confidence in the ethical growth of AI systems and reinforcing the responsible application of machine learning techniques in various domains.

academic

Un Sondage sur l'Oubli de Graphes

Informations Fondamentales

ID de l'article : 2310.02164
Titre : A Survey of Graph Unlearning
Auteurs : Anwar Said, Ngoc N. Tran, Yuying Zhao, Tyler Derr, Mudassir Shabbir, Waseem Abbas, Xenofon Koutsoukos
Classification : cs.LG (Apprentissage Automatique)
Date de publication : arXiv octobre 2023 (dernière version 14 octobre 2025)
Lien de l'article : https://arxiv.org/abs/2310.02164

Résumé

L'oubli de graphes en apprentissage automatique (Graph Unlearning) constitue une technologie clé dans le développement d'une IA responsable, offrant les moyens de supprimer les traces de données sensibles des modèles entraînés, préservant ainsi le « droit à l'oubli ». Étant donné la sensibilité de l'apprentissage automatique sur graphes aux problèmes de confidentialité des données et aux attaques adversariales, l'application de techniques d'oubli de graphes pour résoudre efficacement ces problèmes devient particulièrement nécessaire. Cet article de synthèse procède à un examen systématique des méthodes d'oubli de graphes, couvrant des méthodologies diversifiées et fournissant une taxonomie détaillée ainsi qu'un aperçu de la littérature actuelle, facilitant ainsi les nouveaux chercheurs dans ce domaine. Pour assurer la clarté, l'article fournit des explications claires des concepts fondamentaux et des métriques d'évaluation en oubli de graphes, s'adressant à un large public de niveaux d'expertise variés.

Contexte et Motivation de la Recherche

Contexte du Problème

Besoins de protection de la vie privée : Avec la mise en œuvre de réglementations sur la confidentialité des données (telles que le RGPD, la CCPA), les individus ont le droit de demander la suppression de leurs données des modèles d'apprentissage automatique
Complexité des données graphiques : L'interconnexion des nœuds et des arêtes dans les données structurées en graphes rend la simple suppression de données difficile, car les informations se propagent vers les nœuds distants via les mécanismes de passage de messages
Protection contre les attaques adversariales : Nécessité de supprimer les données malveillantes injectées du modèle pour maintenir l'intégrité du système
Insuffisance des méthodes existantes : Les méthodes traditionnelles d'oubli en apprentissage automatique ne peuvent pas être directement appliquées aux données structurées en graphes

Importance de la Recherche

Conformité juridique : Satisfaction des exigences de réglementation sur la protection des données
Protection de la vie privée : Protection des informations sensibles personnelles contre les fuites de modèles
Protection de la sécurité : Résistance aux attaques par empoisonnement de données et autres attaques adversariales
IA éthique : Promotion du développement de systèmes d'IA responsables

Limitations Existantes

Absence d'une synthèse systématique des méthodes d'oubli de graphes
La nature interconnectée des données graphiques rend l'oubli complet complexe
Compromis difficile entre l'efficacité et l'intégrité
Absence de normes d'évaluation unifiées

Contributions Principales

Première synthèse systématique : Fournit le premier examen systématique et complet du domaine de l'oubli de graphes
Taxonomie détaillée : Classe les méthodes d'oubli de graphes en deux catégories principales : l'oubli exact (Exact Unlearning) et l'oubli approximatif (Approximate Unlearning)
Analyse d'application complète : Explore les applications de l'oubli de graphes dans plusieurs domaines, notamment les réseaux sociaux, les systèmes de recommandation et les réseaux médicaux
Cadre d'évaluation : Fournit des méthodes d'évaluation de l'intégrité de l'oubli, de l'efficacité et de l'utilité du modèle
Directions futures : Identifie plusieurs directions de recherche prometteuses

Détails des Méthodes

Définition des Tâches

Concepts Fondamentaux

Définition du graphe : G = (V, E, X, Xe), où V est l'ensemble des nœuds, E est l'ensemble des arêtes, X est la matrice des caractéristiques des nœuds, et Xe est la matrice des caractéristiques des arêtes
Ensemble d'oubli : S ⊆ D, représentant le sous-ensemble de données à oublier
Objectif : Mettre à jour les paramètres du modèle θ de sorte que l'effet soit équivalent à un réentraînement sur D\S

Définition de l'Oubli (ε, δ)

Pour un ensemble de données fixe D, un ensemble d'oubli S et un algorithme d'apprentissage aléatoire A, un algorithme d'oubli U est (ε, δ)-oubli si et seulement si pour tout R ⊆ R :

Pr[A(D \ S) ∈ R] ≤ e^ε Pr[U(A(D), S, D) ∈ R] + δ
Pr[U(A(D), S, D) ∈ R] ≤ e^ε Pr[A(D \ S) ∈ R] + δ

Classification des Types d'Oubli de Graphes

1. Oubli Transductif (Transductive)

Oubli de nœuds : Suppression de nœuds spécifiques et de toutes leurs connexions
Oubli d'arêtes : Suppression d'arêtes spécifiques tout en conservant les nœuds
Oubli de caractéristiques de nœuds : Suppression de caractéristiques spécifiques de nœuds

2. Oubli Inductif (Inductive)

Oubli de nœuds inductif : Suppression d'ensembles de nœuds de plusieurs graphes
Oubli d'arêtes inductif : Suppression d'ensembles d'arêtes de plusieurs graphes
Oubli au niveau du graphe : Suppression d'instances de graphes entières

Cadre Technique

Méthodes d'Oubli Exact

Cadre SISA : Partitionne les données d'entraînement, nécessitant uniquement le réentraînement des partitions affectées
Réentraînement des paramètres : Stockage des paramètres historiques, réentraînement à partir du point d'apparition initiale des données supprimées
Solutions sous forme fermée : Telles que GraphEditor, convertissant l'entraînement GNN en problèmes analytiquement résolubles

Méthodes d'Oubli Approximatif

Méthodes en cadre convexe :
- Utilisation de la matrice Hessienne pour la mise à jour des paramètres
- Estimation de la fonction d'influence de l'impact des données
- Fourniture de garanties théoriques
Méthodes en cadre non-convexe :
- Oubli d'arêtes basé sur la fonction d'influence (CEU)
- Opérations de suppression hiérarchique (GNNDelete)
- Méthodes de distillation de connaissances (GUKD, D2DGN)

Configuration Expérimentale

Dimensions d'Évaluation

1. Intégrité de l'Oubli

Attaques par inférence d'appartenance : Évaluation de la détectabilité des données oubliées
Différence de prédiction : Comparaison des résultats entre le modèle oublieux et le modèle réentraîné
Différence de paramètres : Comparaison de la distance euclidienne des paramètres du modèle

2. Efficacité de l'Oubli

Complexité temporelle : La plupart des méthodes ont une complexité linéaire par rapport au nombre de couches et quadratique par rapport à la dimension des caractéristiques
Temps d'exécution empirique : Temps réel requis pour les opérations d'oubli

3. Utilité du Modèle

Performance des tâches en aval : Scores F1, précision, AUROC, etc.
Comparaison avec les références : Généralement comparée aux performances du réentraînement à partir de zéro

Ensembles de Données

Les méthodes mentionnées dans l'article sont évaluées sur plusieurs ensembles de données graphiques :

Données de réseaux sociaux
Réseaux de citations
Données de graphes moléculaires
Données de systèmes de recommandation

Résultats Expérimentaux

Principales Conclusions

Méthodes Exactes vs Approximatives

Méthodes exactes : Fournissent des garanties d'oubli parfaites mais avec un coût computationnel élevé
Méthodes approximatives : Établissent un équilibre entre l'efficacité et la qualité de l'oubli

Compromis de Performance

Existence d'un compromis fondamental entre l'intégrité de l'oubli et l'efficacité computationnelle
L'interconnexion du graphe fait que l'oubli local affecte les performances globales
Les différents types d'oubli (nœuds/arêtes/caractéristiques) présentent des complexités différentes

Comparaison des Méthodes

Selon le résumé du tableau II :

Les méthodes de type SISA excellent en termes de précision
Les méthodes basées sur la fonction d'influence sont relativement efficaces en oubli approximatif
Les méthodes de distillation de connaissances présentent des avantages dans la préservation de l'utilité du modèle

Efficacité de l'Application

Systèmes de recommandation : Les méthodes telles que RecEraser traitent efficacement l'oubli des interactions utilisateur-article
Réseaux sociaux : GraphEraser réalise un oubli efficace par partitionnement de graphes
Protection adversariale : Les méthodes d'oubli suppriment efficacement les données malveillantes injectées

Travaux Connexes

Oubli en Apprentissage Automatique Traditionnel

Concentré principalement sur les données indépendantes et identiquement distribuées
Ne peut pas être directement appliqué aux données structurées en graphes
Manque de considération pour les dépendances entre les données

Apprentissage Automatique sur Graphes

Tâches de classification de nœuds, prédiction de liens, classification de graphes, etc.
Les mécanismes de passage de messages rendent la propagation d'informations complexe
Nécessité de techniques d'oubli spécialisées

Protection de la Vie Privée

Application de la confidentialité différentielle aux données graphiques
Apprentissage fédéré combiné avec les réseaux de neurones graphiques
Attaques par inférence d'appartenance et défenses

Conclusions et Discussion

Conclusions Principales

L'oubli de graphes est une technologie clé pour une IA responsable
Les méthodes exactes et approximatives présentent chacune des avantages et doivent être choisies selon les besoins de l'application
Les normes d'évaluation nécessitent une amélioration et une normalisation supplémentaires
Les applications intersectorielles démontrent un potentiel énorme

Limitations

Controverse sur les normes d'évaluation : Les méthodes d'évaluation existantes présentent des problèmes de fiabilité
Défis du cadre non-convexe : La plupart des modèles GNN pratiques sont non-convexes, rendant les garanties théoriques difficiles
Limitations de scalabilité : L'efficacité de l'oubli sur les graphes à grande échelle nécessite encore des améliorations
Structures graphiques complexes : Support insuffisant pour les graphes orientés, les graphes temporels, etc.

Directions Futures

1. Développement Technique

Oubli approximatif en cadre non-convexe : Développement de méthodes d'oubli applicables aux modèles GNN complexes
Cadre d'oubli de graphes universel : Méthodes unifiées supportant plusieurs types d'oubli
Support des structures graphiques complexes : Extension aux graphes orientés, graphes temporels, graphes de connaissances

2. Extension des Applications

Oubli de modèles fondamentaux : Adaptation aux besoins d'oubli des grands modèles fondamentaux sur graphes
Interactions multi-utilisateurs : Traitement des enjeux éthiques de l'oubli des données d'interaction entre utilisateurs
Environnements informatiques périphériques : Oubli efficace dans les environnements aux ressources limitées

3. Perfectionnement Théorique

Méthodes de suppression certifiée : Fourniture de garanties théoriques plus fortes
Normalisation des normes d'évaluation : Établissement d'un cadre d'évaluation d'oubli fiable
Quantification de la vie privée : Méthodes plus précises de quantification des fuites de confidentialité

Évaluation Approfondie

Avantages

Travail novateur : Première synthèse systématique du domaine de l'oubli de graphes
Complétude : Couvre plusieurs dimensions incluant les méthodes, les applications et l'évaluation
Praticité : Fournit une feuille de route technologique claire aux chercheurs et praticiens
Prospective : Identifie plusieurs directions de recherche de valeur
Normalisation : Établit les concepts fondamentaux et le cadre de classification du domaine

Insuffisances

Analyse empirique limitée : En tant qu'article de synthèse, manque de nouvelles vérifications expérimentales
Profondeur des méthodes : La description des détails techniques de certaines méthodes complexes pourrait être plus approfondie
Absence de référence : Manque de tests de référence unifiés et de normes de comparaison
Analyse théorique : L'analyse de la complexité théorique des différentes méthodes pourrait être plus détaillée

Impact

Valeur académique : Pose les fondations théoriques du domaine émergent de l'oubli de graphes
Orientation pratique : Fournit un guide de sélection des méthodes pour les applications industrielles
Stimulation de la recherche : Susceptible de stimuler davantage de travaux de recherche connexes
Établissement de normes : Contribue à l'établissement de normes d'évaluation et de comparaison du domaine

Scénarios Applicables

Applications sensibles à la vie privée : Domaines tels que la santé et la finance nécessitant une protection stricte de la vie privée
Systèmes graphiques à grande échelle : Applications Internet telles que les réseaux sociaux et les systèmes de recommandation
Environnements adversariaux : Systèmes critiques pour la sécurité nécessitant une résistance aux attaques par empoisonnement de données
Exigences de conformité : Systèmes devant se conformer à des réglementations telles que le RGPD

Références

L'article cite 113 références connexes, couvrant des travaux importants dans plusieurs domaines connexes incluant l'oubli en apprentissage automatique, les réseaux de neurones graphiques et la protection de la vie privée, fournissant aux lecteurs une base de littérature complète.

Évaluation Générale : Ceci est un article de synthèse de haute qualité qui examine systématiquement l'état actuel de la recherche dans le domaine émergent de l'oubli de graphes, posant les fondations importantes pour le développement du domaine. L'article est bien organisé, complet en contenu et revêt une importance significative pour promouvoir le développement d'une IA responsable.