2025-11-21T08:58:16.449112

The Interpretable and Effective Graph Neural Additive Networks

Bechler-Speicher, Globerson, Gilad-Bachrach
Graph Neural Networks (GNNs) have emerged as the predominant approach for learning over graph-structured data. However, most GNNs operate as black-box models and require post-hoc explanations, which may not suffice in high-stakes scenarios where transparency is crucial. In this paper, we present a GNN that is interpretable by design. Our model, Graph Neural Additive Network (GNAN), is a novel extension of the interpretable class of Generalized Additive Models, and can be visualized and fully understood by humans. GNAN is designed to be fully interpretable, offering both global and local explanations at the feature and graph levels through direct visualization of the model. These visualizations describe exactly how the model uses the relationships between the target variable, the features, and the graph. We demonstrate the intelligibility of GNANs in a series of examples on different tasks and datasets. In addition, we show that the accuracy of GNAN is on par with black-box GNNs, making it suitable for critical applications where transparency is essential, alongside high accuracy.
academic

Les Réseaux de Neurones Graphiques Additifs Interprétables et Efficaces

Informations Fondamentales

  • ID de l'article: 2406.01317
  • Titre: The Interpretable and Effective Graph Neural Additive Networks
  • Auteurs: Maya Bechler-Speicher, Amir Globerson, Ran Gilad-Bachrach
  • Classification: cs.LG cs.AI
  • Conférence de publication: NeurIPS 2024 (38e Conférence sur les Systèmes de Traitement de l'Information Neuronale)
  • Lien de l'article: https://arxiv.org/abs/2406.01317

Résumé

Les réseaux de neurones graphiques (GNNs) sont devenus la méthode prédominante pour l'apprentissage sur données structurées en graphes, mais la plupart des GNNs fonctionnent comme des modèles de boîte noire nécessitant des explications a posteriori, ce qui peut s'avérer insuffisant dans les scénarios à haut risque exigeant de la transparence. Cet article propose un modèle GNN conçu pour être intrinsèquement interprétable — les Réseaux de Neurones Graphiques Additifs (GNAN) — une nouvelle extension de la classe des modèles additifs généralisés interprétables, qui peut être visualisée et entièrement comprise par les humains. GNAN fournit des explications globales et locales au niveau des caractéristiques et du graphe, décrivant par la visualisation directe du modèle comment celui-ci utilise les variables cibles, les caractéristiques et les relations au sein du graphe. Les expériences démontrent que la précision de GNAN est comparable à celle des GNNs de boîte noire, le rendant applicable aux applications critiques nécessitant à la fois transparence et haute précision.

Contexte de Recherche et Motivation

Définition du Problème

  1. Problème central: Les GNNs existants manquent d'interprétabilité, limitant leur application dans les domaines à haut risque tels que la médecine, la finance et la justice pénale
  2. Exigences de transparence: Les réglementations telles que le RGPD de l'UE et la Loi sur l'IA exigent que les systèmes d'IA à haut risque possèdent une transparence
  3. Limitations des méthodes d'explication existantes:
    • Les méthodes d'explication a posteriori (telles que SHAP, LIME) manquent de garanties de correction
    • Les explications locales et globales peuvent être incohérentes
    • Incapacité à fournir une description complète du modèle

Motivation de la Recherche

  • Interprétabilité vs Précision: La conception traditionnelle suppose que les modèles interprétables ont généralement une précision inférieure; cet article remet en question cette hypothèse
  • Interprétabilité par conception: Comparé aux explications a posteriori, les modèles interprétables par conception sont plus fiables
  • Conformité réglementaire: Satisfaire aux exigences croissantes de transparence de l'IA

Contributions Principales

  1. Contribution théorique: Extension des modèles additifs généralisés (GAMs) aux données graphiques, proposant l'architecture GNAN
  2. Contribution méthodologique: Conception d'un modèle de prédiction graphique entièrement interprétable, offrant des capacités d'explication globales et locales
  3. Contribution empirique: Démonstration que GNAN obtient des performances comparables aux GNNs de boîte noire sur plusieurs ensembles de données réels
  4. Contribution pratique: Fourniture de capacités de débogage et de validation de modèle directement visualisables

Détails de la Méthode

Définition de la Tâche

  • Entrée: Graphe G contenant N nœuds, chaque nœud i associé à un vecteur de caractéristiques xi ∈ ℝd de dimension d
  • Sortie: Prédictions au niveau des nœuds ou au niveau du graphe
  • Définition de distance: dist(j,i) est le nombre d'arêtes du chemin le plus court du nœud j au nœud i

Architecture du Modèle

Idée de Conception Centrale

GNAN génère des représentations de nœuds en apprenant une fonction de distance ρ(x;θ): ℝ → ℝ et des fonctions de forme de caractéristiques {fk}^d_, fk(x;θk): ℝ → ℝ.

Calcul de la Représentation des Nœuds

La k-ième représentation de caractéristique du nœud i est:

[hi]k = Σ(j=1 to N) [1/#disti(j,i)] · ρ(1/(1+dist(j,i))) · fk([xj]k)

Où:

  • #disti(j,i): Nombre de nœuds à distance dist(j,i) du nœud i
  • ρ(1/(1+dist(j,i))): Fonction de pondération de distance
  • fk([xj]k): Fonction de forme pour la k-ième caractéristique

Calcul de Prédiction

  • Prédiction au niveau des nœuds: σ(Σ(k=1 to d)[hi]k)
  • Prédiction au niveau du graphe: D'abord obtenir la représentation du graphe h = Σ(i=1 to N)hi via pooling par sommation, puis calculer σ(Σ(k=1 to d)[h]k)

Extension pour Classification Multi-classe

Pour la classification en C classes, les fonctions de caractéristiques et de distance produisent des vecteurs de dimension C, combinés via multiplication élément par élément:

[hi]k = Σ(j=1 to N) [1/#disti(j,i)] · ρ(1/(1+dist(j,i))) ⊙ fk([xj]k)

Points d'Innovation Technique

  1. Structure additive: Évite les produits croisés entre caractéristiques et topologie graphique, préservant l'interprétabilité
  2. Modélisation de distance: Modélise explicitement l'influence de la distance entre nœuds sur les prédictions
  3. Flux d'information global: Chaque nœud collecte les informations de l'ensemble du graphe, évitant les goulots d'étranglement de passage de messages
  4. Visualisation complète: Le modèle peut être entièrement décrit par quelques graphiques de fonctions

Configuration Expérimentale

Ensembles de Données

Tâches de Classification de Nœuds

  • Réseaux de citations: Cora, Citeseer, PubMed, ogb-arxiv
  • Données hétérogènes: Cornell, Tolokers

Tâches de Classification de Graphes

  • Molécules chimiques: NCI1, Proteins, Mutagen, PTC
  • Propriétés moléculaires longue portée: μ, α, αHOMO (ensemble de données QM9)

Métriques d'Évaluation

  • Tâches de classification: Précision (Accuracy)
  • Tâches de régression: Erreur Absolue Moyenne (MAE)
  • Classification binaire: ROC-AUC

Méthodes de Comparaison

  • GraphConv, GraphSAGE, GIN
  • GATv2, Graph Transformer
  • FSGNN (modèle découplant caractéristiques et graphe)

Détails d'Implémentation

  • Optimiseur: Adam
  • Nombre d'epochs: 1000
  • Arrêt anticipé: Pas d'amélioration de la perte de validation pendant 100 étapes
  • Structure réseau: MLP 3-5 couches, activation ReLU
  • Dimension cachée: 32-64

Résultats Expérimentaux

Résultats Principaux

Sur 13 tâches, GNAN obtient les meilleures ou deuxièmes meilleures performances sur 9 tâches:

Type de TâcheEnsemble de DonnéesPerformance GNANMeilleure Ligne de Base
Classification de nœudsCornell85.7±4.8%FSGNN: 86.0±4.1%
Classification de nœudsTolokers84.5±0.9%GATv2: 83.8±1.1%
Classification de graphesMutagen72.2±1.0%GTransformer: 73.1±0.9%
Régression longue portéeμ2.55±0.1GIN: 2.60±0.1
Régression longue portéeα4.28±0.9GTransformer: 4.30±0.5

Découvertes Clés

  1. Avantage sur tâches longue portée: GNAN excelle dans les tâches de prédiction de propriétés moléculaires longue portée, validant l'avantage du flux d'information global
  2. Maintien des performances: Malgré une capacité limitée, les performances de GNAN sont comparables aux GNNs plus complexes
  3. Efficacité computationnelle: Évite le passage de messages itératif, réduisant les goulots d'étranglement computationnels

Démonstration d'Interprétabilité

Explications Globales

Description complète du modèle par visualisation de la fonction de distance ρ et des fonctions de caractéristiques {fk}:

  1. Ensemble de données Mutagenicity:
    • La fonction de distance montre une diminution de l'influence des atomes distants
    • Les fonctions de caractéristiques révèlent que les atomes Ca, Na, Li augmentent la mutagénicité
    • Les atomes N, P ont un léger effet protecteur
  2. Ensemble de données PubMed:
    • Différences marquées dans les fonctions de distance pour les trois types de diabète
    • Les fonctions de caractéristiques exposent des relations non-monotones complexes
    • La fréquence du mot "insulin" affecte différemment les différents types de diabète

Explications Locales

Visualisation de l'importance des nœuds pour des molécules spécifiques:

  • Les structures de cycles de carbone ont une importance élevée dans les molécules mutagènes
  • Le groupe NO2 est correctement identifié comme facteur mutagène

Capacité de Débogage

  • Vérification que le modèle apprend conformément aux connaissances préalables
  • Identification des biais potentiels et des risques de sécurité
  • Support pour la sélection et l'optimisation de modèles

Travaux Connexes

Modèles Additifs Généralisés

  • Les GAMs traditionnels utilisent des fonctions de lissage telles que les splines
  • Les Modèles Additifs Neuraux utilisent des réseaux de neurones pour apprendre les fonctions de forme
  • GNAN est la première extension des GAMs aux données graphiques

Interprétabilité des GNNs

  • Les méthodes existantes fournissent principalement des explications de sous-graphes a posteriori
  • Absence de modèles GNN interprétables par conception
  • GNAN fournit une description complète du modèle plutôt qu'une explication par substitution

GNNs sans Passage de Messages

  • Les méthodes telles que FSGNN découplent les caractéristiques et la structure graphique
  • Réduction du surapprentissage et de la complexité computationnelle
  • GNAN réalise en outre une interprétabilité complète

Conclusions et Discussion

Conclusions Principales

  1. L'interprétabilité ne doit pas se faire au détriment de la précision
  2. L'interprétabilité par conception est plus fiable que l'explication a posteriori
  3. De nombreux problèmes graphiques réels sont plus simples que prévu, ne nécessitant pas de modèles complexes

Limitations

  1. Limitations de capacité: La structure additive limite la capacité d'expression du modèle
  2. Interactions de caractéristiques: Incapacité à modéliser les interactions complexes entre caractéristiques
  3. Structure graphique: Peut être insuffisant pour les motifs graphiques hautement complexes
  4. Complexité de visualisation: Difficultés de visualisation avec des caractéristiques de haute dimension

Directions Futures

  1. Améliorations techniques:
    • Intégration des Réseaux de Kolmogorov-Arnold pour la réalisation de fonctions lisses
    • Apprentissage de fonctions de distance indépendantes pour chaque caractéristique
    • Exploration de la régularisation pour réduire l'utilisation de caractéristiques
  2. Extensions d'application:
    • Application sur ensembles de données de réseaux biologiques
    • Réseaux d'interaction de protéines
    • Outils de support pour la découverte scientifique

Évaluation Approfondie

Avantages

  1. Innovation forte: Première extension des GAMs aux données graphiques, comblant une lacune importante
  2. Fondations théoriques solides: Basé sur la théorie établie des GAMs, conception rationnelle
  3. Valeur pratique élevée: Satisfait directement les exigences d'interprétabilité des applications à haut risque
  4. Expériences complètes: Couvre plusieurs types de tâches et ensembles de données, comparaisons exhaustives
  5. Visualisation excellente: Fournit des explications intuitives et complètes du modèle

Insuffisances

  1. Limitations méthodologiques: L'hypothèse additive est trop forte, pouvant manquer les interactions de caractéristiques importantes
  2. Portée d'application: Peut avoir des performances insuffisantes sur les tâches nécessitant des interactions de caractéristiques complexes
  3. Analyse théorique: Absence d'analyse théorique de la capacité d'expression
  4. Extensibilité: Problèmes d'interprétabilité et d'efficacité computationnelle avec des caractéristiques de haute dimension

Impact

  1. Contribution académique: Ouvre une nouvelle direction pour les GNNs interprétables
  2. Valeur pratique: Fournit une solution pratique pour les applications d'IA à haut risque
  3. Signification politique: Conforme aux tendances de régulation de l'IA, d'importance pratique significative
  4. Reproductibilité: Code en open source, facilitant les recherches ultérieures

Scénarios d'Application

  1. Applications à haut risque: Diagnostic médical, contrôle des risques financiers, décisions judiciaires
  2. Recherche scientifique: Prédiction de propriétés moléculaires, découverte de médicaments
  3. Conformité réglementaire: Applications commerciales nécessitant de satisfaire aux exigences d'interprétabilité
  4. Éducation et formation: Enseignement et compréhension des principes des GNNs

Références Bibliographiques

Travaux connexes clés:

  1. Hastie & Tibshirani (1986): Théorie fondamentale des Modèles Additifs Généralisés
  2. Agarwal et al. (2021): Modèles Additifs Neuraux
  3. Ying et al. (2019): GNNExplainer - Méthode d'explication a posteriori pour GNNs
  4. Rudin (2019): Débat entre modèles interprétables et explications de boîtes noires

Résumé: L'article proposant GNAN constitue une contribution importante au domaine de l'IA interprétable, démontrant avec succès qu'interprétabilité et précision peuvent être conciliées dans les tâches d'apprentissage graphique. Bien qu'il existe des limitations théoriques de la capacité d'expression, sa valeur dans les applications pratiques, particulièrement dans les scénarios à haut risque exigeant de la transparence, en fait un progrès important dans ce domaine.