2025-11-21T08:58:16.449112

The Interpretable and Effective Graph Neural Additive Networks

Bechler-Speicher, Globerson, Gilad-Bachrach

Graph Neural Networks (GNNs) have emerged as the predominant approach for learning over graph-structured data. However, most GNNs operate as black-box models and require post-hoc explanations, which may not suffice in high-stakes scenarios where transparency is crucial. In this paper, we present a GNN that is interpretable by design. Our model, Graph Neural Additive Network (GNAN), is a novel extension of the interpretable class of Generalized Additive Models, and can be visualized and fully understood by humans. GNAN is designed to be fully interpretable, offering both global and local explanations at the feature and graph levels through direct visualization of the model. These visualizations describe exactly how the model uses the relationships between the target variable, the features, and the graph. We demonstrate the intelligibility of GNANs in a series of examples on different tasks and datasets. In addition, we show that the accuracy of GNAN is on par with black-box GNNs, making it suitable for critical applications where transparency is essential, alongside high accuracy.

academic

Les Réseaux de Neurones Graphiques Additifs Interprétables et Efficaces

Informations Fondamentales

ID de l'article: 2406.01317
Titre: The Interpretable and Effective Graph Neural Additive Networks
Auteurs: Maya Bechler-Speicher, Amir Globerson, Ran Gilad-Bachrach
Classification: cs.LG cs.AI
Conférence de publication: NeurIPS 2024 (38e Conférence sur les Systèmes de Traitement de l'Information Neuronale)
Lien de l'article: https://arxiv.org/abs/2406.01317

Résumé

Les réseaux de neurones graphiques (GNNs) sont devenus la méthode prédominante pour l'apprentissage sur données structurées en graphes, mais la plupart des GNNs fonctionnent comme des modèles de boîte noire nécessitant des explications a posteriori, ce qui peut s'avérer insuffisant dans les scénarios à haut risque exigeant de la transparence. Cet article propose un modèle GNN conçu pour être intrinsèquement interprétable — les Réseaux de Neurones Graphiques Additifs (GNAN) — une nouvelle extension de la classe des modèles additifs généralisés interprétables, qui peut être visualisée et entièrement comprise par les humains. GNAN fournit des explications globales et locales au niveau des caractéristiques et du graphe, décrivant par la visualisation directe du modèle comment celui-ci utilise les variables cibles, les caractéristiques et les relations au sein du graphe. Les expériences démontrent que la précision de GNAN est comparable à celle des GNNs de boîte noire, le rendant applicable aux applications critiques nécessitant à la fois transparence et haute précision.

Contexte de Recherche et Motivation

Définition du Problème

Problème central: Les GNNs existants manquent d'interprétabilité, limitant leur application dans les domaines à haut risque tels que la médecine, la finance et la justice pénale
Exigences de transparence: Les réglementations telles que le RGPD de l'UE et la Loi sur l'IA exigent que les systèmes d'IA à haut risque possèdent une transparence
Limitations des méthodes d'explication existantes:
- Les méthodes d'explication a posteriori (telles que SHAP, LIME) manquent de garanties de correction
- Les explications locales et globales peuvent être incohérentes
- Incapacité à fournir une description complète du modèle

Motivation de la Recherche

Interprétabilité vs Précision: La conception traditionnelle suppose que les modèles interprétables ont généralement une précision inférieure; cet article remet en question cette hypothèse
Interprétabilité par conception: Comparé aux explications a posteriori, les modèles interprétables par conception sont plus fiables
Conformité réglementaire: Satisfaire aux exigences croissantes de transparence de l'IA

Contributions Principales

Contribution théorique: Extension des modèles additifs généralisés (GAMs) aux données graphiques, proposant l'architecture GNAN
Contribution méthodologique: Conception d'un modèle de prédiction graphique entièrement interprétable, offrant des capacités d'explication globales et locales
Contribution empirique: Démonstration que GNAN obtient des performances comparables aux GNNs de boîte noire sur plusieurs ensembles de données réels
Contribution pratique: Fourniture de capacités de débogage et de validation de modèle directement visualisables

Détails de la Méthode

Définition de la Tâche

Entrée: Graphe G contenant N nœuds, chaque nœud i associé à un vecteur de caractéristiques xi ∈ ℝd de dimension d
Sortie: Prédictions au niveau des nœuds ou au niveau du graphe
Définition de distance: dist(j,i) est le nombre d'arêtes du chemin le plus court du nœud j au nœud i

Architecture du Modèle

Idée de Conception Centrale

GNAN génère des représentations de nœuds en apprenant une fonction de distance ρ(x;θ): ℝ → ℝ et des fonctions de forme de caractéristiques {fk}^d_, fk(x;θk): ℝ → ℝ.

Calcul de la Représentation des Nœuds

La k-ième représentation de caractéristique du nœud i est:

[hi]k = Σ(j=1 to N) [1/#disti(j,i)] · ρ(1/(1+dist(j,i))) · fk([xj]k)

Où:

#disti(j,i): Nombre de nœuds à distance dist(j,i) du nœud i
ρ(1/(1+dist(j,i))): Fonction de pondération de distance
fk([xj]k): Fonction de forme pour la k-ième caractéristique

Calcul de Prédiction

Prédiction au niveau des nœuds: σ(Σ(k=1 to d)[hi]k)
Prédiction au niveau du graphe: D'abord obtenir la représentation du graphe h = Σ(i=1 to N)hi via pooling par sommation, puis calculer σ(Σ(k=1 to d)[h]k)

Extension pour Classification Multi-classe

Pour la classification en C classes, les fonctions de caractéristiques et de distance produisent des vecteurs de dimension C, combinés via multiplication élément par élément:

[hi]k = Σ(j=1 to N) [1/#disti(j,i)] · ρ(1/(1+dist(j,i))) ⊙ fk([xj]k)

Points d'Innovation Technique

Structure additive: Évite les produits croisés entre caractéristiques et topologie graphique, préservant l'interprétabilité
Modélisation de distance: Modélise explicitement l'influence de la distance entre nœuds sur les prédictions
Flux d'information global: Chaque nœud collecte les informations de l'ensemble du graphe, évitant les goulots d'étranglement de passage de messages
Visualisation complète: Le modèle peut être entièrement décrit par quelques graphiques de fonctions

Configuration Expérimentale

Ensembles de Données

Tâches de Classification de Nœuds

Réseaux de citations: Cora, Citeseer, PubMed, ogb-arxiv
Données hétérogènes: Cornell, Tolokers

Tâches de Classification de Graphes

Molécules chimiques: NCI1, Proteins, Mutagen, PTC
Propriétés moléculaires longue portée: μ, α, αHOMO (ensemble de données QM9)

Métriques d'Évaluation

Tâches de classification: Précision (Accuracy)
Tâches de régression: Erreur Absolue Moyenne (MAE)
Classification binaire: ROC-AUC

Méthodes de Comparaison

GraphConv, GraphSAGE, GIN
GATv2, Graph Transformer
FSGNN (modèle découplant caractéristiques et graphe)

Détails d'Implémentation

Optimiseur: Adam
Nombre d'epochs: 1000
Arrêt anticipé: Pas d'amélioration de la perte de validation pendant 100 étapes
Structure réseau: MLP 3-5 couches, activation ReLU
Dimension cachée: 32-64

Résultats Expérimentaux

Résultats Principaux

Sur 13 tâches, GNAN obtient les meilleures ou deuxièmes meilleures performances sur 9 tâches:

Type de Tâche	Ensemble de Données	Performance GNAN	Meilleure Ligne de Base
Classification de nœuds	Cornell	85.7±4.8%	FSGNN: 86.0±4.1%
Classification de nœuds	Tolokers	84.5±0.9%	GATv2: 83.8±1.1%
Classification de graphes	Mutagen	72.2±1.0%	GTransformer: 73.1±0.9%
Régression longue portée	μ	2.55±0.1	GIN: 2.60±0.1
Régression longue portée	α	4.28±0.9	GTransformer: 4.30±0.5

Découvertes Clés

Avantage sur tâches longue portée: GNAN excelle dans les tâches de prédiction de propriétés moléculaires longue portée, validant l'avantage du flux d'information global
Maintien des performances: Malgré une capacité limitée, les performances de GNAN sont comparables aux GNNs plus complexes
Efficacité computationnelle: Évite le passage de messages itératif, réduisant les goulots d'étranglement computationnels

Démonstration d'Interprétabilité

Explications Globales

Description complète du modèle par visualisation de la fonction de distance ρ et des fonctions de caractéristiques {fk}:

Ensemble de données Mutagenicity:
- La fonction de distance montre une diminution de l'influence des atomes distants
- Les fonctions de caractéristiques révèlent que les atomes Ca, Na, Li augmentent la mutagénicité
- Les atomes N, P ont un léger effet protecteur
Ensemble de données PubMed:
- Différences marquées dans les fonctions de distance pour les trois types de diabète
- Les fonctions de caractéristiques exposent des relations non-monotones complexes
- La fréquence du mot "insulin" affecte différemment les différents types de diabète

Explications Locales

Visualisation de l'importance des nœuds pour des molécules spécifiques:

Les structures de cycles de carbone ont une importance élevée dans les molécules mutagènes
Le groupe NO2 est correctement identifié comme facteur mutagène

Capacité de Débogage

Vérification que le modèle apprend conformément aux connaissances préalables
Identification des biais potentiels et des risques de sécurité
Support pour la sélection et l'optimisation de modèles

Travaux Connexes

Modèles Additifs Généralisés

Les GAMs traditionnels utilisent des fonctions de lissage telles que les splines
Les Modèles Additifs Neuraux utilisent des réseaux de neurones pour apprendre les fonctions de forme
GNAN est la première extension des GAMs aux données graphiques

Interprétabilité des GNNs

Les méthodes existantes fournissent principalement des explications de sous-graphes a posteriori
Absence de modèles GNN interprétables par conception
GNAN fournit une description complète du modèle plutôt qu'une explication par substitution

GNNs sans Passage de Messages

Les méthodes telles que FSGNN découplent les caractéristiques et la structure graphique
Réduction du surapprentissage et de la complexité computationnelle
GNAN réalise en outre une interprétabilité complète

Conclusions et Discussion

Conclusions Principales

L'interprétabilité ne doit pas se faire au détriment de la précision
L'interprétabilité par conception est plus fiable que l'explication a posteriori
De nombreux problèmes graphiques réels sont plus simples que prévu, ne nécessitant pas de modèles complexes

Limitations

Limitations de capacité: La structure additive limite la capacité d'expression du modèle
Interactions de caractéristiques: Incapacité à modéliser les interactions complexes entre caractéristiques
Structure graphique: Peut être insuffisant pour les motifs graphiques hautement complexes
Complexité de visualisation: Difficultés de visualisation avec des caractéristiques de haute dimension

Directions Futures

Améliorations techniques:
- Intégration des Réseaux de Kolmogorov-Arnold pour la réalisation de fonctions lisses
- Apprentissage de fonctions de distance indépendantes pour chaque caractéristique
- Exploration de la régularisation pour réduire l'utilisation de caractéristiques
Extensions d'application:
- Application sur ensembles de données de réseaux biologiques
- Réseaux d'interaction de protéines
- Outils de support pour la découverte scientifique

Évaluation Approfondie

Avantages

Innovation forte: Première extension des GAMs aux données graphiques, comblant une lacune importante
Fondations théoriques solides: Basé sur la théorie établie des GAMs, conception rationnelle
Valeur pratique élevée: Satisfait directement les exigences d'interprétabilité des applications à haut risque
Expériences complètes: Couvre plusieurs types de tâches et ensembles de données, comparaisons exhaustives
Visualisation excellente: Fournit des explications intuitives et complètes du modèle

Insuffisances

Limitations méthodologiques: L'hypothèse additive est trop forte, pouvant manquer les interactions de caractéristiques importantes
Portée d'application: Peut avoir des performances insuffisantes sur les tâches nécessitant des interactions de caractéristiques complexes
Analyse théorique: Absence d'analyse théorique de la capacité d'expression
Extensibilité: Problèmes d'interprétabilité et d'efficacité computationnelle avec des caractéristiques de haute dimension

Impact

Contribution académique: Ouvre une nouvelle direction pour les GNNs interprétables
Valeur pratique: Fournit une solution pratique pour les applications d'IA à haut risque
Signification politique: Conforme aux tendances de régulation de l'IA, d'importance pratique significative
Reproductibilité: Code en open source, facilitant les recherches ultérieures

Scénarios d'Application

Applications à haut risque: Diagnostic médical, contrôle des risques financiers, décisions judiciaires
Recherche scientifique: Prédiction de propriétés moléculaires, découverte de médicaments
Conformité réglementaire: Applications commerciales nécessitant de satisfaire aux exigences d'interprétabilité
Éducation et formation: Enseignement et compréhension des principes des GNNs

Références Bibliographiques

Travaux connexes clés:

Hastie & Tibshirani (1986): Théorie fondamentale des Modèles Additifs Généralisés
Agarwal et al. (2021): Modèles Additifs Neuraux
Ying et al. (2019): GNNExplainer - Méthode d'explication a posteriori pour GNNs
Rudin (2019): Débat entre modèles interprétables et explications de boîtes noires

Résumé: L'article proposant GNAN constitue une contribution importante au domaine de l'IA interprétable, démontrant avec succès qu'interprétabilité et précision peuvent être conciliées dans les tâches d'apprentissage graphique. Bien qu'il existe des limitations théoriques de la capacité d'expression, sa valeur dans les applications pratiques, particulièrement dans les scénarios à haut risque exigeant de la transparence, en fait un progrès important dans ce domaine.