2025-11-21T08:58:16.449112

The Interpretable and Effective Graph Neural Additive Networks

Bechler-Speicher, Globerson, Gilad-Bachrach
Graph Neural Networks (GNNs) have emerged as the predominant approach for learning over graph-structured data. However, most GNNs operate as black-box models and require post-hoc explanations, which may not suffice in high-stakes scenarios where transparency is crucial. In this paper, we present a GNN that is interpretable by design. Our model, Graph Neural Additive Network (GNAN), is a novel extension of the interpretable class of Generalized Additive Models, and can be visualized and fully understood by humans. GNAN is designed to be fully interpretable, offering both global and local explanations at the feature and graph levels through direct visualization of the model. These visualizations describe exactly how the model uses the relationships between the target variable, the features, and the graph. We demonstrate the intelligibility of GNANs in a series of examples on different tasks and datasets. In addition, we show that the accuracy of GNAN is on par with black-box GNNs, making it suitable for critical applications where transparency is essential, alongside high accuracy.
academic

Die interpretierbaren und effektiven Graph Neural Additive Networks

Grundinformationen

  • Paper-ID: 2406.01317
  • Titel: The Interpretable and Effective Graph Neural Additive Networks
  • Autoren: Maya Bechler-Speicher, Amir Globerson, Ran Gilad-Bachrach
  • Klassifizierung: cs.LG cs.AI
  • Veröffentlichungskonferenz: NeurIPS 2024 (38. Konferenz über Neural Information Processing Systems)
  • Paper-Link: https://arxiv.org/abs/2406.01317

Zusammenfassung

Graphische neuronale Netze (GNNs) sind zur Standardmethode für das Lernen auf graphstrukturierten Daten geworden, aber die meisten GNNs funktionieren als Black-Box-Modelle und erfordern nachträgliche Erklärungen, was in hochriskanten Szenarien, die Transparenz erfordern, möglicherweise nicht ausreichend ist. Dieses Papier präsentiert ein von Grund auf interpretierbares GNN-Modell – Graph Neural Additive Networks (GNAN) – eine neue Erweiterung der Klasse der interpretierbaren verallgemeinerten additiven Modelle, die von Menschen visualisiert und vollständig verstanden werden können. GNAN bietet globale und lokale Erklärungen auf Merkmals- und Graphebene, die durch direkte Visualisierung des Modells beschreiben, wie das Modell Zielvariabler, Merkmale und Beziehungen zwischen Graphen nutzt. Experimente zeigen, dass die Genauigkeit von GNAN mit Black-Box-GNNs vergleichbar ist und sich für kritische Anwendungen eignet, die Transparenz und hohe Genauigkeit erfordern.

Forschungshintergrund und Motivation

Problemdefinition

  1. Kernproblem: Bestehende GNNs mangelt es an Interpretierbarkeit, was ihre Anwendung in hochriskanten Bereichen wie Medizin, Finanzen und Strafjustiz einschränkt
  2. Transparenzanforderungen: Vorschriften wie die EU-DSGVO und das AI-Gesetz erfordern Transparenz bei hochriskanten KI-Systemen
  3. Einschränkungen bestehender Erklärungsmethoden:
    • Nachträgliche Erklärungsmethoden (z. B. SHAP, LIME) bieten keine Korrektheitszusicherungen
    • Lokale Erklärungen können mit globalen Erklärungen inkonsistent sein
    • Können keine vollständige Modellbeschreibung liefern

Forschungsmotivation

  • Interpretierbarkeit vs. Genauigkeit: Die traditionelle Ansicht besagt, dass interpretierbare Modelle typischerweise eine geringere Genauigkeit aufweisen; dieses Papier stellt diese Ansicht in Frage
  • Interpretierbarkeit durch Design: Im Vergleich zu nachträglichen Erklärungen sind von Grund auf interpretierbare Modelle zuverlässiger
  • Einhaltung von Vorschriften: Erfüllung zunehmend strenger KI-Transparenzvorschriften

Kernbeiträge

  1. Theoretischer Beitrag: Erweiterung verallgemeinerter additiver Modelle (GAMs) auf Graphdaten und Vorschlag der GNAN-Architektur
  2. Methodischer Beitrag: Entwurf eines vollständig interpretierbaren Graphvorhersagemodells mit globalen und lokalen Erklärungsfähigkeiten
  3. Empirischer Beitrag: Nachweis, dass GNAN auf mehreren realen Datensätzen mit Black-Box-GNNs vergleichbare Leistung erbringt
  4. Praktischer Beitrag: Bereitstellung von direkt visualisierbaren Modelldebugging- und Verifizierungsfähigkeiten

Methodische Details

Aufgabendefinition

  • Eingabe: Graph G mit N Knoten, wobei jeder Knoten i mit einem d-dimensionalen Merkmalsvektor xi ∈ ℝd verknüpft ist
  • Ausgabe: Vorhersagen auf Knoten- oder Graphebene
  • Distanzdefinition: dist(j,i) ist die Anzahl der Kanten im kürzesten Pfad von Knoten j zu Knoten i

Modellarchitektur

Kerndesignidee

GNAN generiert Knotendarstellungen durch Lernen einer Distanzfunktion ρ(x;θ): ℝ → ℝ und von Merkmalformfunktionen {fk}^d_, fk(x;θk): ℝ → ℝ.

Berechnung der Knotendarstellung

Die k-te Merkmaldarstellung von Knoten i ist:

[hi]k = Σ(j=1 bis N) [1/#disti(j,i)] · ρ(1/(1+dist(j,i))) · fk([xj]k)

Wobei:

  • #disti(j,i): Anzahl der Knoten in der Entfernung dist(j,i) von Knoten i
  • ρ(1/(1+dist(j,i))): Distanzgewichtungsfunktion
  • fk([xj]k): Formfunktion für das k-te Merkmal

Vorhersageberechnung

  • Knotenvorhersage: σ(Σ(k=1 bis d)[hi]k)
  • Graphvorhersage: Zunächst Graphdarstellung durch Summenpooling erhalten h = Σ(i=1 bis N)hi, dann σ(Σ(k=1 bis d)[h]k) berechnen

Erweiterung auf Mehrklassen-Klassifizierung

Für C-Klassen-Klassifizierung geben Merkmalsfunktionen und Distanzfunktionen C-dimensionale Vektoren aus, kombiniert mit elementweiser Multiplikation:

[hi]k = Σ(j=1 bis N) [1/#disti(j,i)] · ρ(1/(1+dist(j,i))) ⊙ fk([xj]k)

Technische Innovationen

  1. Additive Struktur: Vermeidung von Kreuzprodukten zwischen Merkmalen und Graphtopologie zur Beibehaltung der Interpretierbarkeit
  2. Distanzmodellierung: Explizite Modellierung des Einflusses von Knotenabständen auf Vorhersagen
  3. Globaler Informationsfluss: Jeder Knoten sammelt Informationen aus dem gesamten Graphen, vermeidet Engpässe bei der Nachrichtenübermittlung
  4. Vollständige Visualisierung: Modell kann durch wenige Funktionsgraphen vollständig beschrieben werden

Experimentelle Einrichtung

Datensätze

Knotenklassifizierungsaufgaben

  • Zitierungsnetzwerke: Cora, Citeseer, PubMed, ogb-arxiv
  • Heterogene Daten: Cornell, Tolokers

Graphklassifizierungsaufgaben

  • Chemische Moleküle: NCI1, Proteins, Mutagen, PTC
  • Langreichweiten-Moleküleigenschaften: μ, α, αHOMO (QM9-Datensatz)

Bewertungsmetriken

  • Klassifizierungsaufgaben: Genauigkeit (Accuracy)
  • Regressionsaufgaben: Mittlerer absoluter Fehler (MAE)
  • Binärklassifizierung: ROC-AUC

Vergleichsmethoden

  • GraphConv, GraphSAGE, GIN
  • GATv2, Graph Transformer
  • FSGNN (Merkmal-Graph-Entkopplungsmodell)

Implementierungsdetails

  • Optimierer: Adam
  • Trainings-Epochen: 1000
  • Frühes Stoppen: Keine Verbesserung der Validierungsverluste nach 100 Schritten
  • Netzwerkstruktur: 3-5-schichtige MLPs, ReLU-Aktivierung
  • Verborgene Dimensionen: 32-64

Experimentelle Ergebnisse

Hauptergebnisse

Bei 13 Aufgaben zeigt GNAN bei 9 Aufgaben beste oder zweitbeste Leistung:

AufgabentypDatensatzGNAN-LeistungBeste Baseline
KnotenklassifizierungCornell85,7±4,8%FSGNN: 86,0±4,1%
KnotenklassifizierungTolokers84,5±0,9%GATv2: 83,8±1,1%
GraphklassifizierungMutagen72,2±1,0%GTransformer: 73,1±0,9%
Langreichweiten-Regressionμ2,55±0,1GIN: 2,60±0,1
Langreichweiten-Regressionα4,28±0,9GTransformer: 4,30±0,5

Wichtigste Erkenntnisse

  1. Vorteil bei Langreichweiten-Aufgaben: GNAN zeigt hervorragende Leistung bei der Vorhersage von Langreichweiten-Moleküleigenschaften und validiert die Vorteile des globalen Informationsflusses
  2. Leistungserhaltung: Trotz begrenzter Kapazität ist die Leistung von GNAN mit komplexeren GNNs vergleichbar
  3. Rechnerische Effizienz: Vermeidung iterativer Nachrichtenübermittlung reduziert Rechnenengpässe

Interpretierbarkeitsdemonstration

Globale Erklärung

Vollständige Modellbeschreibung durch Visualisierung der Distanzfunktion ρ und der Merkmalsfunktionen {fk}:

  1. Mutagenität-Datensatz:
    • Distanzfunktion zeigt abnehmenden Einfluss entfernter Atome
    • Merkmalsfunktionen offenbaren, dass Ca-, Na-, Li-Atome die Mutagenität erhöhen
    • N-, P-Atome haben leichte Schutzwirkung
  2. PubMed-Datensatz:
    • Distanzfunktionen der drei Diabetesklassen unterscheiden sich deutlich
    • Merkmalsfunktionen zeigen komplexe nichtmonotone Beziehungen
    • "Insulin"-Wortfrequenz beeinflusst verschiedene Diabetestypen unterschiedlich

Lokale Erklärung

Visualisierung der Knotenwichtigkeit für spezifische Moleküle:

  • Kohlenstoffringstrukturen haben hohe Wichtigkeit in mutagenen Molekülen
  • NO2-Gruppen werden korrekt als mutagene Faktoren identifiziert

Debugging-Fähigkeit

  • Verifizierung, ob das Modell Vorwissen korrekt umsetzt
  • Identifizierung potenzieller Verzerrungen und Sicherheitsrisiken
  • Unterstützung bei Modellauswahl und Optimierung

Verwandte Arbeiten

Verallgemeinerte additive Modelle

  • Traditionelle GAMs verwenden Splines und andere Glättungsfunktionen
  • Neural Additive Models nutzen neuronale Netze zum Lernen von Formfunktionen
  • GNAN ist die erste Erweiterung von GAMs auf Graphdaten

GNN-Interpretierbarkeit

  • Bestehende Methoden liefern hauptsächlich nachträgliche Subgraph-Erklärungen
  • Mangel an von Grund auf interpretierbaren GNN-Modellen
  • GNAN bietet vollständige Modellbeschreibung statt Proxy-Erklärungen

Nicht-Nachrichtenübermittlungs-GNNs

  • Methoden wie FSGNN entkoppeln Merkmale und Graphstruktur
  • Reduzieren Überanpassung und Rechenkomplexität
  • GNAN erreicht darüber hinaus vollständige Interpretierbarkeit

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Interpretierbarkeit muss nicht auf Kosten der Genauigkeit gehen
  2. Von Grund auf interpretierbare Modelle sind zuverlässiger als nachträgliche Erklärungen
  3. Viele reale Graphprobleme sind einfacher als erwartet und erfordern keine komplexen Modelle

Einschränkungen

  1. Kapazitätsbeschränkungen: Die additive Struktur begrenzt die Ausdrucksfähigkeit des Modells
  2. Merkmalswechselwirkungen: Kann keine komplexen Wechselwirkungen zwischen Merkmalen modellieren
  3. Graphstruktur: Möglicherweise nicht empfindlich genug für hochkomplexe Graphmuster
  4. Visualisierungskomplexität: Schwierigkeiten bei der Visualisierung hochdimensionaler Merkmale

Zukünftige Richtungen

  1. Technische Verbesserungen:
    • Integration von Kolmogorov-Arnold Networks für glatte Funktionen
    • Lernen unabhängiger Distanzfunktionen für jedes Merkmal
    • Erkundung von Regularisierung zur Reduzierung der Merkmalnutzung
  2. Anwendungserweiterungen:
    • Anwendung auf biologische Netzwerkdatensätze
    • Protein-Interaktionsnetzwerke
    • Werkzeuge zur Unterstützung wissenschaftlicher Entdeckungen

Tiefgreifende Bewertung

Stärken

  1. Starke Innovativität: Erste Erweiterung von GAMs auf Graphdaten, füllt wichtige Lücke
  2. Solide theoretische Grundlagen: Basiert auf etablierter GAM-Theorie, sorgfältig gestaltet
  3. Hoher praktischer Wert: Erfüllt direkt Interpretierbarkeitsanforderungen hochriskanter Anwendungen
  4. Umfangreiche Experimente: Deckt mehrere Aufgabentypen und Datensätze ab, umfassende Vergleiche
  5. Hervorragende Visualisierung: Bietet intuitive, vollständige Modellerklärungen

Mängel

  1. Methodische Einschränkungen: Die additive Annahme ist zu stark und könnte wichtige Merkmalswechselwirkungen übersehen
  2. Anwendungsbereich: Kann bei Aufgaben mit komplexen Merkmalswechselwirkungen unterdurchschnittlich abschneiden
  3. Theoretische Analyse: Mangel an theoretischer Analyse der Ausdrucksfähigkeit
  4. Skalierbarkeit: Probleme mit Interpretierbarkeit und Rechnerischer Effizienz bei hochdimensionalen Merkmalen

Auswirkungen

  1. Akademischer Beitrag: Eröffnet neue Richtung für interpretierbare GNNs
  2. Praktischer Wert: Bietet praktische Lösung für hochriskante KI-Anwendungen
  3. Politische Bedeutung: Entspricht AI-Regulierungstrends, hat wichtige praktische Bedeutung
  4. Reproduzierbarkeit: Open-Source-Code erleichtert Folgeforschen

Anwendungsszenarien

  1. Hochriskante Anwendungen: Medizinische Diagnose, Finanzrisikocontrolling, Justizentscheidungen
  2. Wissenschaftliche Forschung: Moleküleigenschaftsvorhersage, Wirkstoffforschung
  3. Einhaltung von Vorschriften: Geschäftsanwendungen, die Interpretierbarkeitsanforderungen erfüllen müssen
  4. Bildung und Training: GNN-Prinzipien lehren und verstehen

Literaturverzeichnis

Wichtigste verwandte Arbeiten:

  1. Hastie & Tibshirani (1986): Theoretische Grundlagen verallgemeinerter additiver Modelle
  2. Agarwal et al. (2021): Neural Additive Models
  3. Ying et al. (2019): GNNExplainer – Nachträgliche Erklärungsmethode für GNNs
  4. Rudin (2019): Debatte zwischen interpretierbaren Modellen und Black-Box-Erklärungen

Zusammenfassung: Das in diesem Papier vorgeschlagene GNAN ist ein wichtiger Beitrag im Bereich der interpretierbaren KI und beweist erfolgreich, dass Interpretierbarkeit und Genauigkeit bei Graphenlernaufgaben erreicht werden können. Trotz theoretischer Einschränkungen der Ausdrucksfähigkeit macht sein praktischer Wert, besonders in hochriskanten Szenarien, die Transparenz erfordern, es zu einem wichtigen Fortschritt in diesem Bereich.