2025-11-21T08:58:16.449112

The Interpretable and Effective Graph Neural Additive Networks

Bechler-Speicher, Globerson, Gilad-Bachrach
Graph Neural Networks (GNNs) have emerged as the predominant approach for learning over graph-structured data. However, most GNNs operate as black-box models and require post-hoc explanations, which may not suffice in high-stakes scenarios where transparency is crucial. In this paper, we present a GNN that is interpretable by design. Our model, Graph Neural Additive Network (GNAN), is a novel extension of the interpretable class of Generalized Additive Models, and can be visualized and fully understood by humans. GNAN is designed to be fully interpretable, offering both global and local explanations at the feature and graph levels through direct visualization of the model. These visualizations describe exactly how the model uses the relationships between the target variable, the features, and the graph. We demonstrate the intelligibility of GNANs in a series of examples on different tasks and datasets. In addition, we show that the accuracy of GNAN is on par with black-box GNNs, making it suitable for critical applications where transparency is essential, alongside high accuracy.
academic

Le Reti Neurali Additive su Grafi Interpretabili ed Efficaci

Informazioni Fondamentali

  • ID Articolo: 2406.01317
  • Titolo: The Interpretable and Effective Graph Neural Additive Networks
  • Autori: Maya Bechler-Speicher, Amir Globerson, Ran Gilad-Bachrach
  • Classificazione: cs.LG cs.AI
  • Conferenza di Pubblicazione: NeurIPS 2024 (38ª Conferenza sui Sistemi di Elaborazione dell'Informazione Neurale)
  • Link Articolo: https://arxiv.org/abs/2406.01317

Riassunto

Le reti neurali su grafi (GNNs) sono diventate il metodo predominante per l'apprendimento su dati strutturati in forma di grafo, tuttavia la maggior parte delle GNNs funziona come modelli black-box che richiedono interpretazioni post-hoc, il che potrebbe risultare insufficiente in scenari ad alto rischio che richiedono trasparenza. Questo articolo propone un modello GNN interpretabile per progettazione—le Reti Neurali Additive su Grafi (GNAN)—una nuova estensione della classe di modelli additivi generalizzati interpretabili, che può essere visualizzata e completamente compresa dagli esseri umani. GNAN fornisce spiegazioni globali e locali a livello di caratteristiche e di grafo, descrivendo attraverso la visualizzazione diretta del modello come vengono utilizzate le relazioni tra variabili target, caratteristiche e grafo. Gli esperimenti dimostrano che l'accuratezza di GNAN è comparabile alle GNNs black-box, rendendola adatta ad applicazioni critiche che richiedono trasparenza e elevata accuratezza.

Contesto di Ricerca e Motivazione

Definizione del Problema

  1. Problema Centrale: Le GNNs esistenti mancano di interpretabilità, limitando le applicazioni in settori ad alto rischio come medicina, finanza e giustizia penale
  2. Requisiti di Trasparenza: Normative come il GDPR dell'UE e l'AI Act richiedono trasparenza per i sistemi di IA ad alto rischio
  3. Limitazioni dei Metodi di Spiegazione Esistenti:
    • I metodi di spiegazione post-hoc (come SHAP, LIME) mancano di garanzie di correttezza
    • Le spiegazioni locali possono essere incoerenti con quelle globali
    • Impossibilità di fornire una descrizione completa del modello

Motivazione della Ricerca

  • Interpretabilità vs Accuratezza: L'opinione tradizionale sostiene che i modelli interpretabili hanno generalmente minore accuratezza; questo articolo sfida tale assunto
  • Interpretabilità per Progettazione: Rispetto alle spiegazioni post-hoc, i modelli interpretabili per progettazione sono più affidabili
  • Conformità Normativa: Soddisfare i requisiti sempre più rigorosi di trasparenza dell'IA

Contributi Principali

  1. Contributo Teorico: Estensione dei modelli additivi generalizzati (GAMs) ai dati su grafi, proponendo l'architettura GNAN
  2. Contributo Metodologico: Progettazione di un modello di previsione su grafi completamente interpretabile con capacità di spiegazione globale e locale
  3. Contributo Empirico: Dimostrazione che GNAN raggiunge prestazioni comparabili alle GNNs black-box su molteplici dataset reali
  4. Contributo Pratico: Fornitura di capacità di debug e verifica del modello direttamente visualizzabili

Dettagli del Metodo

Definizione del Compito

  • Input: Grafo G contenente N nodi, ogni nodo i associato a un vettore di caratteristiche d-dimensionale xi ∈ ℝd
  • Output: Previsioni a livello di nodo o a livello di grafo
  • Definizione di Distanza: dist(j,i) è il numero di archi del percorso più breve dal nodo j al nodo i

Architettura del Modello

Idea di Progettazione Centrale

GNAN genera rappresentazioni di nodi attraverso l'apprendimento di una funzione di distanza ρ(x;θ): ℝ → ℝ e di funzioni di forma delle caratteristiche {fk}^d_, fk(x;θk): ℝ → ℝ.

Calcolo della Rappresentazione del Nodo

La k-esima rappresentazione di caratteristica del nodo i è:

[hi]k = Σ(j=1 to N) [1/#disti(j,i)] · ρ(1/(1+dist(j,i))) · fk([xj]k)

Dove:

  • #disti(j,i): numero di nodi a distanza dist(j,i) dal nodo i
  • ρ(1/(1+dist(j,i))): funzione di ponderazione della distanza
  • fk([xj]k): funzione di forma per la k-esima caratteristica

Calcolo della Previsione

  • Previsione a Livello di Nodo: σ(Σ(k=1 to d)[hi]k)
  • Previsione a Livello di Grafo: prima ottenere la rappresentazione del grafo attraverso pooling per somma h = Σ(i=1 to N)hi, quindi calcolare σ(Σ(k=1 to d)[h]k)

Estensione per Classificazione Multiclasse

Per classificazione con C classi, le funzioni di caratteristica e di distanza producono vettori C-dimensionali, combinati mediante moltiplicazione elemento-wise:

[hi]k = Σ(j=1 to N) [1/#disti(j,i)] · ρ(1/(1+dist(j,i))) ⊙ fk([xj]k)

Punti di Innovazione Tecnica

  1. Struttura Additiva: Evita prodotti incrociati tra caratteristiche e topologia del grafo, mantenendo l'interpretabilità
  2. Modellazione della Distanza: Modellazione esplicita dell'influenza della distanza tra nodi sulla previsione
  3. Flusso di Informazioni Globale: Ogni nodo raccoglie informazioni dall'intero grafo, evitando colli di bottiglia nel passaggio di messaggi
  4. Visualizzazione Completa: Il modello può essere completamente descritto attraverso pochi grafici di funzioni

Configurazione Sperimentale

Dataset

Compiti di Classificazione di Nodi

  • Reti di Citazioni: Cora, Citeseer, PubMed, ogb-arxiv
  • Dati Eterogenei: Cornell, Tolokers

Compiti di Classificazione di Grafi

  • Molecole Chimiche: NCI1, Proteins, Mutagen, PTC
  • Proprietà Molecolari a Lungo Raggio: μ, α, αHOMO (dataset QM9)

Metriche di Valutazione

  • Compiti di Classificazione: Accuratezza (Accuracy)
  • Compiti di Regressione: Errore Assoluto Medio (MAE)
  • Classificazione Binaria: ROC-AUC

Metodi di Confronto

  • GraphConv, GraphSAGE, GIN
  • GATv2, Graph Transformer
  • FSGNN (modello di disaccoppiamento caratteristica-grafo)

Dettagli di Implementazione

  • Ottimizzatore: Adam
  • Epoche di Addestramento: 1000
  • Early Stopping: nessun miglioramento della perdita di validazione per 100 step
  • Struttura di Rete: MLP 3-5 strati, attivazione ReLU
  • Dimensione Nascosta: 32-64

Risultati Sperimentali

Risultati Principali

Su 13 compiti, GNAN raggiunge prestazioni migliori o seconde migliori su 9 compiti:

Tipo di CompitoDatasetPrestazione GNANBaseline Migliore
Classificazione di NodiCornell85.7±4.8%FSGNN: 86.0±4.1%
Classificazione di NodiTolokers84.5±0.9%GATv2: 83.8±1.1%
Classificazione di GrafiMutagen72.2±1.0%GTransformer: 73.1±0.9%
Regressione a Lungo Raggioμ2.55±0.1GIN: 2.60±0.1
Regressione a Lungo Raggioα4.28±0.9GTransformer: 4.30±0.5

Scoperte Chiave

  1. Vantaggi nei Compiti a Lungo Raggio: GNAN eccelle nella previsione di proprietà molecolari a lungo raggio, convalidando i vantaggi del flusso di informazioni globale
  2. Mantenimento delle Prestazioni: Nonostante la capacità limitata, le prestazioni di GNAN sono comparabili a GNNs più complesse
  3. Efficienza Computazionale: Evita il passaggio di messaggi iterativo, riducendo i colli di bottiglia computazionali

Presentazione dell'Interpretabilità

Spiegazioni Globali

Descrizione completa del modello attraverso visualizzazione della funzione di distanza ρ e delle funzioni di caratteristica {fk}:

  1. Dataset Mutagenicity:
    • La funzione di distanza mostra l'influenza decrescente degli atomi remoti
    • Le funzioni di caratteristica rivelano che gli atomi Ca, Na, Li aumentano la mutagenesi
    • Gli atomi N, P hanno effetti protettivi lievi
  2. Dataset PubMed:
    • Differenze evidenti nelle funzioni di distanza per i tre tipi di diabete
    • Le funzioni di caratteristica mostrano relazioni complesse non monotone
    • La frequenza della parola "insulin" ha effetti diversi su diversi tipi di diabete

Spiegazioni Locali

Visualizzazione dell'importanza dei nodi per molecole specifiche:

  • Strutture di anelli di carbonio hanno elevata importanza nelle molecole mutagene
  • Il gruppo NO2 è correttamente identificato come fattore mutageno

Capacità di Debug

  • Verifica se il modello apprende in accordo con la conoscenza pregressa
  • Identificazione di potenziali bias e rischi di sicurezza
  • Supporto alla selezione e ottimizzazione del modello

Lavori Correlati

Modelli Additivi Generalizzati

  • I GAMs tradizionali utilizzano funzioni lisce come spline
  • I Neural Additive Models utilizzano reti neurali per apprendere funzioni di forma
  • GNAN è la prima estensione dei GAMs ai dati su grafi

Interpretabilità delle GNNs

  • I metodi esistenti forniscono principalmente spiegazioni di sottografi post-hoc
  • Mancanza di modelli GNN interpretabili per progettazione
  • GNAN fornisce descrizione completa del modello piuttosto che spiegazioni sostitutive

GNNs Non Basate su Passaggio di Messaggi

  • Metodi come FSGNN disaccoppiano caratteristiche e struttura del grafo
  • Riduzione dell'overfitting e della complessità computazionale
  • GNAN realizza ulteriormente l'interpretabilità completa

Conclusioni e Discussione

Conclusioni Principali

  1. L'interpretabilità non deve necessariamente compromettere l'accuratezza
  2. L'interpretabilità per progettazione è più affidabile delle spiegazioni post-hoc
  3. Molti problemi reali su grafi sono più semplici del previsto e non richiedono modelli complessi

Limitazioni

  1. Limitazioni di Capacità: La struttura additiva limita la capacità espressiva del modello
  2. Interazioni tra Caratteristiche: Impossibilità di modellare interazioni complesse tra caratteristiche
  3. Struttura del Grafo: Potrebbe non essere sufficientemente sensibile a pattern grafici altamente complessi
  4. Complessità di Visualizzazione: Difficoltà di visualizzazione con caratteristiche ad alta dimensionalità

Direzioni Future

  1. Miglioramenti Tecnici:
    • Integrazione di Kolmogorov-Arnold Networks per funzioni lisce
    • Apprendimento di funzioni di distanza indipendenti per ogni caratteristica
    • Esplorazione della regolarizzazione per ridurre l'uso di caratteristiche
  2. Estensioni Applicative:
    • Applicazione a dataset di reti biologiche
    • Reti di interazione proteica
    • Strumenti di supporto alla scoperta scientifica

Valutazione Approfondita

Punti di Forza

  1. Forte Innovazione: Prima estensione dei GAMs ai dati su grafi, colmando un importante vuoto
  2. Fondamenti Teorici Solidi: Basato sulla teoria consolidata dei GAMs, con progettazione razionale
  3. Elevato Valore Pratico: Soddisfa direttamente i requisiti di interpretabilità delle applicazioni ad alto rischio
  4. Esperimenti Completi: Copertura di molteplici compiti e dataset, confronti esaustivi
  5. Visualizzazione Eccellente: Fornisce spiegazioni intuitive e complete del modello

Insufficienze

  1. Limitazioni del Metodo: L'assunzione additiva è troppo forte, potrebbe perdere importanti interazioni tra caratteristiche
  2. Ambito di Applicabilità: Potrebbe avere prestazioni inferiori su compiti che richiedono complesse interazioni tra caratteristiche
  3. Analisi Teorica: Mancanza di analisi teorica della capacità espressiva
  4. Scalabilità: Problemi di interpretabilità e efficienza computazionale con caratteristiche ad alta dimensionalità

Impatto

  1. Contributo Accademico: Apre una nuova direzione per le GNNs interpretabili
  2. Valore Pratico: Fornisce una soluzione pratica per applicazioni di IA ad alto rischio
  3. Significato Politico: Allineato alle tendenze di regolamentazione dell'IA, con importante rilevanza pratica
  4. Riproducibilità: Codice open-source, facilitando la ricerca successiva

Scenari di Applicazione

  1. Applicazioni ad Alto Rischio: Diagnosi medica, controllo del rischio finanziario, decisioni giudiziarie
  2. Ricerca Scientifica: Previsione di proprietà molecolari, scoperta di farmaci
  3. Conformità Normativa: Applicazioni commerciali che richiedono conformità ai requisiti di interpretabilità
  4. Educazione e Formazione: Insegnamento e comprensione dei principi delle GNNs

Bibliografia

Lavori correlati chiave:

  1. Hastie & Tibshirani (1986): Teoria fondamentale dei Modelli Additivi Generalizzati
  2. Agarwal et al. (2021): Neural Additive Models
  3. Ying et al. (2019): GNNExplainer - metodo di spiegazione post-hoc per GNNs
  4. Rudin (2019): Dibattito tra modelli interpretabili e spiegazioni di modelli black-box

Sintesi: Il GNAN proposto in questo articolo rappresenta un importante contributo nel campo dell'IA interpretabile, dimostrando con successo la possibilità di ottenere sia interpretabilità che accuratezza nei compiti di apprendimento su grafi. Sebbene esistano limitazioni teoriche nella capacità espressiva, il suo valore nelle applicazioni pratiche, in particolare negli scenari ad alto rischio che richiedono trasparenza, lo rende un importante progresso in questo campo.