2025-11-21T08:58:16.449112

The Interpretable and Effective Graph Neural Additive Networks

Bechler-Speicher, Globerson, Gilad-Bachrach

Graph Neural Networks (GNNs) have emerged as the predominant approach for learning over graph-structured data. However, most GNNs operate as black-box models and require post-hoc explanations, which may not suffice in high-stakes scenarios where transparency is crucial. In this paper, we present a GNN that is interpretable by design. Our model, Graph Neural Additive Network (GNAN), is a novel extension of the interpretable class of Generalized Additive Models, and can be visualized and fully understood by humans. GNAN is designed to be fully interpretable, offering both global and local explanations at the feature and graph levels through direct visualization of the model. These visualizations describe exactly how the model uses the relationships between the target variable, the features, and the graph. We demonstrate the intelligibility of GNANs in a series of examples on different tasks and datasets. In addition, we show that the accuracy of GNAN is on par with black-box GNNs, making it suitable for critical applications where transparency is essential, alongside high accuracy.

academic

Le Reti Neurali Additive su Grafi Interpretabili ed Efficaci

Informazioni Fondamentali

ID Articolo: 2406.01317
Titolo: The Interpretable and Effective Graph Neural Additive Networks
Autori: Maya Bechler-Speicher, Amir Globerson, Ran Gilad-Bachrach
Classificazione: cs.LG cs.AI
Conferenza di Pubblicazione: NeurIPS 2024 (38ª Conferenza sui Sistemi di Elaborazione dell'Informazione Neurale)
Link Articolo: https://arxiv.org/abs/2406.01317

Riassunto

Le reti neurali su grafi (GNNs) sono diventate il metodo predominante per l'apprendimento su dati strutturati in forma di grafo, tuttavia la maggior parte delle GNNs funziona come modelli black-box che richiedono interpretazioni post-hoc, il che potrebbe risultare insufficiente in scenari ad alto rischio che richiedono trasparenza. Questo articolo propone un modello GNN interpretabile per progettazione—le Reti Neurali Additive su Grafi (GNAN)—una nuova estensione della classe di modelli additivi generalizzati interpretabili, che può essere visualizzata e completamente compresa dagli esseri umani. GNAN fornisce spiegazioni globali e locali a livello di caratteristiche e di grafo, descrivendo attraverso la visualizzazione diretta del modello come vengono utilizzate le relazioni tra variabili target, caratteristiche e grafo. Gli esperimenti dimostrano che l'accuratezza di GNAN è comparabile alle GNNs black-box, rendendola adatta ad applicazioni critiche che richiedono trasparenza e elevata accuratezza.

Contesto di Ricerca e Motivazione

Definizione del Problema

Problema Centrale: Le GNNs esistenti mancano di interpretabilità, limitando le applicazioni in settori ad alto rischio come medicina, finanza e giustizia penale
Requisiti di Trasparenza: Normative come il GDPR dell'UE e l'AI Act richiedono trasparenza per i sistemi di IA ad alto rischio
Limitazioni dei Metodi di Spiegazione Esistenti:
- I metodi di spiegazione post-hoc (come SHAP, LIME) mancano di garanzie di correttezza
- Le spiegazioni locali possono essere incoerenti con quelle globali
- Impossibilità di fornire una descrizione completa del modello

Motivazione della Ricerca

Interpretabilità vs Accuratezza: L'opinione tradizionale sostiene che i modelli interpretabili hanno generalmente minore accuratezza; questo articolo sfida tale assunto
Interpretabilità per Progettazione: Rispetto alle spiegazioni post-hoc, i modelli interpretabili per progettazione sono più affidabili
Conformità Normativa: Soddisfare i requisiti sempre più rigorosi di trasparenza dell'IA

Contributi Principali

Contributo Teorico: Estensione dei modelli additivi generalizzati (GAMs) ai dati su grafi, proponendo l'architettura GNAN
Contributo Metodologico: Progettazione di un modello di previsione su grafi completamente interpretabile con capacità di spiegazione globale e locale
Contributo Empirico: Dimostrazione che GNAN raggiunge prestazioni comparabili alle GNNs black-box su molteplici dataset reali
Contributo Pratico: Fornitura di capacità di debug e verifica del modello direttamente visualizzabili

Dettagli del Metodo

Definizione del Compito

Input: Grafo G contenente N nodi, ogni nodo i associato a un vettore di caratteristiche d-dimensionale xi ∈ ℝd
Output: Previsioni a livello di nodo o a livello di grafo
Definizione di Distanza: dist(j,i) è il numero di archi del percorso più breve dal nodo j al nodo i

Architettura del Modello

Idea di Progettazione Centrale

GNAN genera rappresentazioni di nodi attraverso l'apprendimento di una funzione di distanza ρ(x;θ): ℝ → ℝ e di funzioni di forma delle caratteristiche {fk}^d_, fk(x;θk): ℝ → ℝ.

Calcolo della Rappresentazione del Nodo

La k-esima rappresentazione di caratteristica del nodo i è:

[hi]k = Σ(j=1 to N) [1/#disti(j,i)] · ρ(1/(1+dist(j,i))) · fk([xj]k)

Dove:

#disti(j,i): numero di nodi a distanza dist(j,i) dal nodo i
ρ(1/(1+dist(j,i))): funzione di ponderazione della distanza
fk([xj]k): funzione di forma per la k-esima caratteristica

Calcolo della Previsione

Previsione a Livello di Nodo: σ(Σ(k=1 to d)[hi]k)
Previsione a Livello di Grafo: prima ottenere la rappresentazione del grafo attraverso pooling per somma h = Σ(i=1 to N)hi, quindi calcolare σ(Σ(k=1 to d)[h]k)

Estensione per Classificazione Multiclasse

Per classificazione con C classi, le funzioni di caratteristica e di distanza producono vettori C-dimensionali, combinati mediante moltiplicazione elemento-wise:

[hi]k = Σ(j=1 to N) [1/#disti(j,i)] · ρ(1/(1+dist(j,i))) ⊙ fk([xj]k)

Punti di Innovazione Tecnica

Struttura Additiva: Evita prodotti incrociati tra caratteristiche e topologia del grafo, mantenendo l'interpretabilità
Modellazione della Distanza: Modellazione esplicita dell'influenza della distanza tra nodi sulla previsione
Flusso di Informazioni Globale: Ogni nodo raccoglie informazioni dall'intero grafo, evitando colli di bottiglia nel passaggio di messaggi
Visualizzazione Completa: Il modello può essere completamente descritto attraverso pochi grafici di funzioni

Configurazione Sperimentale

Dataset

Compiti di Classificazione di Nodi

Reti di Citazioni: Cora, Citeseer, PubMed, ogb-arxiv
Dati Eterogenei: Cornell, Tolokers

Compiti di Classificazione di Grafi

Molecole Chimiche: NCI1, Proteins, Mutagen, PTC
Proprietà Molecolari a Lungo Raggio: μ, α, αHOMO (dataset QM9)

Metriche di Valutazione

Compiti di Classificazione: Accuratezza (Accuracy)
Compiti di Regressione: Errore Assoluto Medio (MAE)
Classificazione Binaria: ROC-AUC

Metodi di Confronto

GraphConv, GraphSAGE, GIN
GATv2, Graph Transformer
FSGNN (modello di disaccoppiamento caratteristica-grafo)

Dettagli di Implementazione

Ottimizzatore: Adam
Epoche di Addestramento: 1000
Early Stopping: nessun miglioramento della perdita di validazione per 100 step
Struttura di Rete: MLP 3-5 strati, attivazione ReLU
Dimensione Nascosta: 32-64

Risultati Sperimentali

Risultati Principali

Su 13 compiti, GNAN raggiunge prestazioni migliori o seconde migliori su 9 compiti:

Tipo di Compito	Dataset	Prestazione GNAN	Baseline Migliore
Classificazione di Nodi	Cornell	85.7±4.8%	FSGNN: 86.0±4.1%
Classificazione di Nodi	Tolokers	84.5±0.9%	GATv2: 83.8±1.1%
Classificazione di Grafi	Mutagen	72.2±1.0%	GTransformer: 73.1±0.9%
Regressione a Lungo Raggio	μ	2.55±0.1	GIN: 2.60±0.1
Regressione a Lungo Raggio	α	4.28±0.9	GTransformer: 4.30±0.5

Scoperte Chiave

Vantaggi nei Compiti a Lungo Raggio: GNAN eccelle nella previsione di proprietà molecolari a lungo raggio, convalidando i vantaggi del flusso di informazioni globale
Mantenimento delle Prestazioni: Nonostante la capacità limitata, le prestazioni di GNAN sono comparabili a GNNs più complesse
Efficienza Computazionale: Evita il passaggio di messaggi iterativo, riducendo i colli di bottiglia computazionali

Presentazione dell'Interpretabilità

Spiegazioni Globali

Descrizione completa del modello attraverso visualizzazione della funzione di distanza ρ e delle funzioni di caratteristica {fk}:

Dataset Mutagenicity:
- La funzione di distanza mostra l'influenza decrescente degli atomi remoti
- Le funzioni di caratteristica rivelano che gli atomi Ca, Na, Li aumentano la mutagenesi
- Gli atomi N, P hanno effetti protettivi lievi
Dataset PubMed:
- Differenze evidenti nelle funzioni di distanza per i tre tipi di diabete
- Le funzioni di caratteristica mostrano relazioni complesse non monotone
- La frequenza della parola "insulin" ha effetti diversi su diversi tipi di diabete

Spiegazioni Locali

Visualizzazione dell'importanza dei nodi per molecole specifiche:

Strutture di anelli di carbonio hanno elevata importanza nelle molecole mutagene
Il gruppo NO2 è correttamente identificato come fattore mutageno

Capacità di Debug

Verifica se il modello apprende in accordo con la conoscenza pregressa
Identificazione di potenziali bias e rischi di sicurezza
Supporto alla selezione e ottimizzazione del modello

Lavori Correlati

Modelli Additivi Generalizzati

I GAMs tradizionali utilizzano funzioni lisce come spline
I Neural Additive Models utilizzano reti neurali per apprendere funzioni di forma
GNAN è la prima estensione dei GAMs ai dati su grafi

Interpretabilità delle GNNs

I metodi esistenti forniscono principalmente spiegazioni di sottografi post-hoc
Mancanza di modelli GNN interpretabili per progettazione
GNAN fornisce descrizione completa del modello piuttosto che spiegazioni sostitutive

GNNs Non Basate su Passaggio di Messaggi

Metodi come FSGNN disaccoppiano caratteristiche e struttura del grafo
Riduzione dell'overfitting e della complessità computazionale
GNAN realizza ulteriormente l'interpretabilità completa

Conclusioni e Discussione

Conclusioni Principali

L'interpretabilità non deve necessariamente compromettere l'accuratezza
L'interpretabilità per progettazione è più affidabile delle spiegazioni post-hoc
Molti problemi reali su grafi sono più semplici del previsto e non richiedono modelli complessi

Limitazioni

Limitazioni di Capacità: La struttura additiva limita la capacità espressiva del modello
Interazioni tra Caratteristiche: Impossibilità di modellare interazioni complesse tra caratteristiche
Struttura del Grafo: Potrebbe non essere sufficientemente sensibile a pattern grafici altamente complessi
Complessità di Visualizzazione: Difficoltà di visualizzazione con caratteristiche ad alta dimensionalità

Direzioni Future

Miglioramenti Tecnici:
- Integrazione di Kolmogorov-Arnold Networks per funzioni lisce
- Apprendimento di funzioni di distanza indipendenti per ogni caratteristica
- Esplorazione della regolarizzazione per ridurre l'uso di caratteristiche
Estensioni Applicative:
- Applicazione a dataset di reti biologiche
- Reti di interazione proteica
- Strumenti di supporto alla scoperta scientifica

Valutazione Approfondita

Punti di Forza

Forte Innovazione: Prima estensione dei GAMs ai dati su grafi, colmando un importante vuoto
Fondamenti Teorici Solidi: Basato sulla teoria consolidata dei GAMs, con progettazione razionale
Elevato Valore Pratico: Soddisfa direttamente i requisiti di interpretabilità delle applicazioni ad alto rischio
Esperimenti Completi: Copertura di molteplici compiti e dataset, confronti esaustivi
Visualizzazione Eccellente: Fornisce spiegazioni intuitive e complete del modello

Insufficienze

Limitazioni del Metodo: L'assunzione additiva è troppo forte, potrebbe perdere importanti interazioni tra caratteristiche
Ambito di Applicabilità: Potrebbe avere prestazioni inferiori su compiti che richiedono complesse interazioni tra caratteristiche
Analisi Teorica: Mancanza di analisi teorica della capacità espressiva
Scalabilità: Problemi di interpretabilità e efficienza computazionale con caratteristiche ad alta dimensionalità

Impatto

Contributo Accademico: Apre una nuova direzione per le GNNs interpretabili
Valore Pratico: Fornisce una soluzione pratica per applicazioni di IA ad alto rischio
Significato Politico: Allineato alle tendenze di regolamentazione dell'IA, con importante rilevanza pratica
Riproducibilità: Codice open-source, facilitando la ricerca successiva

Scenari di Applicazione

Applicazioni ad Alto Rischio: Diagnosi medica, controllo del rischio finanziario, decisioni giudiziarie
Ricerca Scientifica: Previsione di proprietà molecolari, scoperta di farmaci
Conformità Normativa: Applicazioni commerciali che richiedono conformità ai requisiti di interpretabilità
Educazione e Formazione: Insegnamento e comprensione dei principi delle GNNs

Bibliografia

Lavori correlati chiave:

Hastie & Tibshirani (1986): Teoria fondamentale dei Modelli Additivi Generalizzati
Agarwal et al. (2021): Neural Additive Models
Ying et al. (2019): GNNExplainer - metodo di spiegazione post-hoc per GNNs
Rudin (2019): Dibattito tra modelli interpretabili e spiegazioni di modelli black-box

Sintesi: Il GNAN proposto in questo articolo rappresenta un importante contributo nel campo dell'IA interpretabile, dimostrando con successo la possibilità di ottenere sia interpretabilità che accuratezza nei compiti di apprendimento su grafi. Sebbene esistano limitazioni teoriche nella capacità espressiva, il suo valore nelle applicazioni pratiche, in particolare negli scenari ad alto rischio che richiedono trasparenza, lo rende un importante progresso in questo campo.