2025-11-21T08:58:16.449112

The Interpretable and Effective Graph Neural Additive Networks

Bechler-Speicher, Globerson, Gilad-Bachrach
Graph Neural Networks (GNNs) have emerged as the predominant approach for learning over graph-structured data. However, most GNNs operate as black-box models and require post-hoc explanations, which may not suffice in high-stakes scenarios where transparency is crucial. In this paper, we present a GNN that is interpretable by design. Our model, Graph Neural Additive Network (GNAN), is a novel extension of the interpretable class of Generalized Additive Models, and can be visualized and fully understood by humans. GNAN is designed to be fully interpretable, offering both global and local explanations at the feature and graph levels through direct visualization of the model. These visualizations describe exactly how the model uses the relationships between the target variable, the features, and the graph. We demonstrate the intelligibility of GNANs in a series of examples on different tasks and datasets. In addition, we show that the accuracy of GNAN is on par with black-box GNNs, making it suitable for critical applications where transparency is essential, alongside high accuracy.
academic

Las Redes Neurales Aditivas de Grafos Interpretables y Efectivas

Información Básica

  • ID del Artículo: 2406.01317
  • Título: The Interpretable and Effective Graph Neural Additive Networks
  • Autores: Maya Bechler-Speicher, Amir Globerson, Ran Gilad-Bachrach
  • Clasificación: cs.LG cs.AI
  • Conferencia de Publicación: NeurIPS 2024 (38ª Conferencia sobre Sistemas de Procesamiento de Información Neural)
  • Enlace del Artículo: https://arxiv.org/abs/2406.01317

Resumen

Las redes neurales de grafos (GNNs) se han convertido en el método predominante para el aprendizaje en datos con estructura de grafos, pero la mayoría de las GNNs funcionan como modelos de caja negra que requieren explicaciones posteriores, lo cual puede ser insuficiente en escenarios de alto riesgo que demandan transparencia. Este artículo propone un modelo GNN interpretable por diseño —Redes Neurales Aditivas de Grafos (GNAN)—, una nueva extensión de la clase de modelos aditivos generalizados interpretables que puede ser visualizada y comprendida completamente por humanos. GNAN proporciona explicaciones globales y locales a nivel de características y a nivel de grafo, describiendo mediante visualización directa del modelo cómo utiliza las relaciones entre variables objetivo, características y grafos. Los experimentos demuestran que la precisión de GNAN es comparable a la de las GNNs de caja negra, siendo aplicable a aplicaciones críticas que requieren transparencia y alta precisión.

Contexto de Investigación y Motivación

Definición del Problema

  1. Problema Central: Las GNNs existentes carecen de interpretabilidad, limitando su aplicación en dominios de alto riesgo como medicina, finanzas y justicia penal
  2. Requisitos de Transparencia: Regulaciones como el RGPD de la Unión Europea y la Ley de IA requieren transparencia en sistemas de IA de alto riesgo
  3. Limitaciones de Métodos de Explicación Existentes:
    • Los métodos de explicación posteriores (como SHAP, LIME) carecen de garantías de corrección
    • Las explicaciones locales pueden ser inconsistentes con las explicaciones globales
    • No pueden proporcionar una descripción completa del modelo

Motivación de la Investigación

  • Interpretabilidad vs. Precisión: La opinión tradicional sostiene que los modelos interpretables generalmente tienen menor precisión; este trabajo desafía esta noción
  • Interpretabilidad por Diseño: Los modelos interpretables por diseño son más confiables que las explicaciones posteriores
  • Cumplimiento Normativo: Satisfacer requisitos cada vez más estrictos de transparencia en IA

Contribuciones Principales

  1. Contribución Teórica: Extensión de modelos aditivos generalizados (GAMs) a datos de grafos, proponiendo la arquitectura GNAN
  2. Contribución Metodológica: Diseño de un modelo de predicción en grafos completamente interpretable con capacidades de explicación global y local
  3. Contribución Empírica: Demostración de que GNAN logra desempeño comparable a GNNs de caja negra en múltiples conjuntos de datos reales
  4. Contribución Práctica: Proporciona capacidades de depuración y validación de modelos directamente visualizables

Detalles del Método

Definición de la Tarea

  • Entrada: Grafo G que contiene N nodos, cada nodo i asociado con un vector de características de d dimensiones xi ∈ ℝd
  • Salida: Predicciones a nivel de nodo o a nivel de grafo
  • Definición de Distancia: dist(j,i) es el número de aristas en el camino más corto del nodo j al nodo i

Arquitectura del Modelo

Idea de Diseño Central

GNAN genera representaciones de nodos mediante el aprendizaje de una función de distancia ρ(x;θ): ℝ → ℝ y funciones de forma de características {fk}^d_, fk(x;θk): ℝ → ℝ.

Cálculo de Representación de Nodos

La representación de la k-ésima característica del nodo i se calcula como:

[hi]k = Σ(j=1 a N) [1/#disti(j,i)] · ρ(1/(1+dist(j,i))) · fk([xj]k)

Donde:

  • #disti(j,i): Número de nodos a distancia dist(j,i) del nodo i
  • ρ(1/(1+dist(j,i))): Función de ponderación por distancia
  • fk([xj]k): Función de forma para la k-ésima característica

Cálculo de Predicción

  • Predicción de Nodo: σ(Σ(k=1 a d)[hi]k)
  • Predicción de Grafo: Primero se obtiene la representación del grafo mediante agregación por suma h = Σ(i=1 a N)hi, luego se calcula σ(Σ(k=1 a d)[h]k)

Extensión para Clasificación Multiclase

Para clasificación con C clases, las funciones de características y de distancia producen vectores de dimensión C, combinados mediante multiplicación elemento a elemento:

[hi]k = Σ(j=1 a N) [1/#disti(j,i)] · ρ(1/(1+dist(j,i))) ⊙ fk([xj]k)

Puntos de Innovación Técnica

  1. Estructura Aditiva: Evita productos cruzados entre características y topología del grafo, manteniendo interpretabilidad
  2. Modelado de Distancia: Modela explícitamente el impacto de la distancia entre nodos en las predicciones
  3. Flujo de Información Global: Cada nodo recopila información de todo el grafo, evitando cuellos de botella en paso de mensajes
  4. Visualización Completa: El modelo puede describirse completamente mediante unos pocos gráficos de funciones

Configuración Experimental

Conjuntos de Datos

Tareas de Clasificación de Nodos

  • Redes de Citación: Cora, Citeseer, PubMed, ogb-arxiv
  • Datos Heterogéneos: Cornell, Tolokers

Tareas de Clasificación de Grafos

  • Moléculas Químicas: NCI1, Proteins, Mutagen, PTC
  • Propiedades Moleculares de Largo Alcance: μ, α, αHOMO (conjunto de datos QM9)

Métricas de Evaluación

  • Tareas de Clasificación: Precisión (Accuracy)
  • Tareas de Regresión: Error Absoluto Medio (MAE)
  • Clasificación Binaria: ROC-AUC

Métodos de Comparación

  • GraphConv, GraphSAGE, GIN
  • GATv2, Graph Transformer
  • FSGNN (modelo con desacoplamiento característica-grafo)

Detalles de Implementación

  • Optimizador: Adam
  • Épocas de Entrenamiento: 1000 épocas
  • Parada Temprana: Sin mejora en pérdida de validación durante 100 pasos
  • Estructura de Red: MLPs de 3-5 capas, activación ReLU
  • Dimensión Oculta: 32-64

Resultados Experimentales

Resultados Principales

En 13 tareas, GNAN logra el mejor o segundo mejor desempeño en 9 tareas:

Tipo de TareaConjunto de DatosDesempeño GNANMejor Línea Base
Clasificación de NodosCornell85.7±4.8%FSGNN: 86.0±4.1%
Clasificación de NodosTolokers84.5±0.9%GATv2: 83.8±1.1%
Clasificación de GrafosMutagen72.2±1.0%GTransformer: 73.1±0.9%
Regresión de Largo Alcanceμ2.55±0.1GIN: 2.60±0.1
Regresión de Largo Alcanceα4.28±0.9GTransformer: 4.30±0.5

Hallazgos Clave

  1. Ventaja en Tareas de Largo Alcance: GNAN destaca en tareas de predicción de propiedades moleculares de largo alcance, validando las ventajas del flujo de información global
  2. Mantenimiento de Desempeño: A pesar de capacidad limitada, GNAN logra desempeño comparable a GNNs más complejas
  3. Eficiencia Computacional: Evita paso de mensajes iterativo, reduciendo cuellos de botella computacionales

Demostración de Interpretabilidad

Explicación Global

Describe completamente el modelo mediante visualización de la función de distancia ρ y funciones de características {fk}:

  1. Conjunto de Datos Mutagenicity:
    • La función de distancia muestra disminución del impacto de átomos remotos
    • Las funciones de características revelan que átomos Ca, Na, Li aumentan la mutagenicidad
    • Los átomos N, P tienen efectos protectores leves
  2. Conjunto de Datos PubMed:
    • Las funciones de distancia muestran diferencias claras entre tres tipos de diabetes
    • Las funciones de características exhiben relaciones complejas no monótonas
    • La frecuencia de "insulin" afecta diferentemente los distintos tipos de diabetes

Explicación Local

Visualización de importancia de nodos para moléculas específicas:

  • Estructuras de anillos de carbono tienen alta importancia en moléculas mutagénicas
  • Grupos NO2 se identifican correctamente como factores mutagénicos

Capacidad de Depuración

  • Verificar si el modelo aprende de acuerdo con conocimiento previo
  • Identificar sesgos potenciales y riesgos de seguridad
  • Apoyar selección y optimización de modelos

Trabajo Relacionado

Modelos Aditivos Generalizados

  • Los GAMs tradicionales utilizan funciones suavizadas como splines
  • Los Modelos Aditivos Neurales utilizan redes neurales para aprender funciones de forma
  • GNAN es la primera extensión de GAMs a datos de grafos

Interpretabilidad de GNNs

  • Los métodos existentes proporcionan principalmente explicaciones de subgrafos posteriores
  • Carecen de modelos GNN interpretables por diseño
  • GNAN proporciona descripción completa del modelo en lugar de explicaciones sustitutivas

GNNs sin Paso de Mensajes

  • Métodos como FSGNN desacoplan características y estructura del grafo
  • Reducen sobreajuste y complejidad computacional
  • GNAN logra además interpretabilidad completa

Conclusiones y Discusión

Conclusiones Principales

  1. La interpretabilidad no debe sacrificar la precisión
  2. La interpretabilidad por diseño es más confiable que las explicaciones posteriores
  3. Muchos problemas reales de grafos son más simples de lo esperado, no requiriendo modelos complejos

Limitaciones

  1. Limitación de Capacidad: La estructura aditiva limita la capacidad expresiva del modelo
  2. Interacción de Características: No puede modelar interacciones complejas entre características
  3. Estructura del Grafo: Puede no ser suficientemente sensible a patrones de grafos altamente complejos
  4. Complejidad de Visualización: Dificultad en visualización con características de alta dimensión

Direcciones Futuras

  1. Mejoras Técnicas:
    • Integración de Redes Kolmogorov-Arnold para funciones suavizadas
    • Aprendizaje de funciones de distancia independientes para cada característica
    • Exploración de regularización para reducir uso de características
  2. Extensión de Aplicaciones:
    • Aplicación a conjuntos de datos de redes biológicas
    • Redes de interacción de proteínas
    • Herramientas de apoyo para descubrimiento científico

Evaluación Profunda

Fortalezas

  1. Innovación Fuerte: Primera extensión de GAMs a datos de grafos, llenando un vacío importante
  2. Fundamento Teórico Sólido: Basado en teoría madura de GAMs, con diseño razonable
  3. Alto Valor Práctico: Satisface directamente requisitos de interpretabilidad en aplicaciones de alto riesgo
  4. Experimentos Exhaustivos: Cubre múltiples tipos de tareas y conjuntos de datos, comparación integral
  5. Visualización Excelente: Proporciona explicaciones intuitivas y completas del modelo

Deficiencias

  1. Limitaciones del Método: La suposición aditiva es muy restrictiva, pudiendo perder interacciones de características importantes
  2. Rango de Aplicabilidad: Puede tener desempeño deficiente en tareas que requieren interacciones de características complejas
  3. Análisis Teórico: Carece de análisis teórico de capacidad expresiva
  4. Escalabilidad: Problemas de interpretabilidad y eficiencia computacional con características de alta dimensión

Impacto

  1. Contribución Académica: Abre una nueva dirección en GNNs interpretables
  2. Valor Práctico: Proporciona solución práctica para aplicaciones de IA de alto riesgo
  3. Significado Político: Se alinea con tendencias de regulación de IA, con importante significado práctico
  4. Reproducibilidad: Código de código abierto, facilitando investigación posterior

Escenarios de Aplicación

  1. Aplicaciones de Alto Riesgo: Diagnóstico médico, control de riesgos financieros, decisiones judiciales
  2. Investigación Científica: Predicción de propiedades moleculares, descubrimiento de fármacos
  3. Cumplimiento Normativo: Aplicaciones comerciales que requieren satisfacer requisitos de interpretabilidad
  4. Educación y Capacitación: Enseñanza de principios de GNN y comprensión

Referencias

Trabajos relacionados clave:

  1. Hastie & Tibshirani (1986): Teoría fundamental de Modelos Aditivos Generalizados
  2. Agarwal et al. (2021): Modelos Aditivos Neurales
  3. Ying et al. (2019): GNNExplainer - Método de explicación posterior para GNNs
  4. Rudin (2019): Debate entre modelos interpretables vs. explicaciones de cajas negras

Resumen: El GNAN propuesto en este artículo es una contribución importante en el campo de la IA interpretable, demostrando exitosamente que la interpretabilidad y la precisión pueden coexistir en tareas de aprendizaje en grafos. Aunque existen limitaciones teóricas en capacidad expresiva, su valor en aplicaciones prácticas, particularmente en escenarios de alto riesgo que demandan transparencia, lo convierte en un progreso importante en este campo.