2025-11-19T09:40:14.113488

Beyond single-model XAI: aggregating multi-model explanations for enhanced trustworthiness

Vascotto, Rodriguez, Bonaita et al.
The use of Artificial Intelligence (AI) models in real-world and high-risk applications has intensified the discussion about their trustworthiness and ethical usage, from both a technical and a legislative perspective. The field of eXplainable Artificial Intelligence (XAI) addresses this challenge by proposing explanations that bring to light the decision-making processes of complex black-box models. Despite being an essential property, the robustness of explanations is often an overlooked aspect during development: only robust explanation methods can increase the trust in the system as a whole. This paper investigates the role of robustness through the usage of a feature importance aggregation derived from multiple models ($k$-nearest neighbours, random forest and neural networks). Preliminary results showcase the potential in increasing the trustworthiness of the application, while leveraging multiple model's predictive power.
academic

Más allá de XAI de modelo único: agregación de explicaciones multimodelo para una confiabilidad mejorada

Información Básica

  • ID del Artículo: 2510.11164
  • Título: Beyond single-model XAI: aggregating multi-model explanations for enhanced trustworthiness
  • Autores: Ilaria Vascotto, Alex Rodriguez, Alessandro Bonaita, Luca Bortolussi
  • Clasificación: cs.LG (Aprendizaje Automático)
  • Fecha de Publicación/Conferencia: TRUST-AI: The European Workshop on Trustworthy AI (ECAI 2025)
  • Enlace del Artículo: https://arxiv.org/abs/2510.11164

Resumen

Con el uso generalizado de modelos de inteligencia artificial en aplicaciones de alto riesgo en el mundo real, las cuestiones de confiabilidad y uso ético han recibido una atención cada vez mayor tanto desde perspectivas técnicas como legislativas. El campo de la Inteligencia Artificial Explicable (XAI) aborda este desafío proporcionando explicaciones que revelan los procesos de decisión de modelos de caja negra complejos. Aunque la robustez es un atributo importante, a menudo se descuida durante el desarrollo: solo los métodos de explicación robustos pueden aumentar la confianza en todo el sistema. Este artículo investiga el papel de la robustez utilizando importancia de características agregadas de múltiples modelos (k-vecinos más cercanos, bosques aleatorios y redes neuronales). Los resultados preliminares demuestran el potencial de mejorar la confiabilidad de las aplicaciones mientras se aprovechan las capacidades predictivas de múltiples modelos.

Contexto de Investigación y Motivación

Definición del Problema

Los problemas clave que esta investigación aborda son dos deficiencias críticas en los métodos XAI existentes:

  1. Falta de Robustez en Explicaciones: Métodos de explicación populares como LIME y SHAP han demostrado carecer de robustez en múltiples estudios, pero siguen siendo ampliamente aplicados en escenarios de alto riesgo
  2. Problema de Divergencia de Explicaciones: Cuando se aplican múltiples métodos de explicación a la misma instancia, se producen explicaciones contradictorias; sin un estándar de verdad para las explicaciones, es imposible seleccionar el método óptimo

Importancia

Con legislación como GDPR y la Ley de IA que requieren transparencia del modelo, la confiabilidad de las explicaciones se vuelve crítica. Solo a través de la confianza en las explicaciones se puede establecer confianza en el modelo mismo, lo cual es especialmente importante en aplicaciones de alto riesgo.

Limitaciones de Métodos Existentes

  • Métodos convencionales como LIME y SHAP presentan problemas de robustez, produciendo explicaciones inconsistentes bajo entradas similares
  • Los métodos de explicación de modelo único no pueden aprovechar completamente las capacidades predictivas de múltiples modelos
  • Falta de estrategias efectivas de agregación de explicaciones para manejar divergencias entre diferentes modelos

Motivación de la Investigación

Basándose en trabajos anteriores sobre explicaciones de conjuntos de redes neuronales, este artículo propone extender el método a múltiples categorías de modelos diferentes, con el objetivo de mejorar la confiabilidad general del sistema agregando explicaciones de diferentes procesos de decisión.

Contribuciones Principales

  1. Se proponen dos nuevos métodos de atribución de características:
    • Método de importancia de características basado en distancia para modelos k-NN
    • Método de atribución de características basado en impureza de nodos para bosques aleatorios
  2. Se desarrolla un marco de agregación de explicaciones multimodelo:
    • Integración de explicaciones de k-NN, bosques aleatorios y redes neuronales
    • Agregación de importancia de características mediante promedio aritmético
  3. Se introduce un mecanismo de evaluación de robustez:
    • Método de generación de vecindarios basado en puntos centrales
    • Cuantificación de robustez de explicaciones mediante coeficiente de correlación de Spearman
  4. Se verifica la relación entre consistencia de modelos y robustez de explicaciones:
    • Se demuestra que la consistencia predictiva multimodelo puede servir como indicador de confiabilidad de explicaciones

Explicación Detallada de Métodos

Definición de Tareas

Este artículo se enfoca en tareas de clasificación binaria con datos tabulares, con el objetivo de generar explicaciones de importancia de características confiables para cada instancia predicha. La entrada es una instancia de datos tabulares y la salida es un vector de atribución de características normalizado.

Arquitectura del Modelo

Método de Explicación k-NN

El algoritmo se basa en el mecanismo de razonamiento por distancia de k-NN:

  1. Para el punto de predicción x, seleccionar k' vecinos más cercanos respectivamente de la clase predicha c y la clase opuesta ¬c
  2. Calcular la distancia promedio de características a cada grupo de vecinos D_c y D_¬c
  3. Definir importancia de características como: e = D_¬c - D_c
  4. Normalizar como vector unitario para garantizar comparabilidad

Método de Explicación de Bosque Aleatorio

Basado en impureza de nodos en rutas de decisión:

  1. Para cada árbol en el bosque, rastrear la ruta de decisión del punto de datos
  2. Según si la predicción del árbol individual es consistente con la predicción del bosque, acumular impureza de nodos respectivamente en e_c o e_¬c
  3. La explicación final es: e = (p_¬c + ε) × e_c - p_c × e_¬c
  4. Donde p_c y p_¬c son probabilidades predichas, ε=0.01 para evitar valores cero

Estrategia de Agregación

Se utiliza promedio aritmético a nivel de características:

a_agg = (1/L) × Σ(l=1 a L) a_l

Donde L=3 es el número de modelos. Cuando las predicciones de modelos son inconsistentes, se invierten los signos de las explicaciones de modelos divergentes para garantizar que las explicaciones apunten a la misma clase.

Evaluación de Robustez

Generación de Vecindarios

Se utiliza un método basado en puntos centrales:

  1. Realizar agrupamiento k-medoid en el conjunto de validación
  2. Para cada punto de datos, encontrar el centro de agrupamiento correspondiente y sus k_M puntos centrales más cercanos
  3. Generar perturbaciones que se ajusten a la variedad de datos mediante distribución Beta y reemplazo probabilístico

Cálculo de Robustez

Se utiliza coeficiente de correlación de rango de Spearman:

R̂(x,N,e,f) = (1/|N|) × Σ(x̃∈N) ρ(e(x), e(x̃))

Donde N es el conjunto de puntos de vecindario que mantienen predicción consistente.

Configuración Experimental

Conjuntos de Datos

Se utilizan 5 conjuntos de datos tabulares públicos para tareas de clasificación binaria:

  • Adult: 36,177/8,045/1,000 (entrenamiento/validación/prueba), 5 características numéricas, 7 características categóricas
  • Bank: 36,168/8,043/1,000, 5 características numéricas, 9 características categóricas
  • HELOC: 8,367/1,592/500, 14 características numéricas, 2 características categóricas
  • Cancer: 397/121/50, 15 características numéricas, 0 características categóricas
  • White Wine: 3,918/780/200, 9 características numéricas, 0 características categóricas

Métricas de Evaluación

  • Puntuación de Robustez: Valor promedio basado en coeficiente de correlación de Spearman
  • Tamaño de Vecindario: Proporción de puntos perturbados retenidos después del filtrado
  • Valor AUC: Área bajo la curva ROC basada en consistencia de modelos

Métodos de Comparación

  • Método de explicación personalizado k-NN
  • Método de explicación personalizado de bosque aleatorio
  • Método DeepLIFT para redes neuronales
  • Resultados agregados de los tres métodos
  • Comparación con LIME y SHAP en apéndice

Detalles de Implementación

  • k-NN: k=15 (adult, bank), k=5 (otros)
  • Bosque aleatorio: 25 aprendices base
  • Red neuronal: Perceptrón multicapa estándar
  • Generación de vecindarios: k_M=5, α=0.05, α_cat=0.05
  • Tasa de retención de vecindario objetivo: ≥95%

Resultados Experimentales

Resultados Principales

Desempeño del Modelo

Todos los modelos alcanzan una precisión superior al 80% en todos los conjuntos de datos (excepto k-NN en HELOC con 75.51%). La red neuronal muestra el mejor desempeño en conjuntos de datos complejos, mientras que el bosque aleatorio funciona mejor en conjuntos de datos simples.

Comparación de Robustez

Puntuaciones de robustez promedio (%):

Conjunto de Datosk-NNRFNNAgregado
Adult61.1288.6785.0374.58
Bank52.2773.5278.7465.75
HELOC71.0180.5684.2377.92
Cancer83.3181.0798.4084.93
Wine69.5566.6092.9666.74

Los resultados muestran:

  • El método k-NN tiene la robustez más baja, consistente con su dependencia de vecinos distantes
  • El método de red neuronal tiene la robustez más alta
  • La robustez del método agregado se sitúa entre los métodos constituyentes, como se esperaba teóricamente

Análisis de Consistencia de Modelos

La relación entre consistencia predictiva de modelos y tamaño de vecindario verifica la hipótesis: cuando los tres modelos predicen consistentemente, generalmente se obtiene un tamaño de vecindario más grande, indicando que esta región tiene mejor robustez de explicación.

Evaluación de Validación

Verificación de la relación entre consistencia de modelos y robustez de explicaciones mediante análisis ROC:

Comparación de valores AUC:

Conjunto de Datosk-NNRFNNAgregado
Adult0.44800.54170.69700.5901
Bank0.41280.62570.38610.6097
HELOC0.65730.60490.67480.6095
Cancer0.83970.92120.71200.9212
Wine0.50880.46980.04690.4951

El método agregado funciona bien en la mayoría de casos, aunque el método k-NN muestra un desempeño deficiente en algunos escenarios.

Comparación con LIME/SHAP

Los resultados del apéndice muestran que las puntuaciones de robustez de LIME y SHAP están muy por debajo del umbral de 0.5, verificando los hallazgos de la literatura sobre la inestabilidad de estos métodos, lo que justifica su exclusión.

Trabajo Relacionado

Desarrollo del Campo XAI

  • Métodos de Explicación Local: Métodos agnósticos de modelos como LIME y SHAP
  • Métodos Específicos para Redes Neuronales: DeepLIFT, Integrated Gradients, LRP, etc.
  • Investigación de Robustez: Evaluación y mejora de la estabilidad de métodos de explicación

Investigación de Agregación de Explicaciones

  • Trabajos anteriores se han enfocado principalmente en múltiples instancias de un único tipo de modelo
  • Este artículo extiende la agregación de explicaciones a diferentes tipos de modelos

Necesidades Impulsadas por Legislación

  • Requisito de "derecho a explicación" del GDPR
  • Requisitos de transparencia de la Ley de IA de la UE para aplicaciones de alto riesgo

Conclusiones y Discusión

Conclusiones Principales

  1. Viabilidad de Agregación Multimodelo: Se demuestra que las explicaciones de diferentes tipos de modelos pueden agregarse efectivamente
  2. Relación entre Robustez y Consistencia: Se verifica que la consistencia predictiva multimodelo puede servir como indicador de confiabilidad de explicaciones
  3. Estrategia de Explicación Conservadora: El método agregado proporciona una estrategia de explicación conservadora pero confiable

Limitaciones

  1. Método de Agregación Simple: Actualmente utiliza promedio aritmético, incapaz de manejar patrones de divergencia complejos
  2. Dependencia del Método k-NN: Sensible al hiperparámetro k', con alta variabilidad
  3. Completitud de Evaluación: Requiere validación más completa en escenarios de aplicación real
  4. Restricción de Tipos de Modelos: Solo se probaron tres tipos de modelos

Direcciones Futuras

Los autores identifican explícitamente cuatro direcciones de mejora:

  1. Desarrollar estrategias de agregación más complejas para manejar casos de divergencia extrema
  2. Mejorar el método de explicación k-NN para reducir dependencia de hiperparámetros
  3. Realizar evaluación de validación más completa en casos de uso reales
  4. Extender a otros tipos de modelos y métodos XAI

Evaluación Profunda

Fortalezas

  1. Importancia del Problema: Aborda un problema crítico en el campo XAI—robustez y confiabilidad de explicaciones
  2. Innovación Metodológica:
    • Primera propuesta de agregación de explicaciones entre tipos de modelos
    • Métodos novedosos de atribución de características para k-NN y RF
    • Marco sistemático de evaluación de robustez
  3. Suficiencia Experimental:
    • Validación en múltiples conjuntos de datos
    • Análisis de ablación completo
    • Comparación con métodos convencionales
  4. Fundamento Teórico: Establece conexión teórica entre consistencia de modelos y robustez de explicaciones

Deficiencias

  1. Limitaciones Metodológicas:
    • Estrategia de agregación demasiado simple, potencialmente perdiendo información importante
    • Fundamento teórico relativamente débil del método k-NN
    • Solo aplicable a tareas de clasificación binaria
  2. Configuración Experimental:
    • Tamaño de conjuntos de datos relativamente pequeño
    • Falta de validación en escenarios reales de alto riesgo
    • Análisis insuficiente de costos computacionales
  3. Profundidad de Análisis:
    • Análisis insuficiente de casos de fallo del método agregado
    • Falta de análisis cuantitativo de la contribución de diferentes tipos de modelos

Impacto

  1. Contribución Académica: Proporciona nuevas perspectivas para la investigación de robustez XAI, especialmente en la dirección de agregación multimodelo
  2. Valor Práctico: Proporciona marco práctico para IA confiable en aplicaciones de alto riesgo
  3. Reproducibilidad: Descripción clara de métodos, implementación de algoritmos relativamente simple

Escenarios Aplicables

  • Escenarios de Decisión de Alto Riesgo: Campos como finanzas y medicina que requieren IA explicable y confiable
  • Cumplimiento Regulatorio: Aplicaciones que necesitan cumplir con requisitos como GDPR
  • Auditoría de Modelos: Escenarios que requieren evaluar la confiabilidad de sistemas de IA
  • Plataforma de Investigación: Proporciona marco base para investigación de robustez XAI

Referencias

El artículo cita literatura importante en el campo XAI, incluyendo:

  • Artículos originales de LIME y SHAP y críticas sobre su robustez
  • Métodos de explicación de redes neuronales como DeepLIFT e Integrated Gradients
  • Investigación relacionada sobre evaluación de robustez y agregación de explicaciones
  • Documentos legislativos como GDPR y Ley de IA de la UE

Evaluación General: Este es un artículo con contribuciones importantes en la dirección de investigación de robustez XAI. Aunque los métodos son relativamente simples, aborda problemas prácticamente importantes y proporciona herramientas valiosas para el desarrollo de IA confiable. El valor principal del artículo radica en abrir la dirección de investigación de agregación de explicaciones entre tipos de modelos y proporcionar un marco de evaluación sistemático. Las direcciones de trabajo futuro están claramente identificadas, sentando las bases para el desarrollo posterior del campo.