Beyond single-model XAI: aggregating multi-model explanations for enhanced trustworthiness
Vascotto, Rodriguez, Bonaita et al.
The use of Artificial Intelligence (AI) models in real-world and high-risk applications has intensified the discussion about their trustworthiness and ethical usage, from both a technical and a legislative perspective. The field of eXplainable Artificial Intelligence (XAI) addresses this challenge by proposing explanations that bring to light the decision-making processes of complex black-box models. Despite being an essential property, the robustness of explanations is often an overlooked aspect during development: only robust explanation methods can increase the trust in the system as a whole. This paper investigates the role of robustness through the usage of a feature importance aggregation derived from multiple models ($k$-nearest neighbours, random forest and neural networks). Preliminary results showcase the potential in increasing the trustworthiness of the application, while leveraging multiple model's predictive power.
academic
Más allá de XAI de modelo único: agregación de explicaciones multimodelo para una confiabilidad mejorada
Con el uso generalizado de modelos de inteligencia artificial en aplicaciones de alto riesgo en el mundo real, las cuestiones de confiabilidad y uso ético han recibido una atención cada vez mayor tanto desde perspectivas técnicas como legislativas. El campo de la Inteligencia Artificial Explicable (XAI) aborda este desafío proporcionando explicaciones que revelan los procesos de decisión de modelos de caja negra complejos. Aunque la robustez es un atributo importante, a menudo se descuida durante el desarrollo: solo los métodos de explicación robustos pueden aumentar la confianza en todo el sistema. Este artículo investiga el papel de la robustez utilizando importancia de características agregadas de múltiples modelos (k-vecinos más cercanos, bosques aleatorios y redes neuronales). Los resultados preliminares demuestran el potencial de mejorar la confiabilidad de las aplicaciones mientras se aprovechan las capacidades predictivas de múltiples modelos.
Los problemas clave que esta investigación aborda son dos deficiencias críticas en los métodos XAI existentes:
Falta de Robustez en Explicaciones: Métodos de explicación populares como LIME y SHAP han demostrado carecer de robustez en múltiples estudios, pero siguen siendo ampliamente aplicados en escenarios de alto riesgo
Problema de Divergencia de Explicaciones: Cuando se aplican múltiples métodos de explicación a la misma instancia, se producen explicaciones contradictorias; sin un estándar de verdad para las explicaciones, es imposible seleccionar el método óptimo
Con legislación como GDPR y la Ley de IA que requieren transparencia del modelo, la confiabilidad de las explicaciones se vuelve crítica. Solo a través de la confianza en las explicaciones se puede establecer confianza en el modelo mismo, lo cual es especialmente importante en aplicaciones de alto riesgo.
Basándose en trabajos anteriores sobre explicaciones de conjuntos de redes neuronales, este artículo propone extender el método a múltiples categorías de modelos diferentes, con el objetivo de mejorar la confiabilidad general del sistema agregando explicaciones de diferentes procesos de decisión.
Este artículo se enfoca en tareas de clasificación binaria con datos tabulares, con el objetivo de generar explicaciones de importancia de características confiables para cada instancia predicha. La entrada es una instancia de datos tabulares y la salida es un vector de atribución de características normalizado.
Se utiliza promedio aritmético a nivel de características:
a_agg = (1/L) × Σ(l=1 a L) a_l
Donde L=3 es el número de modelos. Cuando las predicciones de modelos son inconsistentes, se invierten los signos de las explicaciones de modelos divergentes para garantizar que las explicaciones apunten a la misma clase.
Todos los modelos alcanzan una precisión superior al 80% en todos los conjuntos de datos (excepto k-NN en HELOC con 75.51%). La red neuronal muestra el mejor desempeño en conjuntos de datos complejos, mientras que el bosque aleatorio funciona mejor en conjuntos de datos simples.
La relación entre consistencia predictiva de modelos y tamaño de vecindario verifica la hipótesis: cuando los tres modelos predicen consistentemente, generalmente se obtiene un tamaño de vecindario más grande, indicando que esta región tiene mejor robustez de explicación.
Los resultados del apéndice muestran que las puntuaciones de robustez de LIME y SHAP están muy por debajo del umbral de 0.5, verificando los hallazgos de la literatura sobre la inestabilidad de estos métodos, lo que justifica su exclusión.
Viabilidad de Agregación Multimodelo: Se demuestra que las explicaciones de diferentes tipos de modelos pueden agregarse efectivamente
Relación entre Robustez y Consistencia: Se verifica que la consistencia predictiva multimodelo puede servir como indicador de confiabilidad de explicaciones
Estrategia de Explicación Conservadora: El método agregado proporciona una estrategia de explicación conservadora pero confiable
El artículo cita literatura importante en el campo XAI, incluyendo:
Artículos originales de LIME y SHAP y críticas sobre su robustez
Métodos de explicación de redes neuronales como DeepLIFT e Integrated Gradients
Investigación relacionada sobre evaluación de robustez y agregación de explicaciones
Documentos legislativos como GDPR y Ley de IA de la UE
Evaluación General: Este es un artículo con contribuciones importantes en la dirección de investigación de robustez XAI. Aunque los métodos son relativamente simples, aborda problemas prácticamente importantes y proporciona herramientas valiosas para el desarrollo de IA confiable. El valor principal del artículo radica en abrir la dirección de investigación de agregación de explicaciones entre tipos de modelos y proporcionar un marco de evaluación sistemático. Las direcciones de trabajo futuro están claramente identificadas, sentando las bases para el desarrollo posterior del campo.