When Can You Trust Your Explanations? A Robustness Analysis on Feature Importances
Vascotto, Rodriguez, Bonaita et al.
Recent legislative regulations have underlined the need for accountable and transparent artificial intelligence systems and have contributed to a growing interest in the Explainable Artificial Intelligence (XAI) field. Nonetheless, the lack of standardized criteria to validate explanation methodologies remains a major obstacle to developing trustworthy systems. We address a crucial yet often overlooked aspect of XAI, the robustness of explanations, which plays a central role in ensuring trust in both the system and the provided explanation. To this end, we propose a novel approach to analyse the robustness of neural network explanations to non-adversarial perturbations, leveraging the manifold hypothesis to produce new perturbed datapoints that resemble the observed data distribution. We additionally present an ensemble method to aggregate various explanations, showing how merging explanations can be beneficial for both understanding the model's decision and evaluating the robustness. The aim of our work is to provide practitioners with a framework for evaluating the trustworthiness of model explanations. Experimental results on feature importances derived from neural networks applied to tabular datasets highlight the importance of robust explanations in practical applications.
인공지능 규제가 계속 발전함에 따라 설명 가능한 인공지능(XAI)에 대한 필요성이 증가하고 있습니다. 그러나 표준화된 설명 방법 검증 기준의 부재는 신뢰할 수 있는 시스템 개발의 주요 장애물로 남아 있습니다. 본 논문은 XAI에서 자주 간과되지만 매우 중요한 설명 견고성 문제를 다루며, 신경망 설명이 비대적 교란에 대한 견고성을 평가하기 위한 새로운 분석 방법을 제안합니다. 이 방법은 다양체 가정을 활용하여 관찰된 데이터 분포를 따르는 교란 데이터 포인트를 생성하며, 여러 설명을 집계하기 위한 앙상블 방법을 제안하여 병합된 설명이 모델 결정 이해 및 견고성 평가에 미치는 이점을 보여줍니다.