When Can You Trust Your Explanations? A Robustness Analysis on Feature Importances
Vascotto, Rodriguez, Bonaita et al.
Recent legislative regulations have underlined the need for accountable and transparent artificial intelligence systems and have contributed to a growing interest in the Explainable Artificial Intelligence (XAI) field. Nonetheless, the lack of standardized criteria to validate explanation methodologies remains a major obstacle to developing trustworthy systems. We address a crucial yet often overlooked aspect of XAI, the robustness of explanations, which plays a central role in ensuring trust in both the system and the provided explanation. To this end, we propose a novel approach to analyse the robustness of neural network explanations to non-adversarial perturbations, leveraging the manifold hypothesis to produce new perturbed datapoints that resemble the observed data distribution. We additionally present an ensemble method to aggregate various explanations, showing how merging explanations can be beneficial for both understanding the model's decision and evaluating the robustness. The aim of our work is to provide practitioners with a framework for evaluating the trustworthiness of model explanations. Experimental results on feature importances derived from neural networks applied to tabular datasets highlight the importance of robust explanations in practical applications.
academic
متى يمكنك الوثوق بتفسيراتك؟ تحليل الاستقرار على أهمية الميزات
مع تحسن اللوائح الذكاء الاصطناعي، يتزايد الطلب على الذكاء الاصطناعي القابل للتفسير (XAI). ومع ذلك، يظل الافتقار إلى معايير موحدة للتحقق من طرق التفسير عقبة رئيسية في تطوير الأنظمة الموثوقة. تعالج هذه الورقة مسألة استقرار التفسيرات، وهي مسألة غالباً ما يتم تجاهلها لكنها حاسمة في XAI، وتقترح طريقة تحليل جديدة لتقييم استقرار تفسيرات الشبكات العصبية تجاه الاضطرابات غير الخصومية. تستخدم الطريقة افتراض المتعدد لتوليد نقاط بيانات مضطربة تتوافق مع توزيع البيانات المرصودة، وتقترح طريقة تجميع لدمج تفسيرات متعددة، مما يوضح فوائد دمج التفسيرات في فهم قرارات النموذج وتقييم الاستقرار.
بالنظر إلى مجموعة بيانات جدولية D = (X,y)، تحتوي على N نقطة بيانات و m ميزة، تتمثل المهمة في تقييم استقرار طريقة التفسير e المطبقة على شبكة عصبية f، حيث يتم تمثيل التفسير على شكل متجه أهمية الميزات.
تستشهد الورقة بالأعمال المهمة في مجال XAI، بما في ذلك الطرق الكلاسيكية مثل LIME و SHAP، والبحوث الطليعية الحديثة في استقرار التفسيرات والهجمات الخصومية وغيرها، مما يوفر أساساً نظرياً متيناً لهذا البحث.