When Can You Trust Your Explanations? A Robustness Analysis on Feature Importances
Vascotto, Rodriguez, Bonaita et al.
Recent legislative regulations have underlined the need for accountable and transparent artificial intelligence systems and have contributed to a growing interest in the Explainable Artificial Intelligence (XAI) field. Nonetheless, the lack of standardized criteria to validate explanation methodologies remains a major obstacle to developing trustworthy systems. We address a crucial yet often overlooked aspect of XAI, the robustness of explanations, which plays a central role in ensuring trust in both the system and the provided explanation. To this end, we propose a novel approach to analyse the robustness of neural network explanations to non-adversarial perturbations, leveraging the manifold hypothesis to produce new perturbed datapoints that resemble the observed data distribution. We additionally present an ensemble method to aggregate various explanations, showing how merging explanations can be beneficial for both understanding the model's decision and evaluating the robustness. The aim of our work is to provide practitioners with a framework for evaluating the trustworthiness of model explanations. Experimental results on feature importances derived from neural networks applied to tabular datasets highlight the importance of robust explanations in practical applications.
academic
जब आप अपनी व्याख्याओं पर विश्वास कर सकते हैं? फीचर महत्व पर एक मजबूती विश्लेषण
कृत्रिम बुद्धिमत्ता विनियमन के निरंतर विकास के साथ, व्याख्यायोग्य कृत्रिम बुद्धिमत्ता (XAI) की मांग बढ़ रही है। हालांकि, व्याख्या विधियों के सत्यापन के लिए मानकीकृत मानदंडों की कमी विश्वसनीय प्रणालियों के विकास में मुख्य बाधा बनी हुई है। यह पेपर XAI में अक्सर अनदेखी किए जाने वाले लेकिन महत्वपूर्ण व्याख्या मजबूती समस्या को संबोधित करता है। यह तंत्रिका नेटवर्क व्याख्याओं की गैर-विरोधी व्यतिक्रमण के प्रति मजबूती का मूल्यांकन करने के लिए एक नई विश्लेषणात्मक विधि प्रस्तावित करता है। यह विधि मैनिफोल्ड परिकल्पना का उपयोग करके अवलोकन किए गए डेटा वितरण के अनुरूप व्यतिक्रमण डेटा बिंदु उत्पन्न करती है, और कई व्याख्याओं को एकत्रित करने के लिए एक समग्र विधि प्रस्तावित करती है, जो मॉडल निर्णयों को समझने और मजबूती का मूल्यांकन करने में व्याख्याओं को मिलाने के लाभ प्रदर्शित करती है।
मजबूती अनुमानक: एक आदर्श मजबूती अनुमानक को संतुष्ट करने वाले गुणों का एक सेट प्रस्तावित करता है, और साबित करता है कि प्रस्तावित विधि सभी इन गुणों को संतुष्ट करती है
व्याख्या समग्र विधि: तंत्रिका नेटवर्क व्याख्याओं की विसंगति समस्या के लिए, फीचर रैंकिंग पर आधारित एक व्याख्या समग्र विधि प्रस्तावित करता है
गैर-विरोधी व्यतिक्रमण ढांचा: गैर-विरोधी व्यतिक्रमण के प्रति व्याख्या की मजबूती का परीक्षण करने के लिए एक ढांचा पेश करता है, और व्यावहारिक अनुप्रयोगों में इसकी विश्वसनीयता का मूल्यांकन करता है
सत्यापन मूल्यांकन विधि: मजबूती अनुमान सत्यापन के लिए एक नई मूल्यांकन विधि प्रस्तावित करता है, जो वास्तविक मानदंड की कमी को संबोधित करता है
तालिका डेटासेट D = (X,y) दिया गया है, जिसमें N डेटा बिंदु और m फीचर हैं, कार्य तंत्रिका नेटवर्क f पर लागू व्याख्या विधि e की मजबूती का मूल्यांकन करना है, जहां व्याख्या फीचर महत्व वेक्टर के रूप में प्रस्तुत की जाती है।
समान सटीकता लेकिन विभिन्न आर्किटेक्चर वाले तीन तंत्रिका नेटवर्क का उपयोग करके सत्यापन करता है, ROC/AUC विश्लेषण के माध्यम से मजबूती अनुमान की प्रभावशीलता का मूल्यांकन करता है।
पेपर XAI क्षेत्र के महत्वपूर्ण कार्यों का हवाला देता है, जिसमें LIME, SHAP जैसी शास्त्रीय विधियां, साथ ही व्याख्या मजबूती, विरोधी हमलों आदि में हाल के अग्रणी अनुसंधान शामिल हैं, जो इस अनुसंधान के लिए एक ठोस सैद्धांतिक आधार प्रदान करते हैं।