2025-11-20T00:01:14.681107

When Can You Trust Your Explanations? A Robustness Analysis on Feature Importances

Vascotto, Rodriguez, Bonaita et al.
Recent legislative regulations have underlined the need for accountable and transparent artificial intelligence systems and have contributed to a growing interest in the Explainable Artificial Intelligence (XAI) field. Nonetheless, the lack of standardized criteria to validate explanation methodologies remains a major obstacle to developing trustworthy systems. We address a crucial yet often overlooked aspect of XAI, the robustness of explanations, which plays a central role in ensuring trust in both the system and the provided explanation. To this end, we propose a novel approach to analyse the robustness of neural network explanations to non-adversarial perturbations, leveraging the manifold hypothesis to produce new perturbed datapoints that resemble the observed data distribution. We additionally present an ensemble method to aggregate various explanations, showing how merging explanations can be beneficial for both understanding the model's decision and evaluating the robustness. The aim of our work is to provide practitioners with a framework for evaluating the trustworthiness of model explanations. Experimental results on feature importances derived from neural networks applied to tabular datasets highlight the importance of robust explanations in practical applications.
academic

जब आप अपनी व्याख्याओं पर विश्वास कर सकते हैं? फीचर महत्व पर एक मजबूती विश्लेषण

बुनियादी जानकारी

  • पेपर आईडी: 2406.14349
  • शीर्षक: When Can You Trust Your Explanations? A Robustness Analysis on Feature Importances
  • लेखक: Ilaria Vascotto, Alex Rodriguez, Alessandro Bonaita, Luca Bortolussi
  • वर्गीकरण: cs.LG (मशीन लर्निंग)
  • प्रकाशन समय: जून 2024 (arXiv प्रीप्रिंट, अप्रैल 2025 को अपडेट किया गया)
  • पेपर लिंक: https://arxiv.org/abs/2406.14349

सारांश

कृत्रिम बुद्धिमत्ता विनियमन के निरंतर विकास के साथ, व्याख्यायोग्य कृत्रिम बुद्धिमत्ता (XAI) की मांग बढ़ रही है। हालांकि, व्याख्या विधियों के सत्यापन के लिए मानकीकृत मानदंडों की कमी विश्वसनीय प्रणालियों के विकास में मुख्य बाधा बनी हुई है। यह पेपर XAI में अक्सर अनदेखी किए जाने वाले लेकिन महत्वपूर्ण व्याख्या मजबूती समस्या को संबोधित करता है। यह तंत्रिका नेटवर्क व्याख्याओं की गैर-विरोधी व्यतिक्रमण के प्रति मजबूती का मूल्यांकन करने के लिए एक नई विश्लेषणात्मक विधि प्रस्तावित करता है। यह विधि मैनिफोल्ड परिकल्पना का उपयोग करके अवलोकन किए गए डेटा वितरण के अनुरूप व्यतिक्रमण डेटा बिंदु उत्पन्न करती है, और कई व्याख्याओं को एकत्रित करने के लिए एक समग्र विधि प्रस्तावित करती है, जो मॉडल निर्णयों को समझने और मजबूती का मूल्यांकन करने में व्याख्याओं को मिलाने के लाभ प्रदर्शित करती है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या की पृष्ठभूमि

  1. नियामक आवश्यकताएं: यूरोपीय संघ AI अधिनियम और GDPR जैसे विनियम AI प्रणालियों की पारदर्शिता और व्याख्यात्मकता के महत्व पर जोर देते हैं
  2. ब्लैक बॉक्स दुविधा: आधुनिक AI प्रणालियां कई मापदंडों के कारण ब्लैक बॉक्स प्रकृति की हैं, जिनमें पारदर्शिता की कमी है
  3. व्याख्या विधियों की अस्थिरता: LIME और SHAP जैसी मौजूदा XAI विधियों में अंतर्निहित अस्थिरता समस्याएं हैं
  4. मानकीकरण की कमी: व्याख्या विधियों को सत्यापित करने के लिए मानकीकृत दिशानिर्देशों की कमी है

अनुसंधान प्रेरणा

  • मजबूती मूल्यांकन: व्याख्या की मजबूती प्रणाली और व्याख्या की विश्वसनीयता सुनिश्चित करने का मूल तत्व है
  • व्यावहारिक आवश्यकता: व्यवसायियों को मॉडल व्याख्याओं की विश्वसनीयता का मूल्यांकन करने के लिए एक व्यावहारिक ढांचा प्रदान करना
  • व्याख्या विसंगति समस्या: एक ही डेटा बिंदु पर लागू कई व्याख्या विधियों द्वारा उत्पन्न विरोधाभासी परिणामों को हल करना

मुख्य योगदान

  1. मजबूती अनुमानक: एक आदर्श मजबूती अनुमानक को संतुष्ट करने वाले गुणों का एक सेट प्रस्तावित करता है, और साबित करता है कि प्रस्तावित विधि सभी इन गुणों को संतुष्ट करती है
  2. व्याख्या समग्र विधि: तंत्रिका नेटवर्क व्याख्याओं की विसंगति समस्या के लिए, फीचर रैंकिंग पर आधारित एक व्याख्या समग्र विधि प्रस्तावित करता है
  3. गैर-विरोधी व्यतिक्रमण ढांचा: गैर-विरोधी व्यतिक्रमण के प्रति व्याख्या की मजबूती का परीक्षण करने के लिए एक ढांचा पेश करता है, और व्यावहारिक अनुप्रयोगों में इसकी विश्वसनीयता का मूल्यांकन करता है
  4. सत्यापन मूल्यांकन विधि: मजबूती अनुमान सत्यापन के लिए एक नई मूल्यांकन विधि प्रस्तावित करता है, जो वास्तविक मानदंड की कमी को संबोधित करता है

विधि विवरण

कार्य परिभाषा

तालिका डेटासेट D = (X,y) दिया गया है, जिसमें N डेटा बिंदु और m फीचर हैं, कार्य तंत्रिका नेटवर्क f पर लागू व्याख्या विधि e की मजबूती का मूल्यांकन करना है, जहां व्याख्या फीचर महत्व वेक्टर के रूप में प्रस्तुत की जाती है।

मजबूती अनुमानक

मुख्य परिभाषा

मजबूती को इनपुट संशोधित होने पर सुसंगत व्याख्या प्रदान करने की व्याख्या विधि की क्षमता के रूप में परिभाषित किया गया है:

x → x̃, e(x) → e(x̃) ⟹ r(x,e) = g(x,x̃,e)

छह मुख्य गुण

पेपर मजबूती अनुमानक को संतुष्ट करने वाले छह प्रमुख गुणों का प्रस्ताव देता है:

  1. गुण 1: मजबूती व्यक्तिगत मजबूती की अपेक्षा है
  2. गुण 2: निकटवर्ती बिंदुओं की मजबूती स्कोर समान हैं
  3. गुण 3: अनुमान में अनिश्चितता शामिल है
  4. गुण 4: मैनिफोल्ड पर व्यतिक्रमण मैनिफोल्ड के बाहर व्यतिक्रमण की तुलना में उच्च मजबूती रखते हैं
  5. गुण 5: एकत्रित व्याख्याकारों की मजबूती सीमाबद्ध है
  6. गुण 6: समकक्ष मॉडलों की व्याख्याओं में समान मजबूती है

मजबूती गणना

मजबूती की गणना के लिए Spearman रैंक सहसंबंध गुणांक का उपयोग करता है:

R̂(xi,Ni,e,f) = (1/|Ni|) ∑(x̃i∈Ni) ρ(e(xi,f), e(x̃i,f))

पड़ोस निर्माण तंत्र

यादृच्छिक पड़ोस (NR)

  • संख्यात्मक चर: गाऊसी श्वेत शोर जोड़ना
  • श्रेणीबद्ध चर: यादृच्छिक फ्लिप करना

केंद्र-बिंदु आधारित पड़ोस (NM)

मैनिफोल्ड परिकल्पना का उपयोग करके अधिक परिष्कृत तंत्र:

  1. सत्यापन सेट पर k-केंद्र बिंदु क्लस्टरिंग करना
  2. प्रत्येक क्लस्टर केंद्र के लिए kM निकटतम केंद्र पड़ोसी खोजना
  3. बीटा वितरण का उपयोग करके प्रक्षेप व्यतिक्रमण करना

समग्र विधि

फीचर रैंकिंग पर आधारित भारित औसत समग्र प्रस्तावित करता है:

a(i,j)ens = (∑L l=1 r(i,j)l · w(i,j)l) / (∑L l=1 w(i,j)l) · (1 + λn̄(i,j))

जहां चिन्ह असंगति के लिए दंड अवधि शामिल है, भार योजना फीचर महत्व के सापेक्ष आकार पर विचार करती है।

विश्वसनीयता मूल्यांकन ढांचा

स्थानीय मजबूती की भविष्यवाणी करने के लिए k निकटतम पड़ोसी प्रतिगमन का उपयोग करता है, डेटा बिंदुओं को तीन श्रेणियों में विभाजित करता है:

  1. मजबूत बिंदु: R̂(xi) ≥ rth और Rknn(xi) ≥ rth
  2. अनिश्चित बिंदु: R̂(xi) ≥ rth लेकिन Rknn(xi) < rth
  3. गैर-मजबूत बिंदु: R̂(xi) < rth

प्रायोगिक सेटअप

डेटासेट

8 सार्वजनिक तालिका डेटासेट का उपयोग करता है:

  • खिलौना डेटासेट: beans, cancer, mushroom, white wine
  • वास्तविक डेटासेट: adult, bank marketing, heloc, ocean

XAI विधियां

तंत्रिका नेटवर्क-विशिष्ट विधियों पर केंद्रित:

  • DeepLIFT: संदर्भ बिंदु अंतर के आधार पर फीचर महत्व की गणना
  • Integrated Gradients: आधार से इनपुट तक के पथ के साथ ग्रेडिएंट का समाकलन
  • Layer-wise Relevance Propagation (LRP): बैकप्रोपेगेशन-आधारित प्रासंगिकता प्रसार

सत्यापन रणनीति

समान सटीकता लेकिन विभिन्न आर्किटेक्चर वाले तीन तंत्रिका नेटवर्क का उपयोग करके सत्यापन करता है, ROC/AUC विश्लेषण के माध्यम से मजबूती अनुमान की प्रभावशीलता का मूल्यांकन करता है।

प्रायोगिक परिणाम

मुख्य निष्कर्ष

पड़ोस निर्माण प्रभाव

  • केंद्र-बिंदु आधारित पड़ोस (NM) यादृच्छिक पड़ोस (NR) की तुलना में उच्च मजबूती स्कोर उत्पन्न करता है
  • NM विधि द्वारा उत्पन्न व्यतिक्रमण डेटा मैनिफोल्ड के अनुरूप अधिक हैं, गुण 4 को सत्यापित करता है

समग्र विधि के लाभ

  • एकत्रित व्याख्याओं की मजबूती व्यक्तिगत विधियों की मजबूती का रूढ़िवादी अनुमान है
  • व्यक्तिगत विधियों की मजबूती और फीचर-स्तर की सुसंगति पर विचार कर सकता है
  • सरल औसत विधि की तुलना में अधिक विश्वसनीय व्याख्या प्रदान करता है

विश्वसनीयता वर्गीकरण परिणाम

rth = 0.80 थ्रेशहोल्ड पर:

  • अधिकांश डेटासेट में मजबूत बिंदु बहुसंख्यक हैं
  • अनिश्चित बिंदु और गैर-मजबूत बिंदु का अनुपात नगण्य नहीं है
  • mushroom डेटासेट एक विशेष मामला प्रस्तुत करता है क्योंकि तीनों मॉडल 100% सटीकता प्राप्त करते हैं

सत्यापन विश्लेषण

ROC/AUC विश्लेषण दर्शाता है:

  • केंद्र-बिंदु पड़ोस के साथ समग्र विधि अधिकांश डेटासेट पर सर्वश्रेष्ठ प्रदर्शन करती है
  • गैर-मजबूत बिंदुओं में मॉडल भविष्यवाणी असंगति का अनुपात मजबूत बिंदुओं की तुलना में व्यापक रूप से अधिक है
  • मजबूती सत्यापन संकेतक के रूप में मॉडल भविष्यवाणी सुसंगति का उपयोग करने की परिकल्पना का समर्थन करता है

संबंधित कार्य

XAI विधियों की सीमाएं

  • LIME: पड़ोस निर्माण की यादृच्छिकता के कारण स्वाभाविक रूप से अस्थिर है
  • SHAP: फीचर सहसंबंध, नमूनाकरण परिवर्तनशीलता और डेटा वितरण बदलाव से प्रभावित है
  • ग्रेडिएंट विधियां: हालांकि व्यतिक्रमण विधियों की तुलना में अधिक मजबूत हैं, फिर भी अस्थिरता मौजूद है

मजबूती मूल्यांकन विधियां

  • विरोधी हमले: व्याख्याओं को दुर्भावनापूर्ण रूप से हेरफेर करने वाले हमलों पर ध्यान केंद्रित करता है
  • यादृच्छिक व्यतिक्रमण: अंतर्निहित कमजोरियों का मूल्यांकन करता है
  • मॉडल हेरफेर: नुकसान फ़ंक्शन आदि को संशोधित करके व्याख्याओं को प्रभावित करता है

मौजूदा माप विधियां

रैंक सहसंबंध, top-k प्रतिच्छेदन, नियम मिलान आदि शामिल हैं, लेकिन एक एकीकृत सीमाबद्ध माप मानदंड की कमी है।

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

  1. प्रस्तावित मजबूती अनुमानक सभी सैद्धांतिक गुणों को संतुष्ट करता है, 0,1 श्रेणी में एक सीमाबद्ध माप प्रदान करता है
  2. मैनिफोल्ड-आधारित पड़ोस निर्माण यादृच्छिक व्यतिक्रमण की तुलना में वास्तविक मजबूती का मूल्यांकन करने के लिए अधिक उपयुक्त है
  3. समग्र विधि व्याख्या विसंगति समस्या को प्रभावी ढंग से संभाल सकती है, अधिक विश्वसनीय व्याख्या प्रदान करती है
  4. ढांचा अनिश्चित क्षेत्रों में डेटा बिंदुओं की पहचान कर सकता है, व्यावहारिक अनुप्रयोग की विश्वसनीयता में सुधार करता है

सीमाएं

  1. कम्प्यूटेशनल जटिलता: प्रत्येक डेटा बिंदु, प्रत्येक व्यतिक्रमण, प्रत्येक विधि के लिए नेटवर्क ट्रांसफर की आवश्यकता है
  2. पैरामीटर संवेदनशीलता: पड़ोस निर्माण और थ्रेशहोल्ड चयन को सावधानीपूर्वक ट्यून करने की आवश्यकता है
  3. सत्यापन धारणा: मजबूती के प्रॉक्सी संकेतक के रूप में मॉडल भविष्यवाणी सुसंगति की धारणा पर निर्भर करता है, जो हमेशा सत्य नहीं हो सकती है

भविष्य की दिशाएं

  1. मॉडल सामान्यीकरण: वृक्ष-आधारित मॉडल आदि अन्य मशीन लर्निंग मॉडलों तक विस्तार करना
  2. विरोधी मजबूती: विरोधी हमलों के साथ संबंध और रक्षा क्षमता का अन्वेषण करना
  3. वर्गीकरणकर्ता मजबूती: व्याख्याओं का उपयोग करके वर्गीकरणकर्ता मजबूती में सुधार कैसे करें इसका अन्वेषण करना

गहन मूल्यांकन

शक्तियां

  1. सैद्धांतिक कठोरता: छह स्पष्ट रूप से परिभाषित गुणों के साथ मजबूती अनुमानक के लिए एक व्यापक सैद्धांतिक ढांचा प्रस्तावित करता है
  2. विधि नवाचार: मैनिफोल्ड परिकल्पना-आधारित पड़ोस निर्माण और चिन्ह सुसंगति पर विचार करने वाली समग्र विधि नवीन है
  3. व्यावहारिक मूल्य: व्यावहारिक अनुप्रयोगों के लिए मार्गदर्शन के साथ विश्वसनीयता मूल्यांकन की एक पूर्ण प्रक्रिया प्रदान करता है
  4. व्यापक प्रयोग: कई डेटासेट पर पर्याप्त प्रयोग, ablation अध्ययन और सत्यापन विश्लेषण सहित

कमियां

  1. कम्प्यूटेशनल ओवरहेड: विधि की कम्प्यूटेशनल जटिलता अधिक है, जो बड़े पैमाने पर अनुप्रयोग को सीमित कर सकती है
  2. पैरामीटर निर्भरता: कई हाइपरपैरामीटर को ट्यून करने की आवश्यकता है, विधि की जटिलता बढ़ाता है
  3. सत्यापन सीमाएं: वास्तविक मानदंड की कमी के साथ सत्यापन विधि में अभी भी सुधार की गुंजाइश है
  4. लागू श्रेणी: मुख्य रूप से तालिका डेटा और तंत्रिका नेटवर्क पर केंद्रित है, सामान्यीकरण क्षमता सत्यापन की प्रतीक्षा में है

प्रभाव

  1. शैक्षणिक योगदान: XAI मजबूती मूल्यांकन के लिए एक व्यवस्थित सैद्धांतिक और विधि ढांचा प्रदान करता है
  2. व्यावहारिक मार्गदर्शन: व्यवसायियों को व्याख्या विश्वसनीयता का मूल्यांकन करने के लिए विशिष्ट उपकरण प्रदान करता है
  3. मानकीकरण प्रगति: XAI विधि मूल्यांकन के लिए मानकीकृत मानदंड स्थापित करने में सहायता करता है

लागू परिदृश्य

  • उच्च जोखिम वाले AI अनुप्रयोग परिदृश्यों में व्याख्या सत्यापन
  • कई XAI विधियों की तुलना और चयन की आवश्यकता वाले अवसर
  • नियामक वातावरण में व्याख्या विश्वसनीयता के लिए कठोर आवश्यकताएं
  • तालिका डेटा की तंत्रिका नेटवर्क व्याख्या विश्लेषण

संदर्भ

पेपर XAI क्षेत्र के महत्वपूर्ण कार्यों का हवाला देता है, जिसमें LIME, SHAP जैसी शास्त्रीय विधियां, साथ ही व्याख्या मजबूती, विरोधी हमलों आदि में हाल के अग्रणी अनुसंधान शामिल हैं, जो इस अनुसंधान के लिए एक ठोस सैद्धांतिक आधार प्रदान करते हैं।