2025-11-19T09:40:14.113488

Beyond single-model XAI: aggregating multi-model explanations for enhanced trustworthiness

Vascotto, Rodriguez, Bonaita et al.
The use of Artificial Intelligence (AI) models in real-world and high-risk applications has intensified the discussion about their trustworthiness and ethical usage, from both a technical and a legislative perspective. The field of eXplainable Artificial Intelligence (XAI) addresses this challenge by proposing explanations that bring to light the decision-making processes of complex black-box models. Despite being an essential property, the robustness of explanations is often an overlooked aspect during development: only robust explanation methods can increase the trust in the system as a whole. This paper investigates the role of robustness through the usage of a feature importance aggregation derived from multiple models ($k$-nearest neighbours, random forest and neural networks). Preliminary results showcase the potential in increasing the trustworthiness of the application, while leveraging multiple model's predictive power.
academic

एकल-मॉडल XAI से परे: बेहतर विश्वसनीयता के लिए बहु-मॉडल व्याख्याओं को एकत्रित करना

मूल जानकारी

  • पेपर ID: 2510.11164
  • शीर्षक: Beyond single-model XAI: aggregating multi-model explanations for enhanced trustworthiness
  • लेखक: Ilaria Vascotto, Alex Rodriguez, Alessandro Bonaita, Luca Bortolussi
  • वर्गीकरण: cs.LG (मशीन लर्निंग)
  • प्रकाशन समय/सम्मेलन: TRUST-AI: The European Workshop on Trustworthy AI (ECAI 2025)
  • पेपर लिंक: https://arxiv.org/abs/2510.11164

सारांश

जैसे-जैसे कृत्रिम बुद्धिमत्ता मॉडल वास्तविक दुनिया के उच्च-जोखिम अनुप्रयोगों में व्यापक रूप से उपयोग किए जा रहे हैं, उनकी विश्वसनीयता और नैतिक उपयोग के मुद्दे तकनीकी और विधायी दोनों दृष्टिकोणों से बढ़ती हुई ध्यान आकर्षित कर रहे हैं। व्याख्यायोग्य कृत्रिम बुद्धिमत्ता (XAI) क्षेत्र जटिल ब्लैक-बॉक्स मॉडल के निर्णय प्रक्रिया को प्रकट करने के लिए व्याख्याएं प्रदान करके इस चुनौती का समाधान करता है। हालांकि मजबूती एक महत्वपूर्ण विशेषता है, लेकिन विकास प्रक्रिया में इसे अक्सर नजरअंदाज किया जाता है: केवल मजबूत व्याख्या विधियां ही संपूर्ण प्रणाली में विश्वास बढ़ा सकती हैं। यह पेपर कई मॉडल (k-निकटतम पड़ोसी, यादृच्छिक वन और तंत्रिका नेटवर्क) से एकत्रित विशेषता महत्व का उपयोग करके मजबूती की भूमिका की जांच करता है। प्रारंभिक परिणाम कई मॉडल की भविष्यवाणी क्षमता का उपयोग करते हुए अनुप्रयोग विश्वसनीयता में सुधार की संभावना प्रदर्शित करते हैं।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

यह अनुसंधान मौजूदा XAI विधियों की दो मुख्य कमियों को संबोधित करता है:

  1. व्याख्या मजबूती की कमी: LIME और SHAP जैसी लोकप्रिय व्याख्या विधियों को कई अध्ययनों में मजबूती की कमी साबित किया गया है, फिर भी उच्च-जोखिम परिदृश्यों में व्यापक रूप से लागू किए जाते हैं
  2. व्याख्या विसंगति समस्या: जब एक ही उदाहरण पर कई व्याख्या विधियां लागू की जाती हैं तो परस्पर विरोधाभासी व्याख्याएं उत्पन्न होती हैं, व्याख्या के लिए कोई सत्य मानदंड न होने के कारण सर्वोत्तम विधि का चयन नहीं किया जा सकता

महत्व

GDPR और AI अधिनियम जैसे विधायी आवश्यकताओं के साथ जो मॉडल पारदर्शिता की मांग करते हैं, व्याख्या की विश्वसनीयता महत्वपूर्ण हो गई है। केवल व्याख्याओं में विश्वास के माध्यम से ही मॉडल में विश्वास स्थापित किया जा सकता है, जो उच्च-जोखिम अनुप्रयोगों में विशेष रूप से महत्वपूर्ण है।

मौजूदा विधियों की सीमाएं

  • LIME और SHAP जैसी मुख्यधारा की विधियों में मजबूती की समस्याएं हैं, समान इनपुट के तहत असंगत व्याख्याएं उत्पन्न करती हैं
  • एकल मॉडल व्याख्या विधियां कई मॉडल की भविष्यवाणी क्षमता का पूरी तरह से उपयोग नहीं कर सकती हैं
  • विभिन्न मॉडल के बीच व्याख्या विसंगति को संभालने के लिए प्रभावी व्याख्या एकत्रीकरण रणनीति की कमी है

अनुसंधान प्रेरणा

तंत्रिका नेटवर्क समूहों की व्याख्या में पिछले काम के आधार पर, यह पेपर विधि को विभिन्न श्रेणियों के मॉडल तक विस्तारित करने का प्रस्ताव करता है, जिसका उद्देश्य विभिन्न निर्णय प्रक्रियाओं की व्याख्याओं को एकत्रित करके प्रणाली की समग्र विश्वसनीयता में सुधार करना है।

मुख्य योगदान

  1. दो नई विशेषता आरोपण विधियां प्रस्तावित की गईं:
    • k-निकटतम पड़ोसी मॉडल के लिए दूरी-आधारित विशेषता महत्व विधि
    • यादृच्छिक वन के लिए नोड अशुद्धता-आधारित विशेषता आरोपण विधि
  2. बहु-मॉडल व्याख्या एकत्रीकरण ढांचा विकसित किया गया:
    • k-NN, यादृच्छिक वन और तंत्रिका नेटवर्क की व्याख्याओं को एकीकृत करना
    • विशेषता महत्व एकत्रीकरण के लिए अंकगणितीय माध्य के माध्यम से
  3. मजबूती मूल्यांकन तंत्र पेश किया गया:
    • केंद्र-बिंदु-आधारित पड़ोस पीढ़ी विधि का उपयोग करना
    • Spearman सहसंबंध गुणांक के माध्यम से व्याख्या मजबूती को परिमाणित करना
  4. मॉडल सामंजस्य और व्याख्या मजबूती के बीच संबंध को सत्यापित किया:
    • साबित किया कि बहु-मॉडल भविष्यवाणी सामंजस्य व्याख्या विश्वसनीयता के संकेतक के रूप में काम कर सकता है

विधि विवरण

कार्य परिभाषा

यह पेपर सारणीबद्ध डेटा के द्विआधारी वर्गीकरण कार्य पर केंद्रित है, जिसका लक्ष्य प्रत्येक भविष्यवाणी उदाहरण के लिए विश्वसनीय विशेषता महत्व व्याख्याएं उत्पन्न करना है। इनपुट सारणीबद्ध डेटा उदाहरण है, आउटपुट मानकीकृत विशेषता आरोपण वेक्टर है।

मॉडल आर्किटेक्चर

k-निकटतम पड़ोसी व्याख्या विधि

एल्गोरिथ्म k-NN की दूरी तर्क तंत्र पर आधारित है:

  1. भविष्यवाणी बिंदु x के लिए, क्रमशः भविष्यवाणी वर्ग c और विरोधी वर्ग ¬c से k' निकटतम पड़ोसी चुनें
  2. प्रत्येक पड़ोसी समूह तक औसत विशेषता दूरी D_c और D_¬c की गणना करें
  3. विशेषता महत्व को परिभाषित करें: e = D_¬c - D_c
  4. तुलनीयता सुनिश्चित करने के लिए इकाई वेक्टर में मानकीकृत करें

यादृच्छिक वन व्याख्या विधि

निर्णय पथ में नोड अशुद्धता पर आधारित:

  1. वन में प्रत्येक पेड़ के लिए, डेटा बिंदु के निर्णय पथ को ट्रैक करें
  2. एकल पेड़ की भविष्यवाणी वन की भविष्यवाणी के साथ सामंजस्यपूर्ण है या नहीं इसके आधार पर, नोड अशुद्धता को क्रमशः e_c या e_¬c में जमा करें
  3. अंतिम व्याख्या: e = (p_¬c + ε) × e_c - p_c × e_¬c
  4. जहां p_c और p_¬c भविष्यवाणी संभावनाएं हैं, ε=0.01 शून्य मान से बचने के लिए

एकत्रीकरण रणनीति

विशेषता-स्तरीय अंकगणितीय माध्य का उपयोग करें:

a_agg = (1/L) × Σ(l=1 to L) a_l

जहां L=3 मॉडल की संख्या है। जब मॉडल भविष्यवाणियां असंगत हों, तो विसंगत मॉडल की व्याख्याओं को चिन्ह में उलट दें ताकि व्याख्या एक ही वर्ग की ओर इशारा करे।

मजबूती मूल्यांकन

पड़ोस पीढ़ी

केंद्र-बिंदु-आधारित विधि का उपयोग करें:

  1. सत्यापन सेट पर k-medoid क्लस्टरिंग करें
  2. प्रत्येक डेटा बिंदु के लिए, संबंधित क्लस्टर केंद्र और इसके k_M निकटतम केंद्र बिंदु खोजें
  3. Beta वितरण और संभाव्य प्रतिस्थापन के माध्यम से डेटा मैनिफोल्ड के अनुरूप विक्षोभ उत्पन्न करें

मजबूती गणना

Spearman रैंक सहसंबंध गुणांक का उपयोग करें:

R̂(x,N,e,f) = (1/|N|) × Σ(x̃∈N) ρ(e(x), e(x̃))

जहां N भविष्यवाणी सामंजस्य बनाए रखने वाले पड़ोस बिंदुओं का समुच्चय है।

प्रयोगात्मक सेटअप

डेटासेट

द्विआधारी वर्गीकरण कार्य के लिए 5 सार्वजनिक सारणीबद्ध डेटासेट का उपयोग किया गया:

  • Adult: 36,177/8,045/1,000 (प्रशिक्षण/सत्यापन/परीक्षण), 5 संख्यात्मक विशेषताएं, 7 श्रेणीबद्ध विशेषताएं
  • Bank: 36,168/8,043/1,000, 5 संख्यात्मक विशेषताएं, 9 श्रेणीबद्ध विशेषताएं
  • HELOC: 8,367/1,592/500, 14 संख्यात्मक विशेषताएं, 2 श्रेणीबद्ध विशेषताएं
  • Cancer: 397/121/50, 15 संख्यात्मक विशेषताएं, 0 श्रेणीबद्ध विशेषताएं
  • White Wine: 3,918/780/200, 9 संख्यात्मक विशेषताएं, 0 श्रेणीबद्ध विशेषताएं

मूल्यांकन मेट्रिक्स

  • मजबूती स्कोर: Spearman सहसंबंध गुणांक के औसत पर आधारित
  • पड़ोस आकार: फ़िल्टर किए गए विक्षोभ बिंदुओं का अनुपात
  • AUC मान: मॉडल सामंजस्य के आधार पर ROC वक्र के तहत क्षेत्र

तुलना विधियां

  • k-NN कस्टम व्याख्या विधि
  • यादृच्छिक वन कस्टम व्याख्या विधि
  • तंत्रिका नेटवर्क के लिए DeepLIFT विधि
  • तीनों विधियों का एकत्रीकरण परिणाम
  • परिशिष्ट में LIME, SHAP के साथ तुलना

कार्यान्वयन विवरण

  • k-NN: k=15 (adult, bank), k=5 (अन्य)
  • यादृच्छिक वन: 25 आधार शिक्षार्थी
  • तंत्रिका नेटवर्क: मानक बहु-परत परसेप्ट्रॉन
  • पड़ोस पीढ़ी: k_M=5, α=0.05, α_cat=0.05
  • लक्ष्य पड़ोस प्रतिधारण दर: ≥95%

प्रयोगात्मक परिणाम

मुख्य परिणाम

मॉडल प्रदर्शन

सभी मॉडल विभिन्न डेटासेट पर 80% से अधिक सटीकता प्राप्त करते हैं (HELOC पर k-NN को छोड़कर जो 75.51% है)। तंत्रिका नेटवर्क जटिल डेटासेट पर सर्वश्रेष्ठ प्रदर्शन करता है, यादृच्छिक वन सरल डेटासेट पर सर्वश्रेष्ठ प्रदर्शन करता है।

मजबूती तुलना

औसत मजबूती स्कोर (%):

डेटासेटk-NNRFNNएकत्रीकरण
Adult61.1288.6785.0374.58
Bank52.2773.5278.7465.75
HELOC71.0180.5684.2377.92
Cancer83.3181.0798.4084.93
Wine69.5566.6092.9666.74

परिणाम दर्शाते हैं:

  • k-NN विधि की मजबूती सबसे कम है, जो इसकी दूर के पड़ोसियों पर निर्भरता की विशेषता के अनुरूप है
  • तंत्रिका नेटवर्क विधि की मजबूती सबसे अधिक है
  • एकत्रीकरण विधि की मजबूती इसके घटक विधियों के बीच है, जो सैद्धांतिक अपेक्षा के अनुरूप है

मॉडल सामंजस्य विश्लेषण

मॉडल भविष्यवाणी सामंजस्य और पड़ोस आकार के बीच संबंध ने परिकल्पना को सत्यापित किया: जब तीनों मॉडल सामंजस्यपूर्ण भविष्यवाणी करते हैं, तो आमतौर पर बड़े पड़ोस आकार प्राप्त होते हैं, जो इंगित करता है कि इस क्षेत्र में बेहतर व्याख्या मजबूती है।

सत्यापन मूल्यांकन

ROC विश्लेषण के माध्यम से मॉडल सामंजस्य और व्याख्या मजबूती के बीच संबंध को सत्यापित करें:

AUC मान तुलना:

डेटासेटk-NNRFNNएकत्रीकरण
Adult0.44800.54170.69700.5901
Bank0.41280.62570.38610.6097
HELOC0.65730.60490.67480.6095
Cancer0.83970.92120.71200.9212
Wine0.50880.46980.04690.4951

एकत्रीकरण विधि अधिकांश मामलों में अच्छा प्रदर्शन करती है, लेकिन k-NN विधि कुछ परिदृश्यों में खराब प्रदर्शन करती है।

LIME/SHAP के साथ तुलना

परिशिष्ट परिणाम दर्शाते हैं कि LIME और SHAP के मजबूती स्कोर 0.5 थ्रेशोल्ड से बहुत कम हैं, जो साहित्य में इन विधियों की अस्थिरता के बारे में निष्कर्षों को सत्यापित करता है, उन्हें बाहर करने के निर्णय का समर्थन करता है।

संबंधित कार्य

XAI क्षेत्र विकास

  • स्थानीय व्याख्या विधियां: LIME, SHAP जैसी मॉडल-अज्ञेयवादी विधियां
  • तंत्रिका नेटवर्क-विशिष्ट विधियां: DeepLIFT, Integrated Gradients, LRP आदि
  • मजबूती अनुसंधान: व्याख्या विधियों की स्थिरता के मूल्यांकन और सुधार के लिए

व्याख्या एकत्रीकरण अनुसंधान

  • पिछले कार्य मुख्य रूप से एकल मॉडल प्रकार के कई उदाहरणों पर केंद्रित थे
  • यह पेपर विभिन्न मॉडल प्रकारों की व्याख्या एकत्रीकरण तक विस्तारित करता है

विधायी-संचालित आवश्यकताएं

  • GDPR का "व्याख्या का अधिकार" आवश्यकता
  • EU AI अधिनियम उच्च-जोखिम अनुप्रयोगों के लिए पारदर्शिता आवश्यकता

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

  1. बहु-मॉडल एकत्रीकरण व्यवहार्यता: विभिन्न प्रकार के मॉडल की व्याख्याओं को प्रभावी ढंग से एकत्रित किया जा सकता है
  2. मजबूती और सामंजस्य संबंध: मॉडल भविष्यवाणी सामंजस्य व्याख्या विश्वसनीयता के संकेतक के रूप में काम कर सकता है
  3. रूढ़िवादी व्याख्या रणनीति: एकत्रीकरण विधि एक रूढ़िवादी लेकिन विश्वसनीय व्याख्या रणनीति प्रदान करती है

सीमाएं

  1. सरल एकत्रीकरण विधि: वर्तमान में अंकगणितीय माध्य का उपयोग किया जाता है, जटिल विसंगति पैटर्न को संभाल नहीं सकता
  2. k-NN विधि निर्भरता: हाइपरपैरामीटर k' के प्रति संवेदनशील, उच्च परिवर्तनशीलता
  3. मूल्यांकन पूर्णता: वास्तविक अनुप्रयोग परिदृश्यों में अधिक व्यापक सत्यापन की आवश्यकता है
  4. मॉडल प्रकार सीमा: केवल तीन मॉडल प्रकारों का परीक्षण किया गया

भविष्य की दिशाएं

लेखकों ने स्पष्ट रूप से चार सुधार दिशाएं प्रस्तावित की हैं:

  1. चरम विसंगति स्थितियों को संभालने के लिए अधिक जटिल एकत्रीकरण रणनीतियां विकसित करना
  2. k-NN व्याख्या विधि में सुधार करके हाइपरपैरामीटर निर्भरता को कम करना
  3. वास्तविक उपयोग मामलों में अधिक व्यापक सत्यापन मूल्यांकन करना
  4. अन्य मॉडल प्रकारों और XAI विधियों तक विस्तारित करना

गहन मूल्यांकन

शक्तियां

  1. समस्या महत्व: XAI क्षेत्र की मुख्य समस्या—व्याख्या मजबूती और विश्वसनीयता को संबोधित करता है
  2. विधि नवीनता:
    • पहली बार मॉडल प्रकारों के बीच व्याख्या एकत्रीकरण प्रस्तावित
    • नई k-NN और RF विशेषता आरोपण विधियां
    • व्यवस्थित मजबूती मूल्यांकन ढांचा
  3. प्रयोग पूर्णता:
    • कई डेटासेट सत्यापन
    • पूर्ण ablation विश्लेषण
    • मुख्यधारा विधियों के साथ तुलना
  4. सैद्धांतिक आधार: मॉडल सामंजस्य और व्याख्या मजबूती के बीच सैद्धांतिक संबंध स्थापित करता है

कमियां

  1. विधि सीमाएं:
    • एकत्रीकरण रणनीति बहुत सरल है, महत्वपूर्ण जानकारी खो सकती है
    • k-NN विधि का सैद्धांतिक आधार अपेक्षाकृत कमजोर है
    • केवल द्विआधारी वर्गीकरण कार्य के लिए लागू
  2. प्रयोगात्मक सेटअप:
    • डेटासेट आकार अपेक्षाकृत छोटा है
    • वास्तविक उच्च-जोखिम अनुप्रयोग परिदृश्यों में सत्यापन की कमी
    • कम्प्यूटेशनल लागत विश्लेषण अपर्याप्त है
  3. विश्लेषण गहराई:
    • एकत्रीकरण विधि विफलता मामलों का विश्लेषण पर्याप्त नहीं है
    • विभिन्न मॉडल प्रकारों के योगदान की मात्रा की कमी

प्रभाव

  1. शैक्षणिक योगदान: XAI मजबूती अनुसंधान के लिए नई दिशा प्रदान करता है, विशेषकर बहु-मॉडल एकत्रीकरण दिशा में
  2. व्यावहारिक मूल्य: उच्च-जोखिम अनुप्रयोगों में विश्वसनीय AI के लिए व्यावहारिक ढांचा प्रदान करता है
  3. पुनरुत्पादनीयता: विधि विवरण स्पष्ट है, एल्गोरिथ्म कार्यान्वयन अपेक्षाकृत सरल है

लागू परिदृश्य

  • उच्च-जोखिम निर्णय परिदृश्य: वित्त, चिकित्सा आदि जहां व्याख्यायोग्य और विश्वसनीय AI की आवश्यकता है
  • नियामक अनुपालन: GDPR जैसी आवश्यकताओं को पूरा करने वाले अनुप्रयोग
  • मॉडल ऑडिट: AI प्रणाली की विश्वसनीयता का मूल्यांकन करने वाले परिदृश्य
  • अनुसंधान मंच: XAI मजबूती अनुसंधान के लिए आधार ढांचा

संदर्भ

पेपर XAI क्षेत्र के महत्वपूर्ण साहित्य को उद्धृत करता है, जिसमें शामिल हैं:

  • LIME और SHAP के मूल पेपर और उनकी मजबूती की आलोचना
  • DeepLIFT, Integrated Gradients आदि तंत्रिका नेटवर्क व्याख्या विधियां
  • संबंधित मजबूती मूल्यांकन और व्याख्या एकत्रीकरण अनुसंधान
  • GDPR और EU AI अधिनियम जैसे विधायी दस्तावेज

समग्र मूल्यांकन: यह XAI मजबूती अनुसंधान दिशा में महत्वपूर्ण योगदान वाला एक पेपर है। हालांकि विधि अपेक्षाकृत सरल है, लेकिन यह व्यावहारिक रूप से महत्वपूर्ण समस्या को हल करता है और विश्वसनीय AI के विकास के लिए मूल्यवान उपकरण प्रदान करता है। पेपर का मुख्य मूल्य मॉडल प्रकारों के बीच व्याख्या एकत्रीकरण अनुसंधान दिशा की स्थापना में है और एक व्यवस्थित मूल्यांकन ढांचा प्रदान करता है। भविष्य के कार्य की दिशाएं स्पष्ट हैं, जो इस क्षेत्र के आगे विकास के लिए आधार तैयार करती हैं।