In this growing age of data and technology, large black-box models are becoming the norm due to their ability to handle vast amounts of data and learn incredibly complex input-output relationships. The deficiency of these methods, however, is their inability to explain the prediction process, making them untrustworthy and their use precarious in high-stakes situations. SHapley Additive exPlanations (SHAP) analysis is an explainable AI method growing in popularity for its ability to explain model predictions in terms of the original features. For each sample and feature in the data set, we associate a SHAP value that quantifies the contribution of that feature to the prediction of that sample. Clustering these SHAP values can provide insight into the data by grouping samples that not only received the same prediction, but received the same prediction for similar reasons. In doing so, we map the various pathways through which distinct samples arrive at the same prediction. To showcase this methodology, we present a simulated experiment in addition to a case study in Alzheimer's disease using data from the Alzheimer's Disease Neuroimaging Initiative (ADNI) database. We also present a novel generalization of the waterfall plot for multi-classification.
- पेपर ID: 2510.08737
- शीर्षक: SHAP-आधारित पर्यवेक्षित क्लस्टरिंग नमूना वर्गीकरण और सामान्यीकृत वाटरफॉल प्लॉट के लिए
- लेखक: Justin Lin (इंडियाना विश्वविद्यालय गणित विभाग), Julia Fukuyama (इंडियाना विश्वविद्यालय सांख्यिकी विभाग)
- वर्गीकरण: cs.LG, stat.ME, stat.ML
- प्रकाशन समय: 9 अक्टूबर 2025 (arXiv प्रीप्रिंट)
- पेपर लिंक: https://arxiv.org/abs/2510.08737v1
डेटा और तकनीकी विकास के तेजी से विकसित होने वाले युग में, बड़े ब्लैक-बॉक्स मॉडल विशाल डेटा को संभालने और जटिल इनपुट-आउटपुट संबंधों को सीखने की क्षमता के कारण मुख्यधारा बन गए हैं। हालांकि, इन विधियों की कमी यह है कि वे पूर्वानुमान प्रक्रिया को समझा नहीं सकते, जिससे उच्च-जोखिम परिस्थितियों में उनका अनुप्रयोग अविश्वसनीय और खतरनाक हो जाता है। SHAP (SHapley Additive exPlanations) विश्लेषण एक व्याख्यायोग्य AI विधि के रूप में, मूल विशेषताओं के साथ मॉडल पूर्वानुमानों को समझाने की क्षमता के कारण तेजी से लोकप्रिय हो रहा है। यह पेपर SHAP मानों पर क्लस्टरिंग विश्लेषण का प्रस्ताव करता है, जो न केवल समान पूर्वानुमान प्राप्त करने वाले नमूनों को समूहित करता है, बल्कि अधिक महत्वपूर्ण रूप से समान कारणों से समान पूर्वानुमान प्राप्त करने वाले नमूनों को समूहित करता है। सिमुलेशन प्रयोगों और अल्जाइमर रोग केस स्टडी (ADNI डेटाबेस का उपयोग करके) के माध्यम से, विधि की प्रभावशीलता प्रदर्शित की गई है, और बहु-वर्गीकरण समस्याओं के लिए वाटरफॉल प्लॉट सामान्यीकरण विधि प्रस्तावित की गई है।
मशीन लर्निंग मॉडल की जटिलता में निरंतर वृद्धि के साथ, ब्लैक-बॉक्स मॉडल पूर्वानुमान सटीकता में उत्कृष्ट प्रदर्शन करते हैं, लेकिन उनकी व्याख्यायोग्यता की कमी चिकित्सा जैसे उच्च-जोखिम क्षेत्रों में अनुप्रयोग में बाधा डालती है। पारंपरिक क्लस्टरिंग विश्लेषण केवल मूल डेटा विशेषताओं पर आधारित है, और नमूनों के समान पूर्वानुमान परिणाम तक पहुंचने के विभिन्न मार्गों को प्रकट नहीं कर सकता है।
- चिकित्सा अनुप्रयोग की आवश्यकता: अल्जाइमर रोग जैसी विषम बीमारियों में, विभिन्न रोगी पूरी तरह से अलग-अलग रोगजनक तंत्र के माध्यम से समान निदान परिणाम तक पहुंच सकते हैं
- सटीक चिकित्सा: रोग की विषमता को समझना व्यक्तिगत उपचार योजनाओं के विकास में सहायता करता है
- मॉडल व्याख्यायोग्यता: उच्च-जोखिम निर्णय परिस्थितियों में, मॉडल पूर्वानुमान के कारणों को समझना महत्वपूर्ण है
- पारंपरिक क्लस्टरिंग विधियां: केवल मूल डेटा विशेषताओं पर आधारित, मॉडल द्वारा सीखे गए जटिल इनपुट-आउटपुट संबंधों को कैप्चर नहीं कर सकते
- SHAP मान क्लस्टरिंग अनुसंधान दुर्लभ: मौजूदा साहित्य में SHAP मान क्लस्टरिंग पर अनुसंधान अत्यंत सीमित है
- दृश्य उपकरणों की कमी: बहु-वर्गीकरण समस्याओं में SHAP मान दृश्य के लिए प्रभावी विधियों की कमी है
- SHAP-आधारित पर्यवेक्षित क्लस्टरिंग विधि का प्रस्ताव: मूल डेटा के बजाय SHAP मानों के आधार पर क्लस्टरिंग, नमूनों के समान पूर्वानुमान तक पहुंचने के विभिन्न मार्गों को प्रकट करता है
- उच्च-आयामी वाटरफॉल प्लॉट विकास: पारंपरिक वाटरफॉल प्लॉट को बहु-वर्गीकरण समस्याओं तक सामान्यीकृत करता है, k-आयामी SHAP वेक्टर के दृश्य का समर्थन करता है
- संपूर्ण विश्लेषण प्रवाह प्रदान करता है: पूर्वानुमान मॉडलिंग, SHAP विश्लेषण, दृश्य, क्लस्टरिंग विश्लेषण और क्लस्टर व्याख्या के पांच-चरणीय कार्यप्रवाह को शामिल करता है
- विधि की प्रभावशीलता सत्यापित करता है: सिमुलेशन प्रयोगों और अल्जाइमर रोग वास्तविक केस के माध्यम से विधि की व्यावहारिकता सत्यापित करता है
प्रशिक्षण डेटासेट X' ⊂ X ⊂ R^p और प्रशिक्षित मॉडल f: X → R दिया गया है, प्रत्येक नमूने x ∈ X के लिए SHAP मान φ(f;x)₁, ..., φ(f;x)ₚ की गणना करें, जैसे कि:
∑i=1pϕ(f;x)i=f(x)−E[f(X′)]
लक्ष्य SHAP मान मैट्रिक्स पर क्लस्टरिंग करना है, समान मॉडल व्याख्या वाले नमूना समूहों की खोज करना है।
- XGBoost का उपयोग करके पूर्वानुमान मॉडल बनाएं
- पुनरावृत्त क्रॉस-सत्यापन के माध्यम से मॉडल सामान्यीकरण प्रदर्शन सुनिश्चित करें
- द्विआधारी वर्गीकरण: प्रत्येक विशेषता एक SHAP मान से मेल खाती है
- बहु-वर्गीकरण: प्रत्येक विशेषता k-आयामी SHAP वेक्टर से मेल खाती है (k वर्गों की संख्या है)
- TreeSHAP एल्गोरिथ्म का उपयोग करके वृक्ष मॉडल के SHAP मानों की गणना करें
- क्रॉस-सत्यापन के माध्यम से अति-फिटिंग से बचें
- UMAP का उपयोग करके आयाम में कमी दृश्य के लिए
- स्थानीय संरचना को संरक्षित करता है, क्लस्टरिंग पहचान के लिए उपयुक्त
- क्लस्टरिंग के लिए HDBSCAN पदानुक्रमीय घनत्व का उपयोग करें
- शोर और परिवर्तनशील घनत्व क्लस्टरिंग को संभाल सकता है
- मूल डेटा विश्लेषण के लिए हीटमैप का उपयोग करें
- क्लस्टरिंग की व्याख्या के लिए उच्च-आयामी वाटरफॉल प्लॉट अपनाएं
पारंपरिक वाटरफॉल प्लॉट केवल एक-आयामी SHAP मानों के लिए उपयुक्त है, बहु-वर्गीकरण के k-आयामी SHAP वेक्टर को संभाल नहीं सकता है।
- वर्ग उप-स्थान में प्रक्षेपण: दो वर्गों का चयन करें, अन्य वर्गों के SHAP मानों को अनदेखा करें, वर्गों के बीच जोड़ीदार तुलना के लिए उपयुक्त
- PCA प्रक्षेपण: सबसे अधिक जानकारी रखने वाले द्विआयामी उप-स्थान में प्रक्षेपण, सभी k वर्गों की जानकारी को बनाए रखता है लेकिन अक्ष व्याख्या अधिक जटिल है
SHAP वेक्टर अनुक्रम को k-आयामी स्थान में पथ के रूप में मानें, प्रत्येक पथ खंड एक विशेषता के योगदान से मेल खाता है, औसत पूर्वानुमान बिंदु से शुरू करके नमूने के विशिष्ट पूर्वानुमान बिंदु तक पहुंचता है।
- जनरेशन मॉडल: बहुपद लॉजिस्टिक प्रतिगमन
- नमूना आकार: 1,500 नमूने, 10-आयामी विशेषताएं
- डिजाइन विचार: समान लक्ष्य वर्ग तक पहुंचने के विभिन्न मार्ग बनाएं
- फ़ंक्शन परिभाषा:
- f₁(x) = 4x₁x₂ + 4x₁ + 4x₂ + Σβ₁,ᵢxᵢ
- f₂(x) = 4x₁x₂ - 4x₁ - 4x₂ + Σβ₂,ᵢxᵢ
- जहां βⱼ,ᵢ ~ N(0,1)
- डेटा स्रोत: अल्जाइमर रोग न्यूरोइमेजिंग पहल डेटाबेस
- नमूना आकार: 2,422 रोगी, 39 विशेषताएं
- लक्ष्य वर्ग: संज्ञानात्मक सामान्य (CN), हल्का संज्ञानात्मक हानि (MCI), अल्जाइमर रोग/मनोभ्रंश (AD)
- पूर्व-प्रसंस्करण: यात्रा डेटा, डिवाइस जानकारी आदि को हटाएं, 0,1 अंतराल में रैखिक स्केलिंग
- वर्गीकरण प्रदर्शन: सटीकता, रिकॉल, F1 स्कोर
- क्लस्टरिंग गुणवत्ता: दृश्य और डोमेन ज्ञान के माध्यम से सत्यापन
- पूर्वानुमान मॉडल: XGBoost
- आयाम में कमी विधि: UMAP
- क्लस्टरिंग एल्गोरिथ्म: HDBSCAN
- क्रॉस-सत्यापन: SHAP मानों की गणना के लिए पुनरावृत्त क्रॉस-सत्यापन
XGBoost मॉडल परीक्षण सेट पर उत्कृष्ट प्रदर्शन करता है:
- समग्र सटीकता: 90%
- प्रत्येक वर्ग F1 स्कोर: 0.88-0.92
- मॉडल व्याख्या की विश्वसनीयता साबित करता है
- मूल डेटा में कोई क्लस्टरिंग संरचना नहीं: UMAP दृश्य मूल डेटा में कोई स्पष्ट क्लस्टरिंग पैटर्न नहीं दिखाता है
- SHAP मान 4 क्लस्टर प्रकट करते हैं:
- क्लस्टर 0: x₁ < 0, x₂ < 0 → वर्ग 0
- क्लस्टर 3: x₁ > 0, x₂ > 0 → वर्ग 1
- क्लस्टर 1 और 2: x₁, x₂ विपरीत चिन्ह → वर्ग 2 (दो अलग-अलग मार्ग)
- वर्ग 2 तक पहुंचने के दो अलग-अलग मार्गों की सफलतापूर्वक पहचान की
- क्लस्टर 1: x₁ > 0, x₂ < 0
- क्लस्टर 2: x₁ < 0, x₂ > 0
आगे का विश्लेषण पाता है कि क्लस्टर 3 को दो उप-क्लस्टर में विभाजित किया जा सकता है, मुख्य अंतर विशेषता 8 के योगदान में है, विधि की स्थिरता को सत्यापित करता है।
- समग्र सटीकता: 93%
- प्रत्येक वर्ग प्रदर्शन: CN(F1=0.96), MCI(F1=0.92), AD(F1=0.86)
- CDRSB (नैदानिक मनोभ्रंश रेटिंग स्केल कुल स्कोर): सबसे महत्वपूर्ण पूर्वानुमान कारक
- LDELTOTAL: CN और MCI भेदभाव में महत्वपूर्ण भूमिका
- mPACCdigit और MMSE: MCI और AD भेदभाव में महत्वपूर्ण
- CN रोगी: क्लस्टर 0 और 4, हालांकि APOE4 जीन प्रकार अलग हैं लेकिन SHAP पैटर्न समान हैं
- MCI रोगी: क्लस्टर 3 और 6
- क्लस्टर 3: CDRSB का AD योगदान -1.50 (सुरक्षात्मक)
- क्लस्टर 6: CDRSB का AD योगदान -0.50 (जोखिम)
- AD रोगी: क्लस्टर 1, 2, 5, विभिन्न रोग मार्गों को प्रदर्शित करते हैं
- समान निदान वर्ग के भीतर विषमता को प्रकट करता है
- CDRSB मूल्यांकन MCI रोगियों के जोखिम स्तरीकरण के लिए उपयोग किया जा सकता है
- विभिन्न AD क्लस्टर को विभिन्न उपचार रणनीतियों की आवश्यकता हो सकती है
- सैद्धांतिक आधार: Shapley मान पर आधारित (Lloyd Shapley, 1953)
- आधुनिक विकास: Lundberg और Lee (2017) द्वारा मशीन लर्निंग में अनुप्रयोग
- TreeSHAP एल्गोरिथ्म: वृक्ष मॉडल के लिए SHAP मान गणना के लिए विशेष
- पारंपरिक विधियां: K-means, पदानुक्रमीय क्लस्टरिंग आदि मूल विशेषताओं पर आधारित
- घनत्व क्लस्टरिंग: DBSCAN और इसके सुधार संस्करण HDBSCAN
- पर्यवेक्षित क्लस्टरिंग: पर्यवेक्षित सीखने की जानकारी को जोड़ने वाली क्लस्टरिंग विधि
मौजूदा अनुसंधान अत्यंत सीमित है, यह पेपर इस क्षेत्र का एक महत्वपूर्ण योगदान है, बाद के अनुसंधान के लिए आधार तैयार करता है।
- SHAP-आधारित क्लस्टरिंग प्रभावशीलता: मूल डेटा में अवलोकन योग्य नहीं अर्थपूर्ण समूहों की खोज कर सकता है
- उच्च-आयामी वाटरफॉल प्लॉट व्यावहारिकता: बहु-वर्गीकरण SHAP मान दृश्य समस्या को सफलतापूर्वक हल करता है
- चिकित्सा अनुप्रयोग मूल्य: अल्जाइमर रोग अनुसंधान में व्यावहारिक अनुप्रयोग क्षमता प्रदर्शित करता है
- रोग विषमता अंतर्दृष्टि: समान निदान वर्ग के भीतर विभिन्न रोगजनक मार्गों को प्रकट करता है
- कम्प्यूटेशनल जटिलता: बड़ी संख्या में SHAP मानों की गणना की आवश्यकता है, कम्प्यूटेशनल लागत अधिक है
- मॉडल निर्भरता: क्लस्टरिंग परिणाम अंतर्निहित पूर्वानुमान मॉडल की गुणवत्ता पर निर्भर करते हैं
- पैरामीटर संवेदनशीलता: HDBSCAN जैसे एल्गोरिथ्म के पैरामीटर चयन परिणामों को प्रभावित कर सकते हैं
- वर्ग संख्या सीमा: उच्च-आयामी वाटरफॉल प्लॉट का दृश्य अभी भी वर्ग संख्या द्वारा सीमित है
- दृश्य विधि विस्तार: अन्य SHAP चार्ट के उच्च-आयामी संस्करण विकसित करें (बार चार्ट, हीटमैप, बीस्वार्म चार्ट आदि)
- एल्गोरिथ्म अनुकूलन: बड़े पैमाने पर डेटा की कम्प्यूटेशनल दक्षता में सुधार करें
- सैद्धांतिक विश्लेषण: SHAP-आधारित क्लस्टरिंग के सैद्धांतिक आधार स्थापित करें
- अनुप्रयोग विस्तार: अधिक क्षेत्रों में विधि की सार्वभौमिकता सत्यापित करें
- मजबूत नवाचार: पहली बार SHAP-आधारित पर्यवेक्षित क्लस्टरिंग विधि का व्यवस्थित प्रस्ताव
- उच्च व्यावहारिक मूल्य: चिकित्सा जैसे उच्च-जोखिम क्षेत्रों में महत्वपूर्ण अनुप्रयोग मूल्य
- संपूर्ण विधि: मॉडलिंग से व्याख्या तक संपूर्ण कार्यप्रवाह प्रदान करता है
- पर्याप्त सत्यापन: सिमुलेशन और वास्तविक केस दोनों द्वारा दोहरा सत्यापन
- दृश्य नवाचार: उच्च-आयामी वाटरफॉल प्लॉट बहु-वर्गीकरण व्याख्यायोग्यता समस्या को हल करता है
- कमजोर सैद्धांतिक आधार: SHAP-आधारित क्लस्टरिंग के सैद्धांतिक विश्लेषण की कमी
- कम्प्यूटेशनल दक्षता: बड़े पैमाने पर अनुप्रयोग में कम्प्यूटेशनल जटिलता समस्या पर्याप्त रूप से चर्चा नहीं की गई
- पैरामीटर चयन: क्लस्टरिंग एल्गोरिथ्म पैरामीटर चयन के लिए मार्गदर्शन सिद्धांत पर्याप्त नहीं हैं
- सांख्यिकीय महत्व: क्लस्टरिंग परिणामों के सांख्यिकीय महत्व परीक्षण की कमी
- तुलनात्मक प्रयोग अपर्याप्त: अन्य व्याख्यायोग्य क्लस्टरिंग विधियों के साथ तुलना सीमित है
- शैक्षणिक योगदान: व्याख्यायोग्य AI और पर्यवेक्षित क्लस्टरिंग क्षेत्र में नए विचार प्रदान करता है
- व्यावहारिक मूल्य: सटीक चिकित्सा जैसे क्षेत्रों में सीधे अनुप्रयोग क्षमता
- विधि प्रचार: कार्यप्रवाह अन्य क्षेत्रों और समस्याओं तक सामान्यीकृत किया जा सकता है
- बाद के अनुसंधान: SHAP मानों के गहन अनुप्रयोग के लिए नई दिशा खोलता है
- चिकित्सा निदान: रोग विषमता विश्लेषण और व्यक्तिगत उपचार
- वित्तीय जोखिम नियंत्रण: ग्राहक जोखिम स्तरीकरण और विभेदित रणनीति
- सिफारिश प्रणाली: उपयोगकर्ता व्यवहार पैटर्न विश्लेषण
- गुणवत्ता नियंत्रण: उत्पाद दोषों के विभिन्न कारणों का विश्लेषण
पेपर 23 महत्वपूर्ण संदर्भों का हवाला देता है, जिसमें SHAP सिद्धांत, क्लस्टरिंग एल्गोरिथ्म, दृश्य विधियां और अल्जाइमर रोग अनुसंधान जैसे कई क्षेत्र शामिल हैं, जो अंतः-विषय अनुसंधान के लिए अच्छा सैद्धांतिक समर्थन प्रदान करते हैं।
समग्र मूल्यांकन: यह व्याख्यायोग्य AI और पर्यवेक्षित क्लस्टरिंग के अंतर-विषय क्षेत्र में एक उच्च-गुणवत्ता वाला अंतः-विषय अनुसंधान पेपर है जो महत्वपूर्ण योगदान देता है। विधि में मजबूत नवाचार है, प्रयोग सत्यापन पर्याप्त है, और चिकित्सा जैसे उच्च-जोखिम अनुप्रयोग क्षेत्रों में महत्वपूर्ण मूल्य है। हालांकि सैद्धांतिक विश्लेषण और कम्प्यूटेशनल दक्षता के पहलुओं में सुधार की गुंजाइश है, लेकिन यह बाद के अनुसंधान के लिए एक अच्छा आधार तैयार करता है।