2025-11-12T09:04:09.780506

SHAP-Based Supervised Clustering for Sample Classification and the Generalized Waterfall Plot

Lin, Fukuyama
In this growing age of data and technology, large black-box models are becoming the norm due to their ability to handle vast amounts of data and learn incredibly complex input-output relationships. The deficiency of these methods, however, is their inability to explain the prediction process, making them untrustworthy and their use precarious in high-stakes situations. SHapley Additive exPlanations (SHAP) analysis is an explainable AI method growing in popularity for its ability to explain model predictions in terms of the original features. For each sample and feature in the data set, we associate a SHAP value that quantifies the contribution of that feature to the prediction of that sample. Clustering these SHAP values can provide insight into the data by grouping samples that not only received the same prediction, but received the same prediction for similar reasons. In doing so, we map the various pathways through which distinct samples arrive at the same prediction. To showcase this methodology, we present a simulated experiment in addition to a case study in Alzheimer's disease using data from the Alzheimer's Disease Neuroimaging Initiative (ADNI) database. We also present a novel generalization of the waterfall plot for multi-classification.
academic

تجميع موجه قائم على SHAP لتصنيف العينات والرسم البياني الشلالي المعمم

المعلومات الأساسية

  • معرّف الورقة: 2510.08737
  • العنوان: تجميع موجه قائم على SHAP لتصنيف العينات والرسم البياني الشلالي المعمم
  • المؤلفون: جاستن لين (قسم الرياضيات بجامعة إنديانا)، جوليا فوكوياما (قسم الإحصاء بجامعة إنديانا)
  • التصنيف: cs.LG, stat.ME, stat.ML
  • تاريخ النشر: 9 أكتوبر 2025 (نسخة أولية على arXiv)
  • رابط الورقة: https://arxiv.org/abs/2510.08737v1

الملخص

في عصر التطور السريع للبيانات والتكنولوجيا، أصبحت نماذج الصندوق الأسود الكبيرة سائدة بسبب قدرتها على معالجة كميات ضخمة من البيانات وتعلم العلاقات المعقدة بين المدخلات والمخرجات. ومع ذلك، يكمن العيب الرئيسي لهذه الطرق في عدم القدرة على تفسير عملية التنبؤ، مما يجعل تطبيقها في السيناريوهات عالية المخاطر غير موثوق به وخطيراً. يكتسب تحليل SHAP (شرح الإضافات المشكلة من Shapley) كطريقة للذكاء الاصطناعي القابل للتفسير شهرة متزايدة لقدرته على تفسير تنبؤات النموذج باستخدام الميزات الأصلية. تقترح هذه الورقة إجراء تحليل تجميعي لقيم SHAP، وهو لا يجمع فقط العينات التي تحصل على نفس التنبؤ، بل الأهم من ذلك يجمع العينات التي تحصل على نفس التنبؤ لأسباب متشابهة. يتم عرض فعالية الطريقة من خلال تجارب المحاكاة ودراسة حالة الزهايمر (باستخدام قاعدة بيانات ADNI)، مع اقتراح طريقة تعميم الرسم البياني الشلالي لمشاكل التصنيف متعدد الفئات.

الخلفية البحثية والدافع

تعريف المشكلة

مع تزايد تعقيد نماذج التعلم الآلي، تتفوق نماذج الصندوق الأسود في دقة التنبؤ، لكن افتقارها إلى القابلية للتفسير يخلق عقبات في التطبيق في المجالات عالية المخاطر مثل الطب. يقتصر التحليل التجميعي التقليدي على ميزات البيانات الأصلية، وبالتالي لا يمكنه الكشف عن المسارات المختلفة التي تأخذها العينات للوصول إلى نفس نتيجة التنبؤ.

أهمية البحث

  1. احتياجات التطبيق الطبي: في الأمراض غير المتجانسة مثل الزهايمر، قد يصل المرضى المختلفون إلى نفس نتيجة التشخيص من خلال آليات مرضية مختلفة تماماً
  2. الطب الدقيق: يساعد فهم عدم تجانس المرض على وضع خطط علاجية مخصصة
  3. قابلية تفسير النموذج: في سيناريوهات اتخاذ القرار عالية المخاطر، من الحاسم فهم أسباب تنبؤات النموذج

قيود الطرق الموجودة

  1. طرق التجميع التقليدية: تعتمد فقط على ميزات البيانات الأصلية، وبالتالي لا تتمكن من التقاط العلاقات المعقدة بين المدخلات والمخرجات التي تعلمها النموذج
  2. ندرة أبحاث تجميع قيم SHAP: البحث الموجود في الأدبيات حول تجميع قيم SHAP محدود للغاية
  3. عدم كفاية أدوات التصور: تفتقر مشاكل التصنيف متعدد الفئات إلى طرق تصور فعالة لقيم SHAP

المساهمات الأساسية

  1. اقتراح طريقة تجميع موجه قائمة على SHAP: تجميع بناءً على قيم SHAP بدلاً من البيانات الأصلية، للكشف عن المسارات المختلفة التي تأخذها العينات للوصول إلى نفس التنبؤ
  2. تطوير رسم بياني شلالي عالي الأبعاد: تعميم الرسم البياني الشلالي التقليدي لمشاكل التصنيف متعدد الفئات، مع دعم تصور متجهات SHAP ذات الأبعاد k
  3. توفير سير عمل تحليلي كامل: يتضمن نمذجة التنبؤ وتحليل SHAP والتصور والتجميع وتفسير التجميع في سير عمل من خمس خطوات
  4. التحقق من فعالية الطريقة: التحقق من الجدوى العملية للطريقة من خلال تجارب المحاكاة ودراسة حالة الزهايمر الحقيقية

شرح الطريقة

تعريف المهمة

بالنظر إلى مجموعة البيانات التدريبية X' ⊂ X ⊂ R^p والنموذج المدرب f: X → R، احسب قيم SHAP لكل عينة x ∈ X بحيث φ(f;x)₁, ..., φ(f;x)ₚ:

i=1pϕ(f;x)i=f(x)E[f(X)]\sum_{i=1}^{p} \phi(f;x)_i = f(x) - E[f(X')]

الهدف هو تجميع مصفوفة قيم SHAP لاكتشاف مجموعات العينات ذات التفسيرات النموذجية المتشابهة.

سير عمل التجميع الموجه

1. نمذجة التنبؤ

  • استخدام XGBoost لبناء نموذج تنبؤي
  • ضمان أداء تعميم النموذج من خلال التحقق المتقاطع المتكرر

2. تحليل SHAP

  • التصنيف الثنائي: كل ميزة تقابل قيمة SHAP واحدة
  • التصنيف متعدد الفئات: كل ميزة تقابل متجه SHAP بحجم k (حيث k هو عدد الفئات)
  • استخدام خوارزمية TreeSHAP لحساب قيم SHAP لنماذج الأشجار
  • تجنب الإفراط في التدريب من خلال التحقق المتقاطع

3. التصور

  • استخدام UMAP لتقليل الأبعاد والتصور
  • الحفاظ على البنية المحلية، مناسب لكشف التجميع

4. تحليل التجميع

  • استخدام HDBSCAN للتجميع الهرمي القائم على الكثافة
  • القدرة على التعامل مع الضوضاء والتجميع ذي الكثافة المتغيرة

5. تفسير التجميع

  • استخدام خرائط حرارية لتحليل البيانات الأصلية
  • استخدام رسم بياني شلالي عالي الأبعاد للتفسير

ابتكار الرسم البياني الشلالي عالي الأبعاد

قيود الرسم البياني الشلالي التقليدي

ينطبق الرسم البياني الشلالي التقليدي فقط على قيم SHAP أحادية البعد، وبالتالي لا يمكنه التعامل مع متجهات SHAP ذات الأبعاد k للتصنيف متعدد الفئات.

الحل

  1. الإسقاط على فضاء الفئات الفرعية: اختر فئتين، تجاهل قيم SHAP للفئات الأخرى، مناسب للمقارنات الثنائية بين الفئات
  2. إسقاط PCA: إسقاط على فضاء ثنائي الأبعاد يحتفظ بأكثر المعلومات، يحتفظ بمعلومات جميع الفئات k لكن تفسير المحاور أكثر تعقيداً

التمثيل الرياضي

اعتبر تسلسل متجهات SHAP كمسار في فضاء k-بعدي، حيث يقابل كل جزء من المسار مساهمة ميزة واحدة، بدءاً من نقطة التنبؤ المتوسط وصولاً إلى نقطة التنبؤ المحددة للعينة.

إعداد التجارب

مجموعات البيانات

البيانات المحاكاة

  • نموذج التوليد: الانحدار اللوجستي متعدد الحدود
  • حجم العينة: 1,500 عينة، 10 ميزات
  • فكرة التصميم: إنشاء مسارات مختلفة للوصول إلى نفس فئة الهدف
  • تعريف الدالة:
    • f₁(x) = 4x₁x₂ + 4x₁ + 4x₂ + Σβ₁,ᵢxᵢ
    • f₂(x) = 4x₁x₂ - 4x₁ - 4x₂ + Σβ₂,ᵢxᵢ
    • حيث βⱼ,ᵢ ~ N(0,1)

بيانات ADNI

  • مصدر البيانات: قاعدة بيانات مبادرة التصوير العصبي لمرض الزهايمر
  • حجم العينة: 2,422 مريضاً، 39 ميزة
  • الفئات المستهدفة: إدراك طبيعي (CN)، ضعف إدراكي خفيف (MCI)، الزهايمر/الخرف (AD)
  • المعالجة المسبقة: إزالة بيانات الزيارة ومعلومات الجهاز، إعادة تحجيم خطي إلى الفترة 0,1

مؤشرات التقييم

  • أداء التصنيف: الدقة والاستدعاء ودرجة F1
  • جودة التجميع: التحقق من خلال التصور والمعرفة المجالية

تفاصيل التنفيذ

  • نموذج التنبؤ: XGBoost
  • طريقة تقليل الأبعاد: UMAP
  • خوارزمية التجميع: HDBSCAN
  • التحقق المتقاطع: التحقق المتقاطع المتكرر لحساب قيم SHAP

نتائج التجارب

نتائج تجارب المحاكاة

أداء النموذج

أظهر نموذج XGBoost أداءً ممتازاً على مجموعة الاختبار:

  • الدقة الإجمالية: 90%
  • درجات F1 لكل فئة: 0.88-0.92
  • يثبت موثوقية تفسير النموذج

اكتشافات التجميع

  1. عدم وجود بنية تجميع في البيانات الأصلية: يظهر التصور بـ UMAP عدم وجود نمط تجميع واضح في البيانات الأصلية
  2. قيم SHAP تكشف 4 تجميعات:
    • التجميع 0: x₁ < 0, x₂ < 0 → الفئة 0
    • التجميع 3: x₁ > 0, x₂ > 0 → الفئة 1
    • التجميع 1 و 2: x₁, x₂ بإشارات معاكسة → الفئة 2 (مساران مختلفان)

التحقق من الرسم البياني الشلالي عالي الأبعاد

  • تم تحديد المساران المختلفان للوصول إلى الفئة 2 بنجاح
  • التجميع 1: x₁ > 0, x₂ < 0
  • التجميع 2: x₁ < 0, x₂ > 0

التجميع الأكثر دقة

كشف التحليل الإضافي أن التجميع 3 يمكن تقسيمه إلى تجميعين فرعيين، الفرق الرئيسي يكمن في مساهمة الميزة 8، مما يتحقق من استقرار الطريقة.

نتائج دراسة حالة ADNI

أداء النموذج

  • الدقة الإجمالية: 93%
  • أداء كل فئة: CN (F1=0.96)، MCI (F1=0.92)، AD (F1=0.86)

تحديد الميزات الرئيسية

  1. CDRSB (مقياس التقييم السريري للخرف الإجمالي): أهم عامل تنبؤي
  2. LDELTOTAL: تأثير كبير في التمييز بين CN و MCI
  3. mPACCdigit و MMSE: مهمة في التمييز بين MCI و AD

اكتشافات التجميع

  1. مرضى CN: التجميع 0 و 4، على الرغم من اختلاف النمط الجيني APOE4 إلا أن أنماط SHAP متشابهة
  2. مرضى MCI: التجميع 3 و 6
    • التجميع 3: مساهمة CDRSB في AD = -1.50 (وقائية)
    • التجميع 6: مساهمة CDRSB في AD = -0.50 (خطر)
  3. مرضى AD: التجميع 1 و 2 و 5، يعكسون مسارات مرضية مختلفة

الأهمية السريرية

  • الكشف عن عدم التجانس داخل نفس فئة التشخيص
  • يمكن استخدام تقييم CDRSB لتقسيم المخاطر لمرضى MCI
  • قد تتطلب تجميعات AD المختلفة استراتيجيات علاجية مختلفة

الأعمال ذات الصلة

تطور تحليل SHAP

  • الأساس النظري: بناءً على قيم Shapley (Lloyd Shapley، 1953)
  • التطور الحديث: تطبيق Lundberg و Lee (2017) على التعلم الآلي
  • خوارزمية TreeSHAP: متخصصة في حساب قيم SHAP لنماذج الأشجار

تطور طرق التجميع

  • الطرق التقليدية: K-means والتجميع الهرمي وغيرها بناءً على الميزات الأصلية
  • التجميع القائم على الكثافة: DBSCAN وإصدارها المحسّن HDBSCAN
  • التجميع الموجه: طرق التجميع التي تجمع معلومات التعلم الموجه

أبحاث تجميع قيم SHAP

البحث الموجود محدود للغاية، وتمثل هذه الورقة مساهمة مهمة في هذا المجال وتضع أساساً للأبحاث اللاحقة.

الاستنتاجات والمناقشة

الاستنتاجات الرئيسية

  1. فعالية التجميع القائم على SHAP: القدرة على اكتشاف تجميعات ذات معنى لا يمكن ملاحظتها في البيانات الأصلية
  2. الجدوى العملية للرسم البياني الشلالي عالي الأبعاد: حل ناجح لمشكلة تصور قيم SHAP في التصنيف متعدد الفئات
  3. القيمة في التطبيقات الطبية: إظهار إمكانيات التطبيق العملي في أبحاث الزهايمر
  4. رؤى عدم تجانس المرض: الكشف عن مسارات مرضية مختلفة داخل نفس فئة التشخيص

القيود

  1. التعقيد الحسابي: الحاجة إلى حساب كميات كبيرة من قيم SHAP، مع تكاليف حسابية عالية
  2. الاعتماد على النموذج: تعتمد نتائج التجميع على جودة نموذج التنبؤ الأساسي
  3. حساسية المعاملات: قد يؤثر اختيار معاملات الخوارزميات مثل HDBSCAN على النتائج
  4. حد عدد الفئات: لا يزال التصور في الرسم البياني الشلالي مقيداً بعدد الفئات

الاتجاهات المستقبلية

  1. توسيع طرق التصور: تطوير إصدارات عالية الأبعاد من مخططات SHAP الأخرى (الرسوم البيانية العمودية والخرائط الحرارية ورسوم النحل وغيرها)
  2. تحسين الخوارزميات: تحسين الكفاءة الحسابية للبيانات الكبيرة
  3. التحليل النظري: إنشاء أساس نظري لتجميع SHAP
  4. توسيع التطبيقات: التحقق من عمومية الطريقة في مجالات أخرى

التقييم العميق

المميزات

  1. الابتكار القوي: أول اقتراح منهجي لطريقة تجميع موجهة قائمة على SHAP
  2. القيمة العملية العالية: ذات أهمية تطبيقية كبيرة في المجالات عالية المخاطر مثل الطب
  3. اكتمال الطريقة: توفير سير عمل كامل من النمذجة إلى التفسير
  4. التحقق الكافي: التحقق المزدوج من خلال المحاكاة والحالات الحقيقية
  5. ابتكار التصور: يحل الرسم البياني الشلالي عالي الأبعاد مشكلة قابلية التفسير في التصنيف متعدد الفئات

أوجه القصور

  1. ضعف الأساس النظري: افتقار التحليل النظري لتجميع SHAP
  2. كفاءة الحساب: لم يتم مناقشة مشكلة التعقيد الحسابي بشكل كافٍ للتطبيقات الكبيرة
  3. اختيار المعاملات: المبادئ التوجيهية لاختيار معاملات خوارزمية التجميع غير واضحة بما يكفي
  4. الدلالة الإحصائية: افتقار الاختبارات الإحصائية للدلالة لنتائج التجميع
  5. عدم كفاية التجارب المقارنة: المقارنة محدودة مع طرق التجميع التفسيري الأخرى

التأثير

  1. المساهمة الأكاديمية: توفير أفكار جديدة لمجالات الذكاء الاصطناعي القابل للتفسير والتجميع الموجه
  2. القيمة العملية: إمكانية التطبيق المباشر في الطب الدقيق وغيره
  3. قابلية نشر الطريقة: يمكن تعميم سير العمل على مجالات ومشاكل أخرى
  4. البحث اللاحق: فتح اتجاهات جديدة للتطبيقات العميقة لقيم SHAP

السيناريوهات المطبقة

  1. التشخيص الطبي: تحليل عدم تجانس المرض والعلاج الشخصي
  2. إدارة المخاطر المالية: تقسيم مخاطر العملاء والاستراتيجيات المختلفة
  3. أنظمة التوصية: تحليل أنماط سلوك المستخدم
  4. مراقبة الجودة: تحليل الأسباب المختلفة لعيوب المنتجات

المراجع

تستشهد الورقة بـ 23 مرجعاً مهماً، تغطي نظرية SHAP وخوارزميات التجميع وطرق التصور وأبحاث الزهايمر وغيرها من المجالات المتعددة، مما يوفر دعماً نظرياً جيداً للبحث متعدد التخصصات.


التقييم الشامل: هذه ورقة بحثية عالية الجودة متعددة التخصصات، تقدم مساهمات مهمة في المجال المتقاطع بين الذكاء الاصطناعي القابل للتفسير والتجميع الموجه. الطريقة ابتكارية قوية، والتحقق التجريبي شامل، وتتمتع بقيمة مهمة في التطبيقات عالية المخاطر مثل الطب. على الرغم من وجود مجال للتحسين في التحليل النظري وكفاءة الحساب، إلا أنها تضع أساساً جيداً للأبحاث اللاحقة.