2025-11-20T00:01:14.681107

When Can You Trust Your Explanations? A Robustness Analysis on Feature Importances

Vascotto, Rodriguez, Bonaita et al.

Recent legislative regulations have underlined the need for accountable and transparent artificial intelligence systems and have contributed to a growing interest in the Explainable Artificial Intelligence (XAI) field. Nonetheless, the lack of standardized criteria to validate explanation methodologies remains a major obstacle to developing trustworthy systems. We address a crucial yet often overlooked aspect of XAI, the robustness of explanations, which plays a central role in ensuring trust in both the system and the provided explanation. To this end, we propose a novel approach to analyse the robustness of neural network explanations to non-adversarial perturbations, leveraging the manifold hypothesis to produce new perturbed datapoints that resemble the observed data distribution. We additionally present an ensemble method to aggregate various explanations, showing how merging explanations can be beneficial for both understanding the model's decision and evaluating the robustness. The aim of our work is to provide practitioners with a framework for evaluating the trustworthiness of model explanations. Experimental results on feature importances derived from neural networks applied to tabular datasets highlight the importance of robust explanations in practical applications.

academic

متى يمكنك الوثوق بتفسيراتك؟ تحليل الاستقرار على أهمية الميزات

المعلومات الأساسية

معرّف الورقة: 2406.14349
العنوان: When Can You Trust Your Explanations? A Robustness Analysis on Feature Importances
المؤلفون: Ilaria Vascotto, Alex Rodriguez, Alessandro Bonaita, Luca Bortolussi
التصنيف: cs.LG (تعلم الآلة)
تاريخ النشر: يونيو 2024 (نسخة arXiv، محدثة في أبريل 2025)
رابط الورقة: https://arxiv.org/abs/2406.14349

الملخص

مع تحسن اللوائح الذكاء الاصطناعي، يتزايد الطلب على الذكاء الاصطناعي القابل للتفسير (XAI). ومع ذلك، يظل الافتقار إلى معايير موحدة للتحقق من طرق التفسير عقبة رئيسية في تطوير الأنظمة الموثوقة. تعالج هذه الورقة مسألة استقرار التفسيرات، وهي مسألة غالباً ما يتم تجاهلها لكنها حاسمة في XAI، وتقترح طريقة تحليل جديدة لتقييم استقرار تفسيرات الشبكات العصبية تجاه الاضطرابات غير الخصومية. تستخدم الطريقة افتراض المتعدد لتوليد نقاط بيانات مضطربة تتوافق مع توزيع البيانات المرصودة، وتقترح طريقة تجميع لدمج تفسيرات متعددة، مما يوضح فوائد دمج التفسيرات في فهم قرارات النموذج وتقييم الاستقرار.

خلفية البحث والدافع

خلفية المشكلة

المتطلبات التنظيمية: تؤكد لوائح مثل قانون الاتحاد الأوروبي للذكاء الاصطناعي و GDPR على أهمية الشفافية والقابلية للتفسير في أنظمة الذكاء الاصطناعي
معضلة الصندوق الأسود: تظهر أنظمة الذكاء الاصطناعي الحديثة خصائص الصندوق الأسود بسبب عدد المعاملات الكبير، مما يفتقر إلى الشفافية
عدم استقرار طرق التفسير: تعاني طرق XAI الموجودة مثل LIME و SHAP من مشاكل عدم استقرار متأصلة
غياب التوحيد: الافتقار إلى معايير موحدة للتحقق من طرق التفسير

دافع البحث

تقييم الاستقرار: يعتبر استقرار التفسيرات عنصراً أساسياً لضمان موثوقية النظام والتفسيرات
الاحتياجات العملية: توفير إطار عملي للممارسين لتقييم موثوقية تفسيرات النموذج
مشكلة تضارب التفسيرات: حل مشكلة النتائج المتضاربة عند تطبيق طرق تفسير متعددة على نقطة بيانات واحدة

المساهمات الأساسية

مقدّر الاستقرار: اقتراح مجموعة من الخصائص التي يجب أن يفي بها مقدّر الاستقرار المثالي، وإثبات أن الطريقة المقترحة تفي بجميع هذه الخصائص
طريقة تجميع التفسيرات: اقتراح طريقة تجميع التفسيرات للشبكات العصبية بناءً على ترتيب الميزات لمعالجة مشكلة التضارب
إطار الاضطرابات غير الخصومية: إدخال إطار لاختبار استقرار التفسيرات تجاه الاضطرابات غير الخصومية وتقييم موثوقيتها في التطبيقات العملية
طريقة التحقق من تقييم الاستقرار: اقتراح طريقة تحقق جديدة من تقييم مقدّر الاستقرار، مما يحل مشكلة الافتقار إلى معايير حقيقية

شرح الطريقة

تعريف المهمة

بالنظر إلى مجموعة بيانات جدولية D = (X,y)، تحتوي على N نقطة بيانات و m ميزة، تتمثل المهمة في تقييم استقرار طريقة التفسير e المطبقة على شبكة عصبية f، حيث يتم تمثيل التفسير على شكل متجه أهمية الميزات.

مقدّر الاستقرار

التعريف الأساسي

يُعرّف الاستقرار بأنه قدرة طريقة التفسير على توفير تفسيرات متسقة عند تعديل الإدخال:

x → x̃, e(x) → e(x̃) ⟹ r(x,e) = g(x,x̃,e)

الخصائص الستة

تقترح الورقة ستة خصائص رئيسية يجب أن يفي بها مقدّر الاستقرار:

الخاصية 1: الاستقرار هو التوقع الرياضي للاستقرار الفردي
الخاصية 2: درجات الاستقرار للنقاط القريبة متشابهة
الخاصية 3: التقدير يتضمن عدم اليقين
الخاصية 4: الاضطرابات على المتعدد لها استقرار أعلى من الاضطرابات خارج المتعدد
الخاصية 5: استقرار مجمّع المفسّرات محدود
الخاصية 6: تفسيرات النماذج المكافئة لها استقرار متشابه

حساب الاستقرار

استخدام معامل ارتباط رتبة Spearman لحساب الاستقرار:

R̂(xi,Ni,e,f) = (1/|Ni|) ∑(x̃i∈Ni) ρ(e(xi,f), e(x̃i,f))

آلية توليد الحي

الحي العشوائي (NR)

المتغيرات الرقمية: إضافة ضوضاء بيضاء غاوسية
المتغيرات الفئوية: قلب عشوائي

الحي القائم على المراكز (NM)

آلية أكثر دقة تستفيد من افتراض المتعدد:

إجراء تجميع k-مركز على مجموعة التحقق
العثور على kM أقرب مراكز لكل مركز تجميع
استخدام توزيع بيتا للاضطراب الاستيفائي

طريقة التجميع

اقتراح متوسط مرجح بناءً على ترتيب الميزات:

a(i,j)ens = (∑L l=1 r(i,j)l · w(i,j)l) / (∑L l=1 w(i,j)l) · (1 + λn̄(i,j))

حيث يتضمن حد عقوبة لعدم اتساق الإشارة، وتأخذ مخطط الأوزان في الاعتبار الحجم النسبي لأهمية الميزات.

إطار تقييم الموثوقية

استخدام مقدّر k-أقرب جيران للتنبؤ بالاستقرار المحلي، تقسيم نقاط البيانات إلى ثلاث فئات:

النقاط المستقرة: R̂(xi) ≥ rth و Rknn(xi) ≥ rth
النقاط غير المؤكدة: R̂(xi) ≥ rth لكن Rknn(xi) < rth
النقاط غير المستقرة: R̂(xi) < rth

إعداد التجارب

مجموعات البيانات

استخدام 8 مجموعات بيانات جدولية عامة:

مجموعات البيانات التجريبية: beans, cancer, mushroom, white wine
مجموعات البيانات الفعلية: adult, bank marketing, heloc, ocean

طرق XAI

التركيز على الطرق الخاصة بالشبكات العصبية:

DeepLIFT: حساب أهمية الميزات بناءً على الفرق من نقطة مرجعية
Integrated Gradients: تكامل التدرجات على طول المسار من خط الأساس إلى الإدخال
Layer-wise Relevance Propagation (LRP): نشر الصلة القائم على الانتشار العكسي

استراتيجية التحقق

استخدام ثلاث شبكات عصبية بدقة متشابهة لكن بهندسات مختلفة للتحقق، مع تقييم فعالية تقدير الاستقرار من خلال تحليل ROC/AUC.

نتائج التجارب

النتائج الرئيسية

تأثير توليد الحي

ينتج الحي القائم على المراكز (NM) درجات استقرار أعلى من الحي العشوائي (NR)
تولد طريقة NM اضطرابات أكثر توافقاً مع متعدد البيانات، مما يتحقق من الخاصية 4

مزايا طريقة التجميع

استقرار التفسيرات المجمعة بمثابة تقدير محافظ لاستقرار الطرق الفردية
القدرة على مراعاة استقرار الطرق الفردية والاتساق على مستوى الميزات
توفير تفسيرات أكثر موثوقية مقارنة بطرق المتوسط البسيط

نتائج تصنيف الموثوقية

عند عتبة rth = 0.80:

تهيمن النقاط المستقرة على معظم مجموعات البيانات
نسبة النقاط غير المؤكدة والنقاط غير المستقرة غير مهملة
تقدم مجموعة بيانات mushroom حالة خاصة حيث تحقق جميع النماذج الثلاثة دقة 100%

تحليل التحقق

يظهر تحليل ROC/AUC:

أفضل أداء لطريقة التجميع مع الحي القائم على المراكز على معظم مجموعات البيانات
نسبة عالية من عدم اتساق تنبؤات النموذج في النقاط غير المستقرة مقارنة بالنقاط المستقرة
يدعم استخدام اتساق تنبؤات النموذج كمؤشر للتحقق من الاستقرار

الأعمال ذات الصلة

قيود طرق XAI

LIME: غير مستقرة بطبيعتها بسبب العشوائية في توليد الحي
SHAP: تتأثر بارتباط الميزات وتباين العينات وتحول توزيع البيانات
طرق التدرج: أكثر استقراراً من طرق الاضطراب لكن تظل غير مستقرة

طرق تقييم الاستقرار

الهجمات الخصومية: التركيز على الهجمات التي تتلاعب بالتفسيرات بشكل خبيث
الاضطرابات العشوائية: تقييم نقاط الضعف المتأصلة
معالجة النموذج: التأثير على التفسيرات من خلال تعديل دالة الخسارة وغيرها

طرق القياس الموجودة

تشمل ارتباط الترتيب والتقاطع الأعلى-k ومطابقة القواعد وغيرها، لكن تفتقر إلى معيار موحد محدود.

الخلاصة والمناقشة

الاستنتاجات الرئيسية

يفي مقدّر الاستقرار المقترح بجميع الخصائص النظرية، مما يوفر مقياساً محدوداً في النطاق 0,1
توليد الحي القائم على المتعدد أكثر ملاءمة من الاضطراب العشوائي لتقييم الاستقرار الحقيقي
تستطيع طريقة التجميع التعامل بفعالية مع مشكلة تضارب التفسيرات، مما يوفر تفسيرات أكثر موثوقية
يمكن للإطار تحديد نقاط البيانات في المناطق غير المؤكدة، مما يحسن الموثوقية في التطبيقات العملية

القيود

التعقيد الحسابي: يتطلب نقل الشبكة لكل نقطة بيانات وكل اضطراب وكل طريقة
حساسية المعاملات: يتطلب توليد الحي واختيار العتبة ضبطاً دقيقاً
افتراضات التحقق: يعتمد على افتراض أن اتساق تنبؤات النموذج بمثابة مؤشر بديل للاستقرار، وقد لا يكون هذا الافتراض صحيحاً دائماً

الاتجاهات المستقبلية

تعميم النموذج: التوسع إلى نماذج تعلم آلة أخرى مثل النماذج القائمة على الأشجار
الاستقرار الخصومي: دراسة العلاقة مع الهجمات الخصومية والقدرات الدفاعية
استقرار المصنّف: استكشاف كيفية استخدام التفسيرات لتحسين استقرار المصنّف

التقييم المتعمق

المزايا

الصرامة النظرية: اقتراح إطار نظري كامل لمقدّر الاستقرار يتضمن ستة خصائص محددة بوضوح
ابتكار الطريقة: توليد الحي القائم على افتراض المتعدد وطريقة التجميع التي تأخذ في الاعتبار اتساق الإشارة تتمتع بالجدة
القيمة العملية: توفير عملية تقييم موثوقية كاملة ذات قيمة إرشادية للتطبيقات العملية
التجارب الشاملة: إجراء تجارب كافية على مجموعات بيانات متعددة، بما في ذلك الدراسات الاستئصالية وتحليل التحقق

أوجه القصور

التكلفة الحسابية: يتمتع التعقيد الحسابي للطريقة بارتفاع نسبي، مما قد يحد من التطبيقات واسعة النطاق
الاعتماد على المعاملات: تتطلب معاملات متعددة ضبطاً، مما يزيد من تعقيد الطريقة
قيود التحقق: لا تزال طريقة التحقق في غياب معايير حقيقية بحاجة إلى تحسين
نطاق التطبيق: يركز بشكل أساسي على البيانات الجدولية والشبكات العصبية، وتحتاج القابلية للتعميم إلى التحقق

التأثير

المساهمة الأكاديمية: توفير إطار نظري وطريقة منهجية لتقييم استقرار XAI
الإرشادات العملية: توفير أدوات محددة للممارسين لتقييم موثوقية التفسيرات
دفع التوحيد: المساهمة في إنشاء معايير موحدة لتقييم طرق XAI

السيناريوهات المناسبة

التحقق من التفسيرات في تطبيقات الذكاء الاصطناعي عالية المخاطر
المواقف التي تتطلب مقارنة واختيار طرق XAI متعددة
البيئات التنظيمية التي تتطلب متطلبات صارمة لموثوقية التفسيرات
تحليل تفسيرات الشبكات العصبية للبيانات الجدولية

المراجع

تستشهد الورقة بالأعمال المهمة في مجال XAI، بما في ذلك الطرق الكلاسيكية مثل LIME و SHAP، والبحوث الطليعية الحديثة في استقرار التفسيرات والهجمات الخصومية وغيرها، مما يوفر أساساً نظرياً متيناً لهذا البحث.