Understanding how deep neural networks make decisions is crucial for analyzing their behavior and diagnosing failure cases. In computer vision, a common approach to improve interpretability is to assign importance to individual pixels using post-hoc methods. Although they are widely used to explain black-box models, their fidelity to the model's actual reasoning is uncertain due to the lack of reliable evaluation metrics. This limitation motivates an alternative approach, which is to design models whose decision processes are inherently interpretable. To this end, we propose a face similarity metric that breaks down global similarity into contributions from restricted receptive fields. Our method defines the similarity between two face images as the sum of patch-level similarity scores, providing a locally additive explanation without relying on post-hoc analysis. We show that the proposed approach achieves competitive verification performance even with patches as small as 28x28 within 112x112 face images, and surpasses state-of-the-art methods when using 56x56 patches.
تقترح هذه الورقة طريقة للتحقق من الوجه تعتمد على حقول استقبال مقيدة، بهدف حل مشكلة عدم قابلية تفسير عملية اتخاذ القرار في الشبكات العصبية العميقة. بدلاً من استخدام متجه ميزة عام واحد لتمثيل صورة الوجه بالكامل، تقوم هذه الطريقة بتحليل التشابه العام إلى مساهمات محلية من حقول استقبال مقيدة. يتم تعريف التشابه بين صورتي وجه على أنه مجموع درجات التشابه على مستوى الكتل، مما يوفر تفسيراً محلياً إضافياً دون الاعتماد على التحليل اللاحق. تُظهر التجارب أنه حتى مع استخدام كتل صغيرة بحجم 28×28 في صور وجه بحجم 112×112، تحقق الطريقة أداءً تحققاً منافساً، وعند استخدام كتل 56×56 تتفوق على أحدث الطرق المتقدمة.
حققت الشبكات العصبية العميقة أداءً متفوقاً في مهام التعرف على الوجه، لكن عملية اتخاذ القرار تفتقر إلى القابلية للتفسير، وهذا يشكل مشكلة خطيرة في تطبيقات عالية المخاطر.
طرق التفسير اللاحقة: تعتمد طرق الذكاء الاصطناعي القابل للتفسير الحالية بشكل أساسي على التحليل اللاحق لتوليد خرائط حرارية، لكنها تفتقر إلى مقاييس تقييم موثوقة
موثوقية التفسير: قد تنتج نفس خريطة حرارية تفسيرات لكل من التنبؤات الصحيحة والخاطئة، مما يضعف موثوقية التفسير
التكاليف الحسابية: تتطلب الطرق اللاحقة موارد حسابية إضافية لتوليد التفسيرات
تقترح هذه الورقة بديلاً قابلاً للتفسير بشكل متأصل، من خلال تصميم نماذج يكون فيها عملية اتخاذ القرار نفسها قابلة للتفسير، بدلاً من الاعتماد على طرق التحليل اللاحق.
المدخلات: صورتا وجه بحجم 112×112
المخرجات: قرار تحقق ثنائي (نفس الهوية/هويات مختلفة)
القيود: يجب أن تكون عملية اتخاذ القرار قابلة للتفسير كمزيج من مساهمات المناطق المحلية
تستشهد الورقة بـ 68 مرجعاً ذا صلة، تغطي بشكل أساسي:
طرق الذكاء الاصطناعي القابل للتفسير (Rudin 2019, Chen et al. 2019)
تقنيات التعرف على الوجه (Deng et al. 2019, Kim et al. 2022)
معماريات التعلم العميق (He et al. 2016)
مجموعات البيانات المعيارية للتقييم (Huang et al. 2007, Wu et al. 2024)
الملخص: تقترح هذه الورقة طريقة مبتكرة للتحقق من الوجه بناءً على حقول الاستقبال المقيدة، وتحقق بنجاح القابلية للتفسير المتأصلة مع الحفاظ على أداء عالية. يوفر هذا العمل فكراً جديداً قيماً لمجال الذكاء الاصطناعي القابل للتفسير، وهو مناسب بشكل خاص للتطبيقات عالية المخاطر التي تتطلب شفافية القرار. على الرغم من وجود قيود مثل التكاليف الحسابية ونقص التحليل النظري، فإن ابتكاريتها وقيمتها العملية تجعلها مساهمة مهمة في هذا المجال.