2025-11-13T00:16:11.561915

Restricted Receptive Fields for Face Verification

Ozturk, Bhatta, Wu et al.
Understanding how deep neural networks make decisions is crucial for analyzing their behavior and diagnosing failure cases. In computer vision, a common approach to improve interpretability is to assign importance to individual pixels using post-hoc methods. Although they are widely used to explain black-box models, their fidelity to the model's actual reasoning is uncertain due to the lack of reliable evaluation metrics. This limitation motivates an alternative approach, which is to design models whose decision processes are inherently interpretable. To this end, we propose a face similarity metric that breaks down global similarity into contributions from restricted receptive fields. Our method defines the similarity between two face images as the sum of patch-level similarity scores, providing a locally additive explanation without relying on post-hoc analysis. We show that the proposed approach achieves competitive verification performance even with patches as small as 28x28 within 112x112 face images, and surpasses state-of-the-art methods when using 56x56 patches.
academic

حقول الاستقبال المقيدة للتحقق من الوجه

المعلومات الأساسية

  • معرف الورقة: 2510.10753
  • العنوان: Restricted Receptive Fields for Face Verification
  • المؤلفون: Kagan Ozturk, Aman Bhatta, Haiyu Wu, Patrick Flynn, Kevin W. Bowyer (جامعة نوتردام)
  • التصنيف: cs.CV (رؤية الحاسوب)
  • تاريخ النشر: 12 أكتوبر 2025 (نسخة arXiv المسبقة)
  • رابط الورقة: https://arxiv.org/abs/2510.10753

الملخص

تقترح هذه الورقة طريقة للتحقق من الوجه تعتمد على حقول استقبال مقيدة، بهدف حل مشكلة عدم قابلية تفسير عملية اتخاذ القرار في الشبكات العصبية العميقة. بدلاً من استخدام متجه ميزة عام واحد لتمثيل صورة الوجه بالكامل، تقوم هذه الطريقة بتحليل التشابه العام إلى مساهمات محلية من حقول استقبال مقيدة. يتم تعريف التشابه بين صورتي وجه على أنه مجموع درجات التشابه على مستوى الكتل، مما يوفر تفسيراً محلياً إضافياً دون الاعتماد على التحليل اللاحق. تُظهر التجارب أنه حتى مع استخدام كتل صغيرة بحجم 28×28 في صور وجه بحجم 112×112، تحقق الطريقة أداءً تحققاً منافساً، وعند استخدام كتل 56×56 تتفوق على أحدث الطرق المتقدمة.

خلفية البحث والدافع

المشكلة الأساسية

حققت الشبكات العصبية العميقة أداءً متفوقاً في مهام التعرف على الوجه، لكن عملية اتخاذ القرار تفتقر إلى القابلية للتفسير، وهذا يشكل مشكلة خطيرة في تطبيقات عالية المخاطر.

أهمية المشكلة

  1. متطلبات الأمان: تُستخدم أنظمة التعرف على الوجه على نطاق واسع في المجالات الأمنية والطبية عالية المخاطر، وتتطلب عمليات اتخاذ قرار موثوقة
  2. تشخيص الأعطال: يعتبر فهم آليات قرار النموذج حاسماً لتحليل سلوك النموذج وتشخيص حالات الفشل
  3. الامتثال التنظيمي: تتطلب العديد من سيناريوهات التطبيق أن تتمتع أنظمة الذكاء الاصطناعي بقابلية التفسير

قيود الطرق الموجودة

  1. طرق التفسير اللاحقة: تعتمد طرق الذكاء الاصطناعي القابل للتفسير الحالية بشكل أساسي على التحليل اللاحق لتوليد خرائط حرارية، لكنها تفتقر إلى مقاييس تقييم موثوقة
  2. موثوقية التفسير: قد تنتج نفس خريطة حرارية تفسيرات لكل من التنبؤات الصحيحة والخاطئة، مما يضعف موثوقية التفسير
  3. التكاليف الحسابية: تتطلب الطرق اللاحقة موارد حسابية إضافية لتوليد التفسيرات

دافع البحث

تقترح هذه الورقة بديلاً قابلاً للتفسير بشكل متأصل، من خلال تصميم نماذج يكون فيها عملية اتخاذ القرار نفسها قابلة للتفسير، بدلاً من الاعتماد على طرق التحليل اللاحق.

المساهمات الأساسية

  1. اقتراح طريقة قياس تشابه الوجه بناءً على حقول الاستقبال المقيدة: تحليل التشابه العام إلى مجموع مرجح لتشابهات الكتل على المستوى المحلي
  2. تصميم معمارية RRFNet: تحقيق التحقق القابل للتفسير بناءً على المقارنة على مستوى الكتل من خلال تعديلات طفيفة على ResNet
  3. التحقق من فعالية الطريقة: عرض أداء منافس وحتى متفوق على أحدث الطرق في سبعة مجموعات بيانات معيارية
  4. توفير قابلية التفسير المتأصلة: توفير تفسيرات محلية لعملية اتخاذ القرار دون الحاجة إلى حسابات إضافية

شرح الطريقة

تعريف المهمة

المدخلات: صورتا وجه بحجم 112×112 المخرجات: قرار تحقق ثنائي (نفس الهوية/هويات مختلفة) القيود: يجب أن تكون عملية اتخاذ القرار قابلة للتفسير كمزيج من مساهمات المناطق المحلية

معمارية النموذج

الطريقة الأولى: قياس التشابه القائم على المناطق

  1. تقسيم الصورة: تقسيم كل صورة وجه بشكل موحد إلى k كتلة محلية بحجم w×h
  2. تعلم الميزات المستقلة: تدريب شبكة CNN مستقلة لكل كتلة لاستخراج متجه ميزة بحجم N
  3. حساب التشابه المحلي: استخدام تشابه جيب التمام لحساب التشابه بين الكتل المقابلة:
    S_local(P^A_i, P^B_i) = (f^A_i · f^B_i) / (||f^A_i|| ||f^B_i||)
    
  4. تجميع التشابه العام: الحصول على التشابه العام من خلال مجموع مرجح:
    S_global(A,B) = Σ(i=1 to k) w_i · S_local(P^A_i, P^B_i)
    

الطريقة الثانية: شبكة حقول الاستقبال المقيدة (RRFNet)

  1. تعديل المعمارية: تعديل طفيف على ResNet بتغيير الخطوة في الكتلة الأولى من 2 إلى 1
  2. استخراج ميزات على مستوى الكتل: استخراج ميزات بحجم 512 بُعد من كتل صور بحجم 28×28 (RRFNet-28) أو 56×56 (RRFNet-56)
  3. التمثيل العام: تعريف التمثيل العام كمتوسط ميزات الكتل:
    F^A = (1/K) Σ(i=1 to K) f^A_i
    
  4. حساب التشابه: يمكن التعبير عن التشابه العام كمزيج من حاصل الضرب النقطي لميزات الكتل

نقاط الابتكار التقني

  1. القابلية للتفسير المتأصلة: بخلاف طرق التفسير اللاحقة، يكون التفسير في هذه الطريقة جزءاً متأصلاً من عملية اتخاذ القرار
  2. الحفاظ على الأداء: من خلال تصميم معماري ذكي، تحافظ الطريقة على أداء منافس مع تحسين القابلية للتفسير
  3. حجم كتل مرن: يدعم حقول استقبال مقيدة بأحجام مختلفة، مما يوازن بين الأداء والقابلية للتفسير
  4. إطار عمل موحد: يوفر إطار عمل رياضي لتحليل التشابه العام إلى مساهمات محلية

إعداد التجارب

مجموعات البيانات

  • بيانات التدريب: WebFace4M و CASIA-WebFace
  • بيانات الاختبار: سبع مجموعات بيانات معيارية
    • LFW: معيار التحقق من الوجه القياسي
    • CFP-FP, CPLFW: تقييم تغيرات الوضعية
    • AGEDB, CALFW: تقييم تغيرات العمر
    • Eclipse (ECL): تقييم تغيرات الإضاءة
    • Hadrian (HAD): تقييم تغيرات شعر الوجه

مقاييس التقييم

  • دقة التحقق (التحقق المتقاطع بـ 10 طيات)
  • متوسط الدقة عبر مجموعات البيانات المختلفة

طرق المقارنة

  • ArcFace (ResNet50/100)
  • AdaFace (ResNet50/100)
  • UniFace (ResNet50)
  • KP-RPE (ViT)

تفاصيل التنفيذ

  • عدد الحقب: 20-30 حقبة
  • تعزيز البيانات: قلب أفقي، إزاحات رأسية وأفقية ±5 بكسل
  • تعزيز الإخفاء: نسب إخفاء كتل بنسبة 20% و 40%
  • المعمارية: شبكة العمود الفقري ResNet50/100

نتائج التجارب

النتائج الرئيسية

أداء RRFNet-56:

  • تحت إعداد WebFace4M+ResNet100، تحقق متوسط دقة 95.69% عبر سبع مجموعات بيانات
  • تتفوق على طرق SOTA مثل ArcFace (95.09%) و AdaFace (95.28%)
  • تحقق أفضل أداء في معظم مجموعات البيانات

أداء RRFNet-28:

  • تحقق متوسط دقة 95.20%، مما يتنافس بشدة مع طرق SOTA
  • تثبت أنه حتى مع استخدام كتل صغيرة بحجم 28×28 يمكن الحفاظ على أداء جيدة

التجارب الاستئصالية

تحليل أداء الكتلة الفردية:

  • تحقق كتل المنطقة المركزية (الموضع 28,28) أفضل أداء، مع دقة كتلة واحدة تصل إلى 94.41%
  • عادة ما يكون النصف السفلي من الوجه أفضل من النصف العلوي
  • في مجموعة بيانات Hadrian، يحقق النصف العلوي أداءً أفضل بسبب تأثر تغيرات اللحية

استراتيجيات دمج الكتل:

  • استخدام كتل 28×28 فقط: متوسط 93.12%
  • استخدام كتل 56×56 فقط: متوسط 95.18%
  • دمج حجمي كتل: متوسط 95.51%

تأثير تعزيز الإخفاء:

  • إخفاء 20%: تحقق أفضل أداء في معظم الإعدادات
  • إخفاء 40%: انخفاض طفيف في الأداء لكن لا تزال منافسة
  • بدون إخفاء: أداء الخط الأساسي

تحليل الحالات

تعرض الورقة نتائج التصور لـ RRFNet-28:

  • درجات التشابه لكل زوج كتل معروضة بشكل حدسي
  • خرائط حرارية توضح التوزيع المكاني لتشابه الكتل
  • تظهر أزواج العينات الموجبة مناطق تشابه عالي متركزة في ميزات الوجه الرئيسية
  • تظهر أزواج العينات السالبة توزيعاً أقل وأكثر تشتتاً للتشابه

نتائج التجارب

  1. محلي مقابل عام: لا تؤدي حقول الاستقبال المقيدة بالضرورة إلى إضرار الأداء، وفي بعض الحالات قد تكون مفيدة
  2. تأثير حجم الكتلة: تحقق كتل 56×56 أفضل توازن بين الأداء والقابلية للتفسير
  3. أهمية الموضع: تعتبر المناطق المركزية من الوجه الأكثر حرجاً لقرار التحقق
  4. التحديات عبر الوضعيات: تظهر كتل 28×28 انخفاضاً أكثر وضوحاً في الأداء على مجموعات البيانات عبر الوضعيات

الأعمال ذات الصلة

تصنيف طرق الذكاء الاصطناعي القابل للتفسير

  1. طرق التفسير اللاحقة: LIME, SHAP, Grad-CAM وغيرها التي تولد أهمية على مستوى البكسل
  2. طرق التفسير المتأصلة: تصميم معماريات نماذج قابلة للتفسير بطبيعتها

قابلية التفسير في التعرف على الوجه

  • تعتمد الأعمال الموجودة بشكل أساسي على طرق التفسير اللاحقة
  • تفتقر إلى مقاييس موثوقة لتقييم جودة التفسير بشكل كمي
  • توفر هذه الورقة بديلاً قابلاً للتفسير بشكل متأصل

المعماريات ذات الصلة

  • ProtoPNet: تصنيف قائم على النماذج الأولية قابل للتفسير، لكن محدود بالتعرف على مجموعة مغلقة
  • BagNet: تقييد حقول استقبال CNN لتوفير تفسيرات محلية، لكن على حساب الدقة

الخلاصة والمناقشة

الاستنتاجات الرئيسية

  1. تحقق الطريقة المقترحة القائمة على حقول الاستقبال المقيدة التحقق من الوجه القابل للتفسير بشكل متأصل
  2. يتفوق RRFNet-56 على طرق SOTA مع الحفاظ على القابلية للتفسير
  3. حتى كتل 28×28 الصغيرة يمكنها تحقيق أداء منافسة
  4. توفر الطريقة تفسيرات لعملية اتخاذ القرار دون تكاليف حسابية إضافية

القيود

  1. التكاليف الحسابية: يزيد وقت التدريب بمقدار 3-7 مرات عن طرق الخط الأساسي
  2. اختيار الكتل: يستخدم التوزيع الموحد الثابت للكتل حالياً، وقد لا يكون الخيار الأمثل
  3. الأداء عبر الوضعيات: تنخفض أداء الكتل الصغيرة عند وجود تغيرات وضعية كبيرة
  4. قيود المعمارية: تم التحقق بشكل أساسي على ResNet، وتبقى قابلية التطبيق على معماريات أخرى قيد الاستكشاف

الاتجاهات المستقبلية

  1. اختيار الكتل التكيفي: اختيار حجم وموضع الكتل تلقائياً بناءً على محتوى الصورة
  2. تحسين المعمارية: استكشاف قابلية التطبيق على معماريات CNN أو ViT أخرى
  3. استراتيجيات الكتل الديناميكية: تعديل اختيار الكتل بناءً على أزواج الصور المقارنة
  4. التحليل النظري: تحليل عميق للعلاقة النظرية بين حقول الاستقبال المقيدة والأداء

التقييم المتعمق

المزايا

  1. ابتكار قوي: اقتراح نموذج جديد قابل للتفسير بشكل متأصل للتحقق من الوجه
  2. أداء متفوقة: تحقيق أو تجاوز SOTA مع ضمان القابلية للتفسير
  3. تجارب شاملة: تقييم شامل على مجموعات بيانات معيارية متعددة
  4. بساطة الطريقة: تحقيق أهداف معقدة من خلال تعديلات معمارية بسيطة
  5. القيمة العملية: توفير حل موثوق به للتطبيقات عالية المخاطر

أوجه القصور

  1. الكفاءة الحسابية: قد يحد الزيادة الكبيرة في وقت التدريب من التطبيقات العملية
  2. التحليل النظري: نقص التفسير النظري العميق لسبب تحسن الأداء مع حقول الاستقبال المقيدة
  3. قابلية التعميم: تم التحقق بشكل أساسي على مهام التحقق من الوجه، وتبقى قابلية التطبيق على مهام رؤية أخرى غير معروفة
  4. استراتيجية الكتل: قد لا تكون استراتيجية تقسيم الكتل الثابتة مناسبة لجميع السيناريوهات

التأثير

  1. المساهمة الأكاديمية: توفير اتجاه بحثي جديد لمجال الذكاء الاصطناعي القابل للتفسير
  2. القيمة العملية: آفاق تطبيق مهمة في المجالات الأمنية والطبية وغيرها من المجالات عالية المخاطر
  3. قابلية إعادة الإنتاج: وصف الطريقة واضح، مما يسهل إعادة الإنتاج والتوسع
  4. الإلهام: قد تلهم المزيد من الأبحاث حول نماذج قابلة للتفسير بشكل متأصل

السيناريوهات المطبقة

  1. التطبيقات عالية المخاطر: الأنظمة الأمنية التي تتطلب شرح عملية اتخاذ القرار
  2. البيئات التنظيمية: التطبيقات التجارية التي تحتاج إلى تلبية متطلبات القابلية للتفسير
  3. أدوات البحث: استخدام لتحليل سلوك نماذج التعرف على الوجه
  4. السيناريوهات التعليمية: مساعدة في فهم مبادئ عمل نماذج التعلم العميق

المراجع

تستشهد الورقة بـ 68 مرجعاً ذا صلة، تغطي بشكل أساسي:

  • طرق الذكاء الاصطناعي القابل للتفسير (Rudin 2019, Chen et al. 2019)
  • تقنيات التعرف على الوجه (Deng et al. 2019, Kim et al. 2022)
  • معماريات التعلم العميق (He et al. 2016)
  • مجموعات البيانات المعيارية للتقييم (Huang et al. 2007, Wu et al. 2024)

الملخص: تقترح هذه الورقة طريقة مبتكرة للتحقق من الوجه بناءً على حقول الاستقبال المقيدة، وتحقق بنجاح القابلية للتفسير المتأصلة مع الحفاظ على أداء عالية. يوفر هذا العمل فكراً جديداً قيماً لمجال الذكاء الاصطناعي القابل للتفسير، وهو مناسب بشكل خاص للتطبيقات عالية المخاطر التي تتطلب شفافية القرار. على الرغم من وجود قيود مثل التكاليف الحسابية ونقص التحليل النظري، فإن ابتكاريتها وقيمتها العملية تجعلها مساهمة مهمة في هذا المجال.