2025-11-13T00:16:11.561915

Restricted Receptive Fields for Face Verification

Ozturk, Bhatta, Wu et al.

Understanding how deep neural networks make decisions is crucial for analyzing their behavior and diagnosing failure cases. In computer vision, a common approach to improve interpretability is to assign importance to individual pixels using post-hoc methods. Although they are widely used to explain black-box models, their fidelity to the model's actual reasoning is uncertain due to the lack of reliable evaluation metrics. This limitation motivates an alternative approach, which is to design models whose decision processes are inherently interpretable. To this end, we propose a face similarity metric that breaks down global similarity into contributions from restricted receptive fields. Our method defines the similarity between two face images as the sum of patch-level similarity scores, providing a locally additive explanation without relying on post-hoc analysis. We show that the proposed approach achieves competitive verification performance even with patches as small as 28x28 within 112x112 face images, and surpasses state-of-the-art methods when using 56x56 patches.

academic

चेहरे की पहचान के लिए प्रतिबंधित ग्रहणशील क्षेत्र

मूल जानकारी

पेपर ID: 2510.10753
शीर्षक: Restricted Receptive Fields for Face Verification
लेखक: Kagan Ozturk, Aman Bhatta, Haiyu Wu, Patrick Flynn, Kevin W. Bowyer (University of Notre Dame)
वर्गीकरण: cs.CV (कंप्यूटर विजन)
प्रकाशन समय: 12 अक्टूबर 2025 (arXiv प्रीप्रिंट)
पेपर लिंक: https://arxiv.org/abs/2510.10753

सारांश

यह पेपर प्रतिबंधित ग्रहणशील क्षेत्रों पर आधारित चेहरे की पहचान की विधि प्रस्तावित करता है, जिसका उद्देश्य गहन तंत्रिका नेटवर्क के निर्णय प्रक्रिया की व्याख्या करने में असमर्थता की समस्या को हल करना है। पारंपरिक विधियां संपूर्ण चेहरे की छवि का प्रतिनिधित्व करने के लिए एकल वैश्विक विशेषता वेक्टर का उपयोग करती हैं, जबकि यह पेपर वैश्विक समानता को प्रतिबंधित ग्रहणशील क्षेत्रों से स्थानीय योगदान में विघटित करता है। यह विधि दो चेहरे की छवियों के बीच समानता को ब्लॉक-स्तरीय समानता स्कोर के योग के रूप में परिभाषित करती है, जो पश्चात विश्लेषण पर निर्भर किए बिना स्थानीय योगात्मक व्याख्या प्रदान करती है। प्रयोग दर्शाते हैं कि 112×112 चेहरे की छवियों में 28×28 के छोटे ब्लॉक का उपयोग करते हुए भी, यह विधि प्रतिस्पर्धी सत्यापन प्रदर्शन प्राप्त करती है, और 56×56 ब्लॉक का उपयोग करते समय वर्तमान अत्याधुनिक विधियों को पार करती है।

अनुसंधान पृष्ठभूमि और प्रेरणा

मूल समस्या

गहन तंत्रिका नेटवर्क चेहरे की पहचान के कार्य में उत्कृष्ट प्रदर्शन प्राप्त करते हैं, लेकिन उनकी निर्णय प्रक्रिया व्याख्या योग्यता की कमी है, जो उच्च जोखिम वाले अनुप्रयोग परिदृश्यों में एक गंभीर समस्या है।

समस्या की महत्ता

सुरक्षा आवश्यकताएं: चेहरे की पहचान प्रणालियां सुरक्षा और चिकित्सा जैसे उच्च जोखिम वाले क्षेत्रों में व्यापक रूप से लागू होती हैं, जिन्हें विश्वसनीय निर्णय प्रक्रिया की आवश्यकता होती है
विफलता निदान: मॉडल निर्णय तंत्र को समझना मॉडल व्यवहार का विश्लेषण करने और विफलता के मामलों का निदान करने के लिए महत्वपूर्ण है
नियामक अनुपालन: कई अनुप्रयोग परिदृश्यों में AI प्रणालियों को व्याख्या योग्यता की आवश्यकता होती है

मौजूदा विधियों की सीमाएं

पश्चात व्याख्या विधियां: मौजूदा व्याख्या योग्य AI विधियां मुख्य रूप से हीटमैप उत्पन्न करने के लिए पश्चात विश्लेषण पर निर्भर करती हैं, लेकिन विश्वसनीय मूल्यांकन मेट्रिक्स की कमी है
व्याख्या की विश्वसनीयता: समान हीटमैप सही और गलत दोनों भविष्यवाणियों के लिए उत्पन्न हो सकते हैं, जो व्याख्या की विश्वसनीयता को कम करता है
कम्प्यूटेशनल ओवरहेड: पश्चात विधियों को व्याख्या उत्पन्न करने के लिए अतिरिक्त कम्प्यूटेशनल संसाधनों की आवश्यकता होती है

अनुसंधान प्रेरणा

यह पेपर एक आंतरिक व्याख्या योग्य विकल्प प्रस्तावित करता है, जो पश्चात विश्लेषण विधियों पर निर्भर करने के बजाय, निर्णय प्रक्रिया को ही व्याख्या योग्य बनाने के लिए डिज़ाइन किए गए मॉडल के माध्यम से।

मूल योगदान

प्रतिबंधित ग्रहणशील क्षेत्रों पर आधारित चेहरे की समानता मेट्रिक विधि प्रस्तावित की: वैश्विक समानता को स्थानीय ब्लॉक-स्तरीय समानता के भारित योग में विघटित करता है
RRFNet आर्किटेक्चर डिज़ाइन किया: ResNet के मामूली संशोधन के माध्यम से, ब्लॉक-स्तरीय तुलना पर आधारित व्याख्या योग्य सत्यापन को लागू किया
विधि की प्रभावशीलता सत्यापित की: सात बेंचमार्क डेटासेट पर प्रतिस्पर्धी और यहां तक कि SOTA से बेहतर प्रदर्शन प्रदर्शित किया
आंतरिक व्याख्या योग्यता प्रदान की: अतिरिक्त कम्प्यूटेशन के बिना निर्णय प्रक्रिया की स्थानीय व्याख्या प्रदान करता है

विधि विवरण

कार्य परिभाषा

इनपुट: दो 112×112 चेहरे की छवियां A और B आउटपुट: बाइनरी सत्यापन निर्णय (समान/भिन्न पहचान) बाधा: निर्णय प्रक्रिया को स्थानीय क्षेत्र योगदान के संयोजन के रूप में व्याख्या योग्य होना चाहिए

मॉडल आर्किटेक्चर

विधि एक: क्षेत्र-आधारित समानता मेट्रिक

छवि विभाजन: प्रत्येक चेहरे की छवि को k w×h स्थानीय ब्लॉक में समान रूप से विभाजित करता है
स्वतंत्र विशेषता सीखना: प्रत्येक ब्लॉक के लिए N-आयामी विशेषता वेक्टर निकालने के लिए स्वतंत्र CNN को प्रशिक्षित करता है
स्थानीय समानता गणना: संबंधित ब्लॉक के बीच समानता की गणना करने के लिए कोसाइन समानता का उपयोग करता है:
```
S_local(P^A_i, P^B_i) = (f^A_i · f^B_i) / (||f^A_i|| ||f^B_i||)
```
वैश्विक समानता एकत्रीकरण: भारित योग के माध्यम से वैश्विक समानता प्राप्त करता है:
```
S_global(A,B) = Σ(i=1 to k) w_i · S_local(P^A_i, P^B_i)
```

विधि दो: प्रतिबंधित ग्रहणशील क्षेत्र नेटवर्क (RRFNet)

आर्किटेक्चर संशोधन: ResNet में मामूली संशोधन करता है, पहले ब्लॉक के स्ट्राइड को 2 से 1 में बदलता है
ब्लॉक-स्तरीय विशेषता निष्कर्षण: 28×28 (RRFNet-28) या 56×56 (RRFNet-56) छवि ब्लॉक से 512-आयामी विशेषताएं निकालता है
वैश्विक प्रतिनिधित्व: वैश्विक प्रतिनिधित्व को ब्लॉक-स्तरीय विशेषताओं के माध्य के रूप में परिभाषित करता है:
```
F^A = (1/K) Σ(i=1 to K) f^A_i
```
समानता गणना: वैश्विक समानता को ब्लॉक-स्तरीय विशेषता डॉट उत्पाद के संयोजन के रूप में व्यक्त किया जा सकता है

तकनीकी नवाचार बिंदु

आंतरिक व्याख्या योग्यता: पश्चात व्याख्या विधियों के विपरीत, यह विधि की व्याख्या निर्णय प्रक्रिया का एक अंतर्निहित घटक है
प्रदर्शन संरक्षण: चतुर आर्किटेक्चर डिज़ाइन के माध्यम से, व्याख्या योग्यता में सुधार करते हुए प्रतिस्पर्धी प्रदर्शन बनाए रखता है
लचीले ब्लॉक आकार: विभिन्न आकार के प्रतिबंधित ग्रहणशील क्षेत्रों का समर्थन करता है, प्रदर्शन और व्याख्या योग्यता को संतुलित करता है
एकीकृत ढांचा: वैश्विक समानता को स्थानीय योगदान में विघटित करने के लिए गणितीय ढांचा प्रदान करता है

प्रयोग सेटअप

डेटासेट

प्रशिक्षण डेटा: WebFace4M और CASIA-WebFace
परीक्षण डेटा: सात बेंचमार्क डेटासेट
- LFW: मानक चेहरे की पहचान बेंचमार्क
- CFP-FP, CPLFW: मुद्रा परिवर्तन मूल्यांकन
- AGEDB, CALFW: आयु परिवर्तन मूल्यांकन
- Eclipse (ECL): प्रकाश परिवर्तन मूल्यांकन
- Hadrian (HAD): चेहरे के बाल परिवर्तन मूल्यांकन

मूल्यांकन मेट्रिक्स

सत्यापन सटीकता (10-गुना क्रॉस-सत्यापन)
विभिन्न डेटासेट पर औसत सटीकता

तुलना विधियां

ArcFace (ResNet50/100)
AdaFace (ResNet50/100)
UniFace (ResNet50)
KP-RPE (ViT)

कार्यान्वयन विवरण

प्रशिक्षण एपोक्स: 20-30
डेटा संवर्धन: क्षैतिज फ्लिप, ±5 पिक्सल ऊर्ध्वाधर और क्षैतिज ऑफसेट
मास्क संवर्धन: 20% और 40% ब्लॉक मास्क अनुपात
आर्किटेक्चर: ResNet50/100 बैकबोन नेटवर्क

प्रयोग परिणाम

मुख्य परिणाम

RRFNet-56 प्रदर्शन:

WebFace4M+ResNet100 सेटअप में, सात डेटासेट पर औसत सटीकता 95.69% तक पहुंचती है
ArcFace (95.09%) और AdaFace (95.28%) जैसी SOTA विधियों को पार करता है
अधिकांश डेटासेट पर सर्वश्रेष्ठ प्रदर्शन प्राप्त करता है

RRFNet-28 प्रदर्शन:

औसत सटीकता 95.20% तक पहुंचती है, SOTA विधियों के साथ प्रतिस्पर्धी है
यह साबित करता है कि 28×28 के छोटे ब्लॉक का उपयोग करते हुए भी अच्छा प्रदर्शन बनाए रखा जा सकता है

विलोपन प्रयोग

एकल ब्लॉक प्रदर्शन विश्लेषण:

केंद्रीय क्षेत्र ब्लॉक (स्थिति 28,28) सर्वश्रेष्ठ प्रदर्शन करता है, एकल ब्लॉक सटीकता 94.41% तक पहुंचती है
चेहरे का निचला आधा हिस्सा आमतौर पर ऊपरी आधे से बेहतर होता है
Hadrian डेटासेट पर, ऊपरी आधा दाढ़ी परिवर्तन के कारण बेहतर प्रदर्शन करता है

ब्लॉक संयोजन रणनीति:

केवल 28×28 ब्लॉक: औसत 93.12%
केवल 56×56 ब्लॉक: औसत 95.18%
दोनों ब्लॉक आकार का संयोजन: औसत 95.51%

मास्क संवर्धन प्रभाव:

20% मास्क: अधिकांश सेटअप में सर्वश्रेष्ठ प्रदर्शन
40% मास्क: प्रदर्शन में मामूली कमी लेकिन अभी भी प्रतिस्पर्धी
कोई मास्क नहीं: आधारभूत प्रदर्शन

केस विश्लेषण

पेपर RRFNet-28 के दृश्य परिणाम प्रदर्शित करता है:

प्रत्येक ब्लॉक जोड़ी की समानता स्कोर सहज रूप से प्रदर्शित होती है
हीटमैप ब्लॉक समानता के स्थानिक वितरण को दर्शाता है
सकारात्मक नमूना जोड़ी उच्च समानता क्षेत्र को मुख्य चेहरे की विशेषताओं में केंद्रित दिखाती है
नकारात्मक नमूना जोड़ी कम और बिखरी हुई समानता वितरण दिखाती है

प्रयोग निष्कर्ष

स्थानीय बनाम वैश्विक: प्रतिबंधित ग्रहणशील क्षेत्र आवश्यक रूप से प्रदर्शन को नुकसान नहीं पहुंचाते, कुछ मामलों में लाभकारी हो सकते हैं
ब्लॉक आकार प्रभाव: 56×56 ब्लॉक प्रदर्शन और व्याख्या योग्यता के बीच सर्वश्रेष्ठ संतुलन प्राप्त करता है
स्थिति महत्व: चेहरे का केंद्रीय क्षेत्र सत्यापन निर्णय के लिए सबसे महत्वपूर्ण है
क्रॉस-मुद्रा चुनौती: 28×28 ब्लॉक क्रॉस-मुद्रा डेटासेट पर अधिक प्रदर्शन में कमी दिखाता है

प्रस्तावित प्रतिबंधित ग्रहणशील क्षेत्र-आधारित विधि आंतरिक व्याख्या योग्य चेहरे की पहचान को लागू करती है
RRFNet-56 व्याख्या योग्यता बनाए रखते हुए SOTA विधियों को पार करता है
28×28 के छोटे ब्लॉक भी प्रतिस्पर्धी प्रदर्शन प्राप्त कर सकते हैं
विधि अतिरिक्त कम्प्यूटेशन ओवरहेड के बिना निर्णय व्याख्या प्रदान करती है

सीमाएं

कम्प्यूटेशनल ओवरहेड: प्रशिक्षण समय आधारभूत विधि की तुलना में 3-7 गुना बढ़ता है
ब्लॉक चयन: वर्तमान में निश्चित समान वितरण ब्लॉक का उपयोग करता है, जो इष्टतम नहीं हो सकता है
क्रॉस-मुद्रा प्रदर्शन: छोटे ब्लॉक मुद्रा परिवर्तन के समय प्रदर्शन में कमी दिखाते हैं
आर्किटेक्चर सीमा: मुख्य रूप से ResNet पर सत्यापित, अन्य आर्किटेक्चर की प्रयोज्यता अन्वेषण की प्रतीक्षा में है

भविष्य की दिशाएं

अनुकूल ब्लॉक चयन: छवि सामग्री के आधार पर स्वचालित रूप से ब्लॉक आकार और स्थिति का चयन करता है
आर्किटेक्चर अनुकूलन: अन्य CNN या ViT आर्किटेक्चर की प्रयोज्यता की खोज करता है
गतिशील ब्लॉक रणनीति: तुलना की गई छवि जोड़ी के अनुसार ब्लॉक चयन रणनीति को समायोजित करता है
सैद्धांतिक विश्लेषण: प्रतिबंधित ग्रहणशील क्षेत्र और प्रदर्शन संबंध का गहन सैद्धांतिक विश्लेषण

गहन मूल्यांकन

शक्तियां

मजबूत नवाचार: आंतरिक व्याख्या योग्य चेहरे की पहचान का नया प्रतिमान प्रस्तावित करता है
उत्कृष्ट प्रदर्शन: व्याख्या योग्यता सुनिश्चित करते हुए SOTA को प्राप्त या पार करता है
व्यापक प्रयोग: कई बेंचमार्क डेटासेट पर व्यापक मूल्यांकन
सरल विधि: सरल आर्किटेक्चर संशोधन के माध्यम से जटिल लक्ष्य प्राप्त करता है
व्यावहारिक मूल्य: उच्च जोखिम वाले अनुप्रयोगों के लिए विश्वसनीय समाधान प्रदान करता है

कमियां

कम्प्यूटेशनल दक्षता: प्रशिक्षण समय में महत्वपूर्ण वृद्धि व्यावहारिक अनुप्रयोग को सीमित कर सकती है
सैद्धांतिक विश्लेषण: प्रतिबंधित ग्रहणशील क्षेत्र प्रदर्शन में सुधार क्यों करते हैं इसके गहन सैद्धांतिक व्याख्या की कमी है
सामान्यीकरण: मुख्य रूप से चेहरे की पहचान कार्य पर सत्यापित, अन्य दृश्य कार्यों की प्रयोज्यता अज्ञात है
ब्लॉक रणनीति: निश्चित ब्लॉक विभाजन रणनीति सभी परिदृश्यों के लिए उपयुक्त नहीं हो सकती है

प्रभाव

शैक्षणिक योगदान: व्याख्या योग्य AI क्षेत्र के लिए नई अनुसंधान दिशा प्रदान करता है
व्यावहारिक मूल्य: सुरक्षा, चिकित्सा आदि उच्च जोखिम वाले क्षेत्रों में महत्वपूर्ण अनुप्रयोग संभावना है
पुनरुत्पादनीयता: विधि विवरण स्पष्ट है, पुनरुत्पादन और विस्तार में आसान है
प्रेरणादायक: अधिक आंतरिक व्याख्या योग्य मॉडल अनुसंधान को प्रेरित कर सकता है

प्रयोज्य परिदृश्य

उच्च जोखिम वाले अनुप्रयोग: निर्णय प्रक्रिया की व्याख्या की आवश्यकता वाली सुरक्षा प्रणालियां
नियामक वातावरण: व्याख्या योग्यता आवश्यकताओं को पूरा करने वाले वाणिज्यिक अनुप्रयोग
अनुसंधान उपकरण: चेहरे की पहचान मॉडल व्यवहार विश्लेषण के लिए
शैक्षणिक परिदृश्य: गहन शिक्षण मॉडल कार्य सिद्धांत समझने में सहायता

संदर्भ

पेपर 68 संबंधित संदर्भों का हवाला देता है, मुख्य रूप से शामिल हैं:

व्याख्या योग्य AI विधियां (Rudin 2019, Chen et al. 2019)
चेहरे की पहचान तकनीकें (Deng et al. 2019, Kim et al. 2022)
गहन शिक्षण आर्किटेक्चर (He et al. 2016)
मूल्यांकन बेंचमार्क डेटासेट (Huang et al. 2007, Wu et al. 2024)

सारांश: यह पेपर प्रतिबंधित ग्रहणशील क्षेत्रों पर आधारित चेहरे की पहचान की एक नवीन विधि प्रस्तावित करता है, जो उच्च प्रदर्शन बनाए रखते हुए आंतरिक व्याख्या योग्यता को सफलतापूर्वक लागू करता है। यह कार्य व्याख्या योग्य AI क्षेत्र के लिए मूल्यवान नई सोच प्रदान करता है, विशेष रूप से निर्णय पारदर्शिता की आवश्यकता वाले उच्च जोखिम वाले अनुप्रयोग परिदृश्यों के लिए उपयुक्त है। कम्प्यूटेशनल ओवरहेड और सैद्धांतिक विश्लेषण की कमी जैसी सीमाओं के बावजूद, इसकी नवाचारिता और व्यावहारिक मूल्य इसे इस क्षेत्र का एक महत्वपूर्ण योगदान बनाता है।