Understanding how deep neural networks make decisions is crucial for analyzing their behavior and diagnosing failure cases. In computer vision, a common approach to improve interpretability is to assign importance to individual pixels using post-hoc methods. Although they are widely used to explain black-box models, their fidelity to the model's actual reasoning is uncertain due to the lack of reliable evaluation metrics. This limitation motivates an alternative approach, which is to design models whose decision processes are inherently interpretable. To this end, we propose a face similarity metric that breaks down global similarity into contributions from restricted receptive fields. Our method defines the similarity between two face images as the sum of patch-level similarity scores, providing a locally additive explanation without relying on post-hoc analysis. We show that the proposed approach achieves competitive verification performance even with patches as small as 28x28 within 112x112 face images, and surpasses state-of-the-art methods when using 56x56 patches.
यह पेपर प्रतिबंधित ग्रहणशील क्षेत्रों पर आधारित चेहरे की पहचान की विधि प्रस्तावित करता है, जिसका उद्देश्य गहन तंत्रिका नेटवर्क के निर्णय प्रक्रिया की व्याख्या करने में असमर्थता की समस्या को हल करना है। पारंपरिक विधियां संपूर्ण चेहरे की छवि का प्रतिनिधित्व करने के लिए एकल वैश्विक विशेषता वेक्टर का उपयोग करती हैं, जबकि यह पेपर वैश्विक समानता को प्रतिबंधित ग्रहणशील क्षेत्रों से स्थानीय योगदान में विघटित करता है। यह विधि दो चेहरे की छवियों के बीच समानता को ब्लॉक-स्तरीय समानता स्कोर के योग के रूप में परिभाषित करती है, जो पश्चात विश्लेषण पर निर्भर किए बिना स्थानीय योगात्मक व्याख्या प्रदान करती है। प्रयोग दर्शाते हैं कि 112×112 चेहरे की छवियों में 28×28 के छोटे ब्लॉक का उपयोग करते हुए भी, यह विधि प्रतिस्पर्धी सत्यापन प्रदर्शन प्राप्त करती है, और 56×56 ब्लॉक का उपयोग करते समय वर्तमान अत्याधुनिक विधियों को पार करती है।
गहन तंत्रिका नेटवर्क चेहरे की पहचान के कार्य में उत्कृष्ट प्रदर्शन प्राप्त करते हैं, लेकिन उनकी निर्णय प्रक्रिया व्याख्या योग्यता की कमी है, जो उच्च जोखिम वाले अनुप्रयोग परिदृश्यों में एक गंभीर समस्या है।
सुरक्षा आवश्यकताएं: चेहरे की पहचान प्रणालियां सुरक्षा और चिकित्सा जैसे उच्च जोखिम वाले क्षेत्रों में व्यापक रूप से लागू होती हैं, जिन्हें विश्वसनीय निर्णय प्रक्रिया की आवश्यकता होती है
विफलता निदान: मॉडल निर्णय तंत्र को समझना मॉडल व्यवहार का विश्लेषण करने और विफलता के मामलों का निदान करने के लिए महत्वपूर्ण है
नियामक अनुपालन: कई अनुप्रयोग परिदृश्यों में AI प्रणालियों को व्याख्या योग्यता की आवश्यकता होती है
पश्चात व्याख्या विधियां: मौजूदा व्याख्या योग्य AI विधियां मुख्य रूप से हीटमैप उत्पन्न करने के लिए पश्चात विश्लेषण पर निर्भर करती हैं, लेकिन विश्वसनीय मूल्यांकन मेट्रिक्स की कमी है
व्याख्या की विश्वसनीयता: समान हीटमैप सही और गलत दोनों भविष्यवाणियों के लिए उत्पन्न हो सकते हैं, जो व्याख्या की विश्वसनीयता को कम करता है
कम्प्यूटेशनल ओवरहेड: पश्चात विधियों को व्याख्या उत्पन्न करने के लिए अतिरिक्त कम्प्यूटेशनल संसाधनों की आवश्यकता होती है
यह पेपर एक आंतरिक व्याख्या योग्य विकल्प प्रस्तावित करता है, जो पश्चात विश्लेषण विधियों पर निर्भर करने के बजाय, निर्णय प्रक्रिया को ही व्याख्या योग्य बनाने के लिए डिज़ाइन किए गए मॉडल के माध्यम से।
प्रतिबंधित ग्रहणशील क्षेत्रों पर आधारित चेहरे की समानता मेट्रिक विधि प्रस्तावित की: वैश्विक समानता को स्थानीय ब्लॉक-स्तरीय समानता के भारित योग में विघटित करता है
RRFNet आर्किटेक्चर डिज़ाइन किया: ResNet के मामूली संशोधन के माध्यम से, ब्लॉक-स्तरीय तुलना पर आधारित व्याख्या योग्य सत्यापन को लागू किया
विधि की प्रभावशीलता सत्यापित की: सात बेंचमार्क डेटासेट पर प्रतिस्पर्धी और यहां तक कि SOTA से बेहतर प्रदर्शन प्रदर्शित किया
आंतरिक व्याख्या योग्यता प्रदान की: अतिरिक्त कम्प्यूटेशन के बिना निर्णय प्रक्रिया की स्थानीय व्याख्या प्रदान करता है
इनपुट: दो 112×112 चेहरे की छवियां A और B
आउटपुट: बाइनरी सत्यापन निर्णय (समान/भिन्न पहचान)
बाधा: निर्णय प्रक्रिया को स्थानीय क्षेत्र योगदान के संयोजन के रूप में व्याख्या योग्य होना चाहिए
पेपर 68 संबंधित संदर्भों का हवाला देता है, मुख्य रूप से शामिल हैं:
व्याख्या योग्य AI विधियां (Rudin 2019, Chen et al. 2019)
चेहरे की पहचान तकनीकें (Deng et al. 2019, Kim et al. 2022)
गहन शिक्षण आर्किटेक्चर (He et al. 2016)
मूल्यांकन बेंचमार्क डेटासेट (Huang et al. 2007, Wu et al. 2024)
सारांश: यह पेपर प्रतिबंधित ग्रहणशील क्षेत्रों पर आधारित चेहरे की पहचान की एक नवीन विधि प्रस्तावित करता है, जो उच्च प्रदर्शन बनाए रखते हुए आंतरिक व्याख्या योग्यता को सफलतापूर्वक लागू करता है। यह कार्य व्याख्या योग्य AI क्षेत्र के लिए मूल्यवान नई सोच प्रदान करता है, विशेष रूप से निर्णय पारदर्शिता की आवश्यकता वाले उच्च जोखिम वाले अनुप्रयोग परिदृश्यों के लिए उपयुक्त है। कम्प्यूटेशनल ओवरहेड और सैद्धांतिक विश्लेषण की कमी जैसी सीमाओं के बावजूद, इसकी नवाचारिता और व्यावहारिक मूल्य इसे इस क्षेत्र का एक महत्वपूर्ण योगदान बनाता है।