2025-11-13T00:16:11.561915

Restricted Receptive Fields for Face Verification

Ozturk, Bhatta, Wu et al.

Understanding how deep neural networks make decisions is crucial for analyzing their behavior and diagnosing failure cases. In computer vision, a common approach to improve interpretability is to assign importance to individual pixels using post-hoc methods. Although they are widely used to explain black-box models, their fidelity to the model's actual reasoning is uncertain due to the lack of reliable evaluation metrics. This limitation motivates an alternative approach, which is to design models whose decision processes are inherently interpretable. To this end, we propose a face similarity metric that breaks down global similarity into contributions from restricted receptive fields. Our method defines the similarity between two face images as the sum of patch-level similarity scores, providing a locally additive explanation without relying on post-hoc analysis. We show that the proposed approach achieves competitive verification performance even with patches as small as 28x28 within 112x112 face images, and surpasses state-of-the-art methods when using 56x56 patches.

academic

Champs Réceptifs Restreints pour la Vérification Faciale

Informations Fondamentales

ID de l'article: 2510.10753
Titre: Restricted Receptive Fields for Face Verification
Auteurs: Kagan Ozturk, Aman Bhatta, Haiyu Wu, Patrick Flynn, Kevin W. Bowyer (Université de Notre Dame)
Classification: cs.CV (Vision par Ordinateur)
Date de publication: 12 octobre 2025 (prépublication arXiv)
Lien de l'article: https://arxiv.org/abs/2510.10753

Résumé

Cet article propose une méthode de vérification faciale basée sur des champs réceptifs restreints, visant à résoudre le problème de l'interprétabilité des processus décisionnels des réseaux de neurones profonds. Contrairement aux méthodes traditionnelles qui utilisent un vecteur de caractéristiques global unique pour représenter l'image faciale complète, cet article décompose la similarité globale en contributions locales provenant de champs réceptifs restreints. La méthode définit la similarité entre deux images faciales comme la somme des scores de similarité au niveau des blocs, fournissant une interprétabilité additive locale sans dépendre d'analyses post-hoc. Les expériences démontrent que même avec de petits blocs de 28×28 dans des images faciales de 112×112, la méthode atteint des performances de vérification compétitives, et avec des blocs de 56×56, elle surpasse les méthodes de pointe actuelles.

Contexte et Motivation de la Recherche

Problème Central

Les réseaux de neurones profonds ont obtenu des performances exceptionnelles dans les tâches de reconnaissance faciale, mais leurs processus décisionnels manquent de transparence, ce qui constitue un problème grave dans les scénarios d'application à haut risque.

Importance du Problème

Exigences de sécurité: Les systèmes de reconnaissance faciale sont largement utilisés dans les domaines de la sécurité et de la santé, nécessitant des processus décisionnels fiables
Diagnostic des défaillances: Comprendre les mécanismes décisionnels du modèle est crucial pour analyser le comportement du modèle et diagnostiquer les cas d'échec
Conformité réglementaire: De nombreux scénarios d'application exigent que les systèmes d'IA possèdent une interprétabilité

Limitations des Méthodes Existantes

Méthodes d'explication post-hoc: Les méthodes d'IA explicables existantes dépendent principalement d'analyses post-hoc pour générer des cartes thermiques, mais manquent de métriques d'évaluation fiables
Fiabilité des explications: Les mêmes cartes thermiques peuvent être produites pour les prédictions correctes et incorrectes, affaiblissant la fiabilité des explications
Surcharge computationnelle: Les méthodes post-hoc nécessitent des ressources de calcul supplémentaires pour générer des explications

Motivation de la Recherche

Cet article propose une alternative intrinsèquement interprétable en concevant des modèles dont le processus décisionnel est intrinsèquement interprétable, plutôt que de dépendre de méthodes d'analyse post-hoc.

Contributions Principales

Proposition d'une méthode de mesure de similarité faciale basée sur des champs réceptifs restreints: Décomposition de la similarité globale en une somme pondérée de similarités au niveau des blocs
Conception de l'architecture RRFNet: Réalisation d'une vérification interprétable basée sur la comparaison au niveau des blocs par des modifications mineures de ResNet
Validation de l'efficacité de la méthode: Démonstration de performances compétitives, voire supérieures aux méthodes de pointe, sur sept ensembles de données de référence
Fourniture d'interprétabilité intrinsèque: Capacité à fournir des explications locales du processus décisionnel sans calcul supplémentaire

Détails de la Méthode

Définition de la Tâche

Entrée: Deux images faciales de 112×112 pixels A et B Sortie: Décision de vérification binaire (même identité/identités différentes) Contrainte: Le processus décisionnel doit être interprétable comme une combinaison de contributions de régions locales

Architecture du Modèle

Approche 1: Mesure de Similarité Basée sur les Régions

Partitionnement d'image: Division uniforme de chaque image faciale en k blocs locaux de w×h
Apprentissage de caractéristiques indépendantes: Entraînement de CNN indépendants pour chaque bloc afin d'extraire des vecteurs de caractéristiques N-dimensionnels
Calcul de similarité locale: Utilisation de la similarité cosinus pour calculer la similarité entre blocs correspondants:
```
S_local(P^A_i, P^B_i) = (f^A_i · f^B_i) / (||f^A_i|| ||f^B_i||)
```
Agrégation de similarité globale: Obtention de la similarité globale par somme pondérée:
```
S_global(A,B) = Σ(i=1 to k) w_i · S_local(P^A_i, P^B_i)
```

Approche 2: Réseau à Champs Réceptifs Restreints (RRFNet)

Modification d'architecture: Modification mineure de ResNet, changement du pas du premier bloc de 2 à 1
Extraction de caractéristiques au niveau des blocs: Extraction de caractéristiques 512-dimensionnelles à partir de blocs d'image de 28×28 (RRFNet-28) ou 56×56 (RRFNet-56)
Représentation globale: Définition de la représentation globale comme la moyenne des caractéristiques au niveau des blocs:
```
F^A = (1/K) Σ(i=1 to K) f^A_i
```
Calcul de similarité: La similarité globale peut être exprimée comme une combinaison de produits scalaires de caractéristiques au niveau des blocs

Points d'Innovation Technique

Interprétabilité intrinsèque: Contrairement aux méthodes d'explication post-hoc, l'explication de cette méthode est une partie intégrante du processus décisionnel
Maintien des performances: Grâce à une conception d'architecture ingénieuse, la méthode maintient des performances compétitives tout en améliorant l'interprétabilité
Taille de bloc flexible: Support de différentes tailles de champs réceptifs restreints, équilibrant performance et interprétabilité
Cadre unifié: Fourniture d'un cadre mathématique pour décomposer la similarité globale en contributions locales

Configuration Expérimentale

Ensembles de Données

Données d'entraînement: WebFace4M et CASIA-WebFace
Données de test: Sept ensembles de données de référence
- LFW: Référence standard de vérification faciale
- CFP-FP, CPLFW: Évaluation des variations de pose
- AGEDB, CALFW: Évaluation des variations d'âge
- Eclipse (ECL): Évaluation des variations d'éclairage
- Hadrian (HAD): Évaluation des variations de pilosité faciale

Métriques d'Évaluation

Précision de vérification (validation croisée 10 fois)
Précision moyenne sur différents ensembles de données

Méthodes de Comparaison

ArcFace (ResNet50/100)
AdaFace (ResNet50/100)
UniFace (ResNet50)
KP-RPE (ViT)

Détails d'Implémentation

Nombre d'époques: 20-30
Augmentation de données: Retournement horizontal, décalages verticaux et horizontaux de ±5 pixels
Augmentation par masquage: Ratios de masquage de blocs de 20% et 40%
Architecture: Réseau de base ResNet50/100

Résultats Expérimentaux

Résultats Principaux

Performance de RRFNet-56:

Précision moyenne de 95,69% sur sept ensembles de données avec la configuration WebFace4M+ResNet100
Surpasse les méthodes de pointe telles qu'ArcFace (95,09%) et AdaFace (95,28%)
Atteint les meilleures performances sur la plupart des ensembles de données

Performance de RRFNet-28:

Précision moyenne de 95,20%, en concurrence avec les méthodes de pointe
Démontre que même avec de petits blocs de 28×28, de bonnes performances peuvent être maintenues

Études d'Ablation

Analyse de performance des blocs individuels:

Le bloc de région centrale (position 28,28) affiche les meilleures performances, avec une précision de bloc unique de 94,41%
La moitié inférieure du visage surpasse généralement la moitié supérieure
Sur l'ensemble de données Hadrian, la moitié supérieure affiche de meilleures performances en raison de l'impact des variations de barbe

Stratégies de combinaison de blocs:

Utilisation uniquement de blocs 28×28: 93,12% en moyenne
Utilisation uniquement de blocs 56×56: 95,18% en moyenne
Combinaison des deux tailles de blocs: 95,51% en moyenne

Effets de l'augmentation par masquage:

Masquage de 20%: Atteint les meilleures performances dans la plupart des configurations
Masquage de 40%: Performance légèrement réduite mais reste compétitive
Sans masquage: Performance de base

Analyse de Cas

L'article présente les résultats de visualisation de RRFNet-28:

Scores de similarité pour chaque paire de blocs affichés intuitivement
Cartes thermiques montrant la distribution spatiale de la similarité des blocs
Les paires d'échantillons positifs affichent des régions de similarité élevée concentrées sur les caractéristiques faciales clés
Les paires d'échantillons négatifs affichent une distribution de similarité plus faible et dispersée

Découvertes Expérimentales

Local vs Global: Les champs réceptifs restreints ne nuisent pas nécessairement aux performances, et peuvent même être bénéfiques dans certains cas
Impact de la taille des blocs: Les blocs de 56×56 offrent le meilleur équilibre entre performance et interprétabilité
Importance de la position: La région centrale du visage est la plus critique pour la décision de vérification
Défi transfrontalier de pose: Les blocs de 28×28 affichent une baisse de performance plus importante sur les ensembles de données transfrontaliers de pose

Travaux Connexes

Classification des Méthodes d'IA Explicable

Méthodes d'explication post-hoc: LIME, SHAP, Grad-CAM et autres générant une importance au niveau des pixels
Méthodes intrinsèquement explicables: Conception d'architectures de modèles intrinsèquement explicables

Explicabilité de la Reconnaissance Faciale

Les travaux existants adoptent principalement des méthodes d'explication post-hoc
Manque de métriques fiables pour évaluer quantitativement la qualité des explications
Cet article fournit une alternative intrinsèquement explicable

Architectures Connexes

ProtoPNet: Classification basée sur des prototypes explicables, mais limitée à la reconnaissance en ensemble fermé
BagNet: Restriction du champ réceptif du CNN pour fournir des explications locales, mais au prix d'une perte de précision

Conclusion et Discussion

Conclusions Principales

La méthode proposée basée sur des champs réceptifs restreints réalise une vérification faciale intrinsèquement explicable
RRFNet-56 surpasse les méthodes de pointe tout en maintenant l'explicabilité
Même de petits blocs de 28×28 peuvent atteindre des performances compétitives
La méthode fournit des explications du processus décisionnel sans surcharge computationnelle supplémentaire

Limitations

Surcharge computationnelle: Le temps d'entraînement augmente de 3 à 7 fois par rapport aux méthodes de base
Sélection de blocs: L'utilisation actuelle de blocs uniformément distribués fixes peut ne pas être optimale
Performance transfrontalière de pose: Les petits blocs affichent une baisse de performance avec des variations de pose importantes
Limitations d'architecture: Principalement validée sur ResNet, l'applicabilité à d'autres architectures reste à explorer

Directions Futures

Sélection de blocs adaptative: Sélection automatique de la taille et de la position des blocs en fonction du contenu de l'image
Optimisation d'architecture: Exploration de l'applicabilité d'autres architectures CNN ou ViT
Stratégie de blocs dynamique: Ajustement de la sélection des blocs en fonction de la paire d'images comparées
Analyse théorique: Approfondissement de l'analyse théorique de la relation entre champs réceptifs restreints et performance

Évaluation Approfondie

Points Forts

Innovation forte: Proposition d'un nouveau paradigme de vérification faciale intrinsèquement explicable
Performance excellente: Atteint ou surpasse les méthodes de pointe tout en garantissant l'explicabilité
Expérimentation complète: Évaluation complète sur plusieurs ensembles de données de référence
Méthode simple: Réalisation d'objectifs complexes par des modifications architecturales simples
Valeur pratique: Fournit une solution fiable pour les applications à haut risque

Insuffisances

Efficacité computationnelle: L'augmentation significative du temps d'entraînement peut limiter les applications pratiques
Analyse théorique: Manque d'explication théorique approfondie sur les raisons pour lesquelles les champs réceptifs restreints améliorent les performances
Généralisation: Principalement validée sur la tâche de vérification faciale, l'applicabilité à d'autres tâches visuelles reste inconnue
Stratégie de blocs: La stratégie fixe de partitionnement de blocs peut ne pas convenir à tous les scénarios

Impact

Contribution académique: Fournit une nouvelle direction de recherche pour le domaine de l'IA explicable
Valeur pratique: Perspectives d'application importantes dans les domaines à haut risque tels que la sécurité et la santé
Reproductibilité: Description claire de la méthode, facile à reproduire et étendre
Inspiration: Peut inspirer davantage de recherches sur les modèles intrinsèquement explicables

Scénarios d'Application

Applications à haut risque: Systèmes de sécurité nécessitant une explication des processus décisionnels
Environnements réglementaires: Applications commerciales devant satisfaire aux exigences d'explicabilité
Outils de recherche: Utilisation pour analyser le comportement des modèles de reconnaissance faciale
Contextes éducatifs: Aide à la compréhension des principes de fonctionnement des modèles d'apprentissage profond

Références

L'article cite 68 références connexes, couvrant principalement:

Méthodes d'IA explicable (Rudin 2019, Chen et al. 2019)
Techniques de reconnaissance faciale (Deng et al. 2019, Kim et al. 2022)
Architectures d'apprentissage profond (He et al. 2016)
Ensembles de données de référence d'évaluation (Huang et al. 2007, Wu et al. 2024)

Résumé: Cet article propose une méthode innovante de vérification faciale basée sur des champs réceptifs restreints, réussissant à réaliser une explicabilité intrinsèque tout en maintenant des performances élevées. Ce travail fournit une nouvelle perspective précieuse au domaine de l'IA explicable, particulièrement adaptée aux scénarios d'application à haut risque nécessitant une transparence décisionnelle. Malgré certaines limitations telles que la surcharge computationnelle et l'insuffisance de l'analyse théorique, son innovation et sa valeur pratique en font une contribution importante au domaine.