2025-11-13T00:16:11.561915

Restricted Receptive Fields for Face Verification

Ozturk, Bhatta, Wu et al.
Understanding how deep neural networks make decisions is crucial for analyzing their behavior and diagnosing failure cases. In computer vision, a common approach to improve interpretability is to assign importance to individual pixels using post-hoc methods. Although they are widely used to explain black-box models, their fidelity to the model's actual reasoning is uncertain due to the lack of reliable evaluation metrics. This limitation motivates an alternative approach, which is to design models whose decision processes are inherently interpretable. To this end, we propose a face similarity metric that breaks down global similarity into contributions from restricted receptive fields. Our method defines the similarity between two face images as the sum of patch-level similarity scores, providing a locally additive explanation without relying on post-hoc analysis. We show that the proposed approach achieves competitive verification performance even with patches as small as 28x28 within 112x112 face images, and surpasses state-of-the-art methods when using 56x56 patches.
academic

Champs Réceptifs Restreints pour la Vérification Faciale

Informations Fondamentales

  • ID de l'article: 2510.10753
  • Titre: Restricted Receptive Fields for Face Verification
  • Auteurs: Kagan Ozturk, Aman Bhatta, Haiyu Wu, Patrick Flynn, Kevin W. Bowyer (Université de Notre Dame)
  • Classification: cs.CV (Vision par Ordinateur)
  • Date de publication: 12 octobre 2025 (prépublication arXiv)
  • Lien de l'article: https://arxiv.org/abs/2510.10753

Résumé

Cet article propose une méthode de vérification faciale basée sur des champs réceptifs restreints, visant à résoudre le problème de l'interprétabilité des processus décisionnels des réseaux de neurones profonds. Contrairement aux méthodes traditionnelles qui utilisent un vecteur de caractéristiques global unique pour représenter l'image faciale complète, cet article décompose la similarité globale en contributions locales provenant de champs réceptifs restreints. La méthode définit la similarité entre deux images faciales comme la somme des scores de similarité au niveau des blocs, fournissant une interprétabilité additive locale sans dépendre d'analyses post-hoc. Les expériences démontrent que même avec de petits blocs de 28×28 dans des images faciales de 112×112, la méthode atteint des performances de vérification compétitives, et avec des blocs de 56×56, elle surpasse les méthodes de pointe actuelles.

Contexte et Motivation de la Recherche

Problème Central

Les réseaux de neurones profonds ont obtenu des performances exceptionnelles dans les tâches de reconnaissance faciale, mais leurs processus décisionnels manquent de transparence, ce qui constitue un problème grave dans les scénarios d'application à haut risque.

Importance du Problème

  1. Exigences de sécurité: Les systèmes de reconnaissance faciale sont largement utilisés dans les domaines de la sécurité et de la santé, nécessitant des processus décisionnels fiables
  2. Diagnostic des défaillances: Comprendre les mécanismes décisionnels du modèle est crucial pour analyser le comportement du modèle et diagnostiquer les cas d'échec
  3. Conformité réglementaire: De nombreux scénarios d'application exigent que les systèmes d'IA possèdent une interprétabilité

Limitations des Méthodes Existantes

  1. Méthodes d'explication post-hoc: Les méthodes d'IA explicables existantes dépendent principalement d'analyses post-hoc pour générer des cartes thermiques, mais manquent de métriques d'évaluation fiables
  2. Fiabilité des explications: Les mêmes cartes thermiques peuvent être produites pour les prédictions correctes et incorrectes, affaiblissant la fiabilité des explications
  3. Surcharge computationnelle: Les méthodes post-hoc nécessitent des ressources de calcul supplémentaires pour générer des explications

Motivation de la Recherche

Cet article propose une alternative intrinsèquement interprétable en concevant des modèles dont le processus décisionnel est intrinsèquement interprétable, plutôt que de dépendre de méthodes d'analyse post-hoc.

Contributions Principales

  1. Proposition d'une méthode de mesure de similarité faciale basée sur des champs réceptifs restreints: Décomposition de la similarité globale en une somme pondérée de similarités au niveau des blocs
  2. Conception de l'architecture RRFNet: Réalisation d'une vérification interprétable basée sur la comparaison au niveau des blocs par des modifications mineures de ResNet
  3. Validation de l'efficacité de la méthode: Démonstration de performances compétitives, voire supérieures aux méthodes de pointe, sur sept ensembles de données de référence
  4. Fourniture d'interprétabilité intrinsèque: Capacité à fournir des explications locales du processus décisionnel sans calcul supplémentaire

Détails de la Méthode

Définition de la Tâche

Entrée: Deux images faciales de 112×112 pixels A et B Sortie: Décision de vérification binaire (même identité/identités différentes) Contrainte: Le processus décisionnel doit être interprétable comme une combinaison de contributions de régions locales

Architecture du Modèle

Approche 1: Mesure de Similarité Basée sur les Régions

  1. Partitionnement d'image: Division uniforme de chaque image faciale en k blocs locaux de w×h
  2. Apprentissage de caractéristiques indépendantes: Entraînement de CNN indépendants pour chaque bloc afin d'extraire des vecteurs de caractéristiques N-dimensionnels
  3. Calcul de similarité locale: Utilisation de la similarité cosinus pour calculer la similarité entre blocs correspondants:
    S_local(P^A_i, P^B_i) = (f^A_i · f^B_i) / (||f^A_i|| ||f^B_i||)
    
  4. Agrégation de similarité globale: Obtention de la similarité globale par somme pondérée:
    S_global(A,B) = Σ(i=1 to k) w_i · S_local(P^A_i, P^B_i)
    

Approche 2: Réseau à Champs Réceptifs Restreints (RRFNet)

  1. Modification d'architecture: Modification mineure de ResNet, changement du pas du premier bloc de 2 à 1
  2. Extraction de caractéristiques au niveau des blocs: Extraction de caractéristiques 512-dimensionnelles à partir de blocs d'image de 28×28 (RRFNet-28) ou 56×56 (RRFNet-56)
  3. Représentation globale: Définition de la représentation globale comme la moyenne des caractéristiques au niveau des blocs:
    F^A = (1/K) Σ(i=1 to K) f^A_i
    
  4. Calcul de similarité: La similarité globale peut être exprimée comme une combinaison de produits scalaires de caractéristiques au niveau des blocs

Points d'Innovation Technique

  1. Interprétabilité intrinsèque: Contrairement aux méthodes d'explication post-hoc, l'explication de cette méthode est une partie intégrante du processus décisionnel
  2. Maintien des performances: Grâce à une conception d'architecture ingénieuse, la méthode maintient des performances compétitives tout en améliorant l'interprétabilité
  3. Taille de bloc flexible: Support de différentes tailles de champs réceptifs restreints, équilibrant performance et interprétabilité
  4. Cadre unifié: Fourniture d'un cadre mathématique pour décomposer la similarité globale en contributions locales

Configuration Expérimentale

Ensembles de Données

  • Données d'entraînement: WebFace4M et CASIA-WebFace
  • Données de test: Sept ensembles de données de référence
    • LFW: Référence standard de vérification faciale
    • CFP-FP, CPLFW: Évaluation des variations de pose
    • AGEDB, CALFW: Évaluation des variations d'âge
    • Eclipse (ECL): Évaluation des variations d'éclairage
    • Hadrian (HAD): Évaluation des variations de pilosité faciale

Métriques d'Évaluation

  • Précision de vérification (validation croisée 10 fois)
  • Précision moyenne sur différents ensembles de données

Méthodes de Comparaison

  • ArcFace (ResNet50/100)
  • AdaFace (ResNet50/100)
  • UniFace (ResNet50)
  • KP-RPE (ViT)

Détails d'Implémentation

  • Nombre d'époques: 20-30
  • Augmentation de données: Retournement horizontal, décalages verticaux et horizontaux de ±5 pixels
  • Augmentation par masquage: Ratios de masquage de blocs de 20% et 40%
  • Architecture: Réseau de base ResNet50/100

Résultats Expérimentaux

Résultats Principaux

Performance de RRFNet-56:

  • Précision moyenne de 95,69% sur sept ensembles de données avec la configuration WebFace4M+ResNet100
  • Surpasse les méthodes de pointe telles qu'ArcFace (95,09%) et AdaFace (95,28%)
  • Atteint les meilleures performances sur la plupart des ensembles de données

Performance de RRFNet-28:

  • Précision moyenne de 95,20%, en concurrence avec les méthodes de pointe
  • Démontre que même avec de petits blocs de 28×28, de bonnes performances peuvent être maintenues

Études d'Ablation

Analyse de performance des blocs individuels:

  • Le bloc de région centrale (position 28,28) affiche les meilleures performances, avec une précision de bloc unique de 94,41%
  • La moitié inférieure du visage surpasse généralement la moitié supérieure
  • Sur l'ensemble de données Hadrian, la moitié supérieure affiche de meilleures performances en raison de l'impact des variations de barbe

Stratégies de combinaison de blocs:

  • Utilisation uniquement de blocs 28×28: 93,12% en moyenne
  • Utilisation uniquement de blocs 56×56: 95,18% en moyenne
  • Combinaison des deux tailles de blocs: 95,51% en moyenne

Effets de l'augmentation par masquage:

  • Masquage de 20%: Atteint les meilleures performances dans la plupart des configurations
  • Masquage de 40%: Performance légèrement réduite mais reste compétitive
  • Sans masquage: Performance de base

Analyse de Cas

L'article présente les résultats de visualisation de RRFNet-28:

  • Scores de similarité pour chaque paire de blocs affichés intuitivement
  • Cartes thermiques montrant la distribution spatiale de la similarité des blocs
  • Les paires d'échantillons positifs affichent des régions de similarité élevée concentrées sur les caractéristiques faciales clés
  • Les paires d'échantillons négatifs affichent une distribution de similarité plus faible et dispersée

Découvertes Expérimentales

  1. Local vs Global: Les champs réceptifs restreints ne nuisent pas nécessairement aux performances, et peuvent même être bénéfiques dans certains cas
  2. Impact de la taille des blocs: Les blocs de 56×56 offrent le meilleur équilibre entre performance et interprétabilité
  3. Importance de la position: La région centrale du visage est la plus critique pour la décision de vérification
  4. Défi transfrontalier de pose: Les blocs de 28×28 affichent une baisse de performance plus importante sur les ensembles de données transfrontaliers de pose

Travaux Connexes

Classification des Méthodes d'IA Explicable

  1. Méthodes d'explication post-hoc: LIME, SHAP, Grad-CAM et autres générant une importance au niveau des pixels
  2. Méthodes intrinsèquement explicables: Conception d'architectures de modèles intrinsèquement explicables

Explicabilité de la Reconnaissance Faciale

  • Les travaux existants adoptent principalement des méthodes d'explication post-hoc
  • Manque de métriques fiables pour évaluer quantitativement la qualité des explications
  • Cet article fournit une alternative intrinsèquement explicable

Architectures Connexes

  • ProtoPNet: Classification basée sur des prototypes explicables, mais limitée à la reconnaissance en ensemble fermé
  • BagNet: Restriction du champ réceptif du CNN pour fournir des explications locales, mais au prix d'une perte de précision

Conclusion et Discussion

Conclusions Principales

  1. La méthode proposée basée sur des champs réceptifs restreints réalise une vérification faciale intrinsèquement explicable
  2. RRFNet-56 surpasse les méthodes de pointe tout en maintenant l'explicabilité
  3. Même de petits blocs de 28×28 peuvent atteindre des performances compétitives
  4. La méthode fournit des explications du processus décisionnel sans surcharge computationnelle supplémentaire

Limitations

  1. Surcharge computationnelle: Le temps d'entraînement augmente de 3 à 7 fois par rapport aux méthodes de base
  2. Sélection de blocs: L'utilisation actuelle de blocs uniformément distribués fixes peut ne pas être optimale
  3. Performance transfrontalière de pose: Les petits blocs affichent une baisse de performance avec des variations de pose importantes
  4. Limitations d'architecture: Principalement validée sur ResNet, l'applicabilité à d'autres architectures reste à explorer

Directions Futures

  1. Sélection de blocs adaptative: Sélection automatique de la taille et de la position des blocs en fonction du contenu de l'image
  2. Optimisation d'architecture: Exploration de l'applicabilité d'autres architectures CNN ou ViT
  3. Stratégie de blocs dynamique: Ajustement de la sélection des blocs en fonction de la paire d'images comparées
  4. Analyse théorique: Approfondissement de l'analyse théorique de la relation entre champs réceptifs restreints et performance

Évaluation Approfondie

Points Forts

  1. Innovation forte: Proposition d'un nouveau paradigme de vérification faciale intrinsèquement explicable
  2. Performance excellente: Atteint ou surpasse les méthodes de pointe tout en garantissant l'explicabilité
  3. Expérimentation complète: Évaluation complète sur plusieurs ensembles de données de référence
  4. Méthode simple: Réalisation d'objectifs complexes par des modifications architecturales simples
  5. Valeur pratique: Fournit une solution fiable pour les applications à haut risque

Insuffisances

  1. Efficacité computationnelle: L'augmentation significative du temps d'entraînement peut limiter les applications pratiques
  2. Analyse théorique: Manque d'explication théorique approfondie sur les raisons pour lesquelles les champs réceptifs restreints améliorent les performances
  3. Généralisation: Principalement validée sur la tâche de vérification faciale, l'applicabilité à d'autres tâches visuelles reste inconnue
  4. Stratégie de blocs: La stratégie fixe de partitionnement de blocs peut ne pas convenir à tous les scénarios

Impact

  1. Contribution académique: Fournit une nouvelle direction de recherche pour le domaine de l'IA explicable
  2. Valeur pratique: Perspectives d'application importantes dans les domaines à haut risque tels que la sécurité et la santé
  3. Reproductibilité: Description claire de la méthode, facile à reproduire et étendre
  4. Inspiration: Peut inspirer davantage de recherches sur les modèles intrinsèquement explicables

Scénarios d'Application

  1. Applications à haut risque: Systèmes de sécurité nécessitant une explication des processus décisionnels
  2. Environnements réglementaires: Applications commerciales devant satisfaire aux exigences d'explicabilité
  3. Outils de recherche: Utilisation pour analyser le comportement des modèles de reconnaissance faciale
  4. Contextes éducatifs: Aide à la compréhension des principes de fonctionnement des modèles d'apprentissage profond

Références

L'article cite 68 références connexes, couvrant principalement:

  • Méthodes d'IA explicable (Rudin 2019, Chen et al. 2019)
  • Techniques de reconnaissance faciale (Deng et al. 2019, Kim et al. 2022)
  • Architectures d'apprentissage profond (He et al. 2016)
  • Ensembles de données de référence d'évaluation (Huang et al. 2007, Wu et al. 2024)

Résumé: Cet article propose une méthode innovante de vérification faciale basée sur des champs réceptifs restreints, réussissant à réaliser une explicabilité intrinsèque tout en maintenant des performances élevées. Ce travail fournit une nouvelle perspective précieuse au domaine de l'IA explicable, particulièrement adaptée aux scénarios d'application à haut risque nécessitant une transparence décisionnelle. Malgré certaines limitations telles que la surcharge computationnelle et l'insuffisance de l'analyse théorique, son innovation et sa valeur pratique en font une contribution importante au domaine.