Understanding how deep neural networks make decisions is crucial for analyzing their behavior and diagnosing failure cases. In computer vision, a common approach to improve interpretability is to assign importance to individual pixels using post-hoc methods. Although they are widely used to explain black-box models, their fidelity to the model's actual reasoning is uncertain due to the lack of reliable evaluation metrics. This limitation motivates an alternative approach, which is to design models whose decision processes are inherently interpretable. To this end, we propose a face similarity metric that breaks down global similarity into contributions from restricted receptive fields. Our method defines the similarity between two face images as the sum of patch-level similarity scores, providing a locally additive explanation without relying on post-hoc analysis. We show that the proposed approach achieves competitive verification performance even with patches as small as 28x28 within 112x112 face images, and surpasses state-of-the-art methods when using 56x56 patches.
academic
Champs Réceptifs Restreints pour la Vérification Faciale
Cet article propose une méthode de vérification faciale basée sur des champs réceptifs restreints, visant à résoudre le problème de l'interprétabilité des processus décisionnels des réseaux de neurones profonds. Contrairement aux méthodes traditionnelles qui utilisent un vecteur de caractéristiques global unique pour représenter l'image faciale complète, cet article décompose la similarité globale en contributions locales provenant de champs réceptifs restreints. La méthode définit la similarité entre deux images faciales comme la somme des scores de similarité au niveau des blocs, fournissant une interprétabilité additive locale sans dépendre d'analyses post-hoc. Les expériences démontrent que même avec de petits blocs de 28×28 dans des images faciales de 112×112, la méthode atteint des performances de vérification compétitives, et avec des blocs de 56×56, elle surpasse les méthodes de pointe actuelles.
Les réseaux de neurones profonds ont obtenu des performances exceptionnelles dans les tâches de reconnaissance faciale, mais leurs processus décisionnels manquent de transparence, ce qui constitue un problème grave dans les scénarios d'application à haut risque.
Exigences de sécurité: Les systèmes de reconnaissance faciale sont largement utilisés dans les domaines de la sécurité et de la santé, nécessitant des processus décisionnels fiables
Diagnostic des défaillances: Comprendre les mécanismes décisionnels du modèle est crucial pour analyser le comportement du modèle et diagnostiquer les cas d'échec
Conformité réglementaire: De nombreux scénarios d'application exigent que les systèmes d'IA possèdent une interprétabilité
Méthodes d'explication post-hoc: Les méthodes d'IA explicables existantes dépendent principalement d'analyses post-hoc pour générer des cartes thermiques, mais manquent de métriques d'évaluation fiables
Fiabilité des explications: Les mêmes cartes thermiques peuvent être produites pour les prédictions correctes et incorrectes, affaiblissant la fiabilité des explications
Surcharge computationnelle: Les méthodes post-hoc nécessitent des ressources de calcul supplémentaires pour générer des explications
Cet article propose une alternative intrinsèquement interprétable en concevant des modèles dont le processus décisionnel est intrinsèquement interprétable, plutôt que de dépendre de méthodes d'analyse post-hoc.
Proposition d'une méthode de mesure de similarité faciale basée sur des champs réceptifs restreints: Décomposition de la similarité globale en une somme pondérée de similarités au niveau des blocs
Conception de l'architecture RRFNet: Réalisation d'une vérification interprétable basée sur la comparaison au niveau des blocs par des modifications mineures de ResNet
Validation de l'efficacité de la méthode: Démonstration de performances compétitives, voire supérieures aux méthodes de pointe, sur sept ensembles de données de référence
Fourniture d'interprétabilité intrinsèque: Capacité à fournir des explications locales du processus décisionnel sans calcul supplémentaire
Entrée: Deux images faciales de 112×112 pixels A et B
Sortie: Décision de vérification binaire (même identité/identités différentes)
Contrainte: Le processus décisionnel doit être interprétable comme une combinaison de contributions de régions locales
Partitionnement d'image: Division uniforme de chaque image faciale en k blocs locaux de w×h
Apprentissage de caractéristiques indépendantes: Entraînement de CNN indépendants pour chaque bloc afin d'extraire des vecteurs de caractéristiques N-dimensionnels
Calcul de similarité locale: Utilisation de la similarité cosinus pour calculer la similarité entre blocs correspondants:
Modification d'architecture: Modification mineure de ResNet, changement du pas du premier bloc de 2 à 1
Extraction de caractéristiques au niveau des blocs: Extraction de caractéristiques 512-dimensionnelles à partir de blocs d'image de 28×28 (RRFNet-28) ou 56×56 (RRFNet-56)
Représentation globale: Définition de la représentation globale comme la moyenne des caractéristiques au niveau des blocs:
F^A = (1/K) Σ(i=1 to K) f^A_i
Calcul de similarité: La similarité globale peut être exprimée comme une combinaison de produits scalaires de caractéristiques au niveau des blocs
Interprétabilité intrinsèque: Contrairement aux méthodes d'explication post-hoc, l'explication de cette méthode est une partie intégrante du processus décisionnel
Maintien des performances: Grâce à une conception d'architecture ingénieuse, la méthode maintient des performances compétitives tout en améliorant l'interprétabilité
Taille de bloc flexible: Support de différentes tailles de champs réceptifs restreints, équilibrant performance et interprétabilité
Cadre unifié: Fourniture d'un cadre mathématique pour décomposer la similarité globale en contributions locales
Local vs Global: Les champs réceptifs restreints ne nuisent pas nécessairement aux performances, et peuvent même être bénéfiques dans certains cas
Impact de la taille des blocs: Les blocs de 56×56 offrent le meilleur équilibre entre performance et interprétabilité
Importance de la position: La région centrale du visage est la plus critique pour la décision de vérification
Défi transfrontalier de pose: Les blocs de 28×28 affichent une baisse de performance plus importante sur les ensembles de données transfrontaliers de pose
Efficacité computationnelle: L'augmentation significative du temps d'entraînement peut limiter les applications pratiques
Analyse théorique: Manque d'explication théorique approfondie sur les raisons pour lesquelles les champs réceptifs restreints améliorent les performances
Généralisation: Principalement validée sur la tâche de vérification faciale, l'applicabilité à d'autres tâches visuelles reste inconnue
Stratégie de blocs: La stratégie fixe de partitionnement de blocs peut ne pas convenir à tous les scénarios
Méthodes d'IA explicable (Rudin 2019, Chen et al. 2019)
Techniques de reconnaissance faciale (Deng et al. 2019, Kim et al. 2022)
Architectures d'apprentissage profond (He et al. 2016)
Ensembles de données de référence d'évaluation (Huang et al. 2007, Wu et al. 2024)
Résumé: Cet article propose une méthode innovante de vérification faciale basée sur des champs réceptifs restreints, réussissant à réaliser une explicabilité intrinsèque tout en maintenant des performances élevées. Ce travail fournit une nouvelle perspective précieuse au domaine de l'IA explicable, particulièrement adaptée aux scénarios d'application à haut risque nécessitant une transparence décisionnelle. Malgré certaines limitations telles que la surcharge computationnelle et l'insuffisance de l'analyse théorique, son innovation et sa valeur pratique en font une contribution importante au domaine.