Understanding how deep neural networks make decisions is crucial for analyzing their behavior and diagnosing failure cases. In computer vision, a common approach to improve interpretability is to assign importance to individual pixels using post-hoc methods. Although they are widely used to explain black-box models, their fidelity to the model's actual reasoning is uncertain due to the lack of reliable evaluation metrics. This limitation motivates an alternative approach, which is to design models whose decision processes are inherently interpretable. To this end, we propose a face similarity metric that breaks down global similarity into contributions from restricted receptive fields. Our method defines the similarity between two face images as the sum of patch-level similarity scores, providing a locally additive explanation without relying on post-hoc analysis. We show that the proposed approach achieves competitive verification performance even with patches as small as 28x28 within 112x112 face images, and surpasses state-of-the-art methods when using 56x56 patches.
academic
Campos Receptivos Restringidos para Verificación Facial
Este artículo propone un método de verificación facial basado en campos receptivos restringidos, cuyo objetivo es abordar el problema de la falta de interpretabilidad en el proceso de decisión de redes neuronales profundas. Los métodos tradicionales utilizan un único vector de características global para representar la imagen facial completa, mientras que este trabajo descompone la similitud global en contribuciones locales provenientes de campos receptivos restringidos. El método define la similitud entre dos imágenes faciales como la suma de puntuaciones de similitud a nivel de bloque, proporcionando una interpretabilidad aditiva local sin depender de análisis posteriores. Los experimentos demuestran que incluso utilizando bloques pequeños de 28×28 en imágenes faciales de 112×112, el método logra un desempeño competitivo de verificación, y con bloques de 56×56 supera los métodos de última generación actuales.
Las redes neuronales profundas han logrado un desempeño excepcional en tareas de reconocimiento facial, pero su proceso de decisión carece de interpretabilidad, lo cual es un problema grave en escenarios de aplicación de alto riesgo.
Requisitos de Seguridad: Los sistemas de reconocimiento facial se aplican ampliamente en campos de seguridad y medicina, requiriendo procesos de decisión confiables
Diagnóstico de Fallos: Comprender el mecanismo de decisión del modelo es crucial para analizar el comportamiento del modelo y diagnosticar casos de fallo
Cumplimiento Normativo: Muchos escenarios de aplicación requieren que los sistemas de IA sean interpretables
Métodos de Explicación Posteriores: Los métodos actuales de IA interpretable dependen principalmente de análisis posteriores para generar mapas de calor, pero carecen de métricas de evaluación confiables
Confiabilidad de Explicaciones: El mismo mapa de calor puede producirse tanto para predicciones correctas como incorrectas, debilitando la confiabilidad de las explicaciones
Costo Computacional: Los métodos posteriores requieren recursos computacionales adicionales para generar explicaciones
Este trabajo propone una alternativa intrínsecamente interpretable, diseñando modelos cuyo proceso de decisión sea inherentemente interpretable, en lugar de depender de métodos de análisis posteriores.
Propone un método de métrica de similitud facial basado en campos receptivos restringidos: Descompone la similitud global en una suma ponderada de similitudes a nivel de bloque
Diseña la arquitectura RRFNet: Mediante modificaciones menores a ResNet, implementa verificación interpretable basada en comparación a nivel de bloque
Valida la efectividad del método: Demuestra desempeño competitivo e incluso superior al SOTA en siete conjuntos de datos de referencia
Proporciona Interpretabilidad Intrínseca: Ofrece explicaciones locales del proceso de decisión sin requerir cálculos adicionales
Entrada: Dos imágenes faciales de 112×112 A y B
Salida: Decisión de verificación binaria (identidad igual/diferente)
Restricción: El proceso de decisión debe ser interpretable como una combinación de contribuciones de regiones locales
Modificación de Arquitectura: Modifica ResNet ligeramente, cambiando el paso del primer bloque de 2 a 1
Extracción de Características a Nivel de Bloque: Extrae características de 512 dimensiones de bloques de imagen de 28×28 (RRFNet-28) o 56×56 (RRFNet-56)
Representación Global: Define la representación global como el promedio de características a nivel de bloque:
F^A = (1/K) Σ(i=1 a K) f^A_i
Cálculo de Similitud: La similitud global puede expresarse como una combinación de productos punto de características a nivel de bloque
Interpretabilidad Intrínseca: A diferencia de los métodos de explicación posteriores, la explicación de este método es una parte integral del proceso de decisión
Mantenimiento de Desempeño: Mediante diseño arquitectónico ingenioso, mantiene desempeño competitivo mientras mejora la interpretabilidad
Tamaño de Bloque Flexible: Soporta campos receptivos restringidos de diferentes tamaños, equilibrando desempeño e interpretabilidad
Marco Unificado: Proporciona un marco matemático para descomponer similitud global en contribuciones locales
El artículo cita 68 referencias relacionadas, cubriendo principalmente:
Métodos de IA Interpretable (Rudin 2019, Chen et al. 2019)
Tecnología de Reconocimiento Facial (Deng et al. 2019, Kim et al. 2022)
Arquitecturas de Aprendizaje Profundo (He et al. 2016)
Conjuntos de Datos de Referencia de Evaluación (Huang et al. 2007, Wu et al. 2024)
Resumen: Este artículo propone un método innovador de verificación facial basado en campos receptivos restringidos, logrando exitosamente interpretabilidad intrínseca mientras mantiene alto desempeño. Este trabajo proporciona ideas valiosas y nuevas para el campo de IA interpretable, siendo particularmente adecuado para escenarios de alto riesgo que requieren transparencia en decisiones. A pesar de limitaciones como costo computacional e insuficiencia en análisis teórico, su innovación y valor práctico lo convierten en una contribución importante en este campo.