2025-11-13T00:16:11.561915

Restricted Receptive Fields for Face Verification

Ozturk, Bhatta, Wu et al.
Understanding how deep neural networks make decisions is crucial for analyzing their behavior and diagnosing failure cases. In computer vision, a common approach to improve interpretability is to assign importance to individual pixels using post-hoc methods. Although they are widely used to explain black-box models, their fidelity to the model's actual reasoning is uncertain due to the lack of reliable evaluation metrics. This limitation motivates an alternative approach, which is to design models whose decision processes are inherently interpretable. To this end, we propose a face similarity metric that breaks down global similarity into contributions from restricted receptive fields. Our method defines the similarity between two face images as the sum of patch-level similarity scores, providing a locally additive explanation without relying on post-hoc analysis. We show that the proposed approach achieves competitive verification performance even with patches as small as 28x28 within 112x112 face images, and surpasses state-of-the-art methods when using 56x56 patches.
academic

Campos Receptivos Restringidos para Verificación Facial

Información Básica

  • ID del Artículo: 2510.10753
  • Título: Campos Receptivos Restringidos para Verificación Facial
  • Autores: Kagan Ozturk, Aman Bhatta, Haiyu Wu, Patrick Flynn, Kevin W. Bowyer (Universidad de Notre Dame)
  • Clasificación: cs.CV (Visión por Computadora)
  • Fecha de Publicación: 12 de octubre de 2025 (preimpresión arXiv)
  • Enlace del Artículo: https://arxiv.org/abs/2510.10753

Resumen

Este artículo propone un método de verificación facial basado en campos receptivos restringidos, cuyo objetivo es abordar el problema de la falta de interpretabilidad en el proceso de decisión de redes neuronales profundas. Los métodos tradicionales utilizan un único vector de características global para representar la imagen facial completa, mientras que este trabajo descompone la similitud global en contribuciones locales provenientes de campos receptivos restringidos. El método define la similitud entre dos imágenes faciales como la suma de puntuaciones de similitud a nivel de bloque, proporcionando una interpretabilidad aditiva local sin depender de análisis posteriores. Los experimentos demuestran que incluso utilizando bloques pequeños de 28×28 en imágenes faciales de 112×112, el método logra un desempeño competitivo de verificación, y con bloques de 56×56 supera los métodos de última generación actuales.

Antecedentes de Investigación y Motivación

Problema Central

Las redes neuronales profundas han logrado un desempeño excepcional en tareas de reconocimiento facial, pero su proceso de decisión carece de interpretabilidad, lo cual es un problema grave en escenarios de aplicación de alto riesgo.

Importancia del Problema

  1. Requisitos de Seguridad: Los sistemas de reconocimiento facial se aplican ampliamente en campos de seguridad y medicina, requiriendo procesos de decisión confiables
  2. Diagnóstico de Fallos: Comprender el mecanismo de decisión del modelo es crucial para analizar el comportamiento del modelo y diagnosticar casos de fallo
  3. Cumplimiento Normativo: Muchos escenarios de aplicación requieren que los sistemas de IA sean interpretables

Limitaciones de Métodos Existentes

  1. Métodos de Explicación Posteriores: Los métodos actuales de IA interpretable dependen principalmente de análisis posteriores para generar mapas de calor, pero carecen de métricas de evaluación confiables
  2. Confiabilidad de Explicaciones: El mismo mapa de calor puede producirse tanto para predicciones correctas como incorrectas, debilitando la confiabilidad de las explicaciones
  3. Costo Computacional: Los métodos posteriores requieren recursos computacionales adicionales para generar explicaciones

Motivación de la Investigación

Este trabajo propone una alternativa intrínsecamente interpretable, diseñando modelos cuyo proceso de decisión sea inherentemente interpretable, en lugar de depender de métodos de análisis posteriores.

Contribuciones Principales

  1. Propone un método de métrica de similitud facial basado en campos receptivos restringidos: Descompone la similitud global en una suma ponderada de similitudes a nivel de bloque
  2. Diseña la arquitectura RRFNet: Mediante modificaciones menores a ResNet, implementa verificación interpretable basada en comparación a nivel de bloque
  3. Valida la efectividad del método: Demuestra desempeño competitivo e incluso superior al SOTA en siete conjuntos de datos de referencia
  4. Proporciona Interpretabilidad Intrínseca: Ofrece explicaciones locales del proceso de decisión sin requerir cálculos adicionales

Explicación Detallada del Método

Definición de la Tarea

Entrada: Dos imágenes faciales de 112×112 A y B Salida: Decisión de verificación binaria (identidad igual/diferente) Restricción: El proceso de decisión debe ser interpretable como una combinación de contribuciones de regiones locales

Arquitectura del Modelo

Método Uno: Métrica de Similitud Basada en Regiones

  1. División de Imagen: Divide uniformemente cada imagen facial en k bloques locales de w×h
  2. Aprendizaje de Características Independientes: Entrena CNN independientes para cada bloque para extraer vectores de características de N dimensiones
  3. Cálculo de Similitud Local: Utiliza similitud de coseno para calcular la similitud entre bloques correspondientes:
    S_local(P^A_i, P^B_i) = (f^A_i · f^B_i) / (||f^A_i|| ||f^B_i||)
    
  4. Agregación de Similitud Global: Obtiene similitud global mediante suma ponderada:
    S_global(A,B) = Σ(i=1 a k) w_i · S_local(P^A_i, P^B_i)
    

Método Dos: Red de Campos Receptivos Restringidos (RRFNet)

  1. Modificación de Arquitectura: Modifica ResNet ligeramente, cambiando el paso del primer bloque de 2 a 1
  2. Extracción de Características a Nivel de Bloque: Extrae características de 512 dimensiones de bloques de imagen de 28×28 (RRFNet-28) o 56×56 (RRFNet-56)
  3. Representación Global: Define la representación global como el promedio de características a nivel de bloque:
    F^A = (1/K) Σ(i=1 a K) f^A_i
    
  4. Cálculo de Similitud: La similitud global puede expresarse como una combinación de productos punto de características a nivel de bloque

Puntos de Innovación Técnica

  1. Interpretabilidad Intrínseca: A diferencia de los métodos de explicación posteriores, la explicación de este método es una parte integral del proceso de decisión
  2. Mantenimiento de Desempeño: Mediante diseño arquitectónico ingenioso, mantiene desempeño competitivo mientras mejora la interpretabilidad
  3. Tamaño de Bloque Flexible: Soporta campos receptivos restringidos de diferentes tamaños, equilibrando desempeño e interpretabilidad
  4. Marco Unificado: Proporciona un marco matemático para descomponer similitud global en contribuciones locales

Configuración Experimental

Conjuntos de Datos

  • Datos de Entrenamiento: WebFace4M y CASIA-WebFace
  • Datos de Prueba: Siete conjuntos de datos de referencia
    • LFW: Referencia estándar de verificación facial
    • CFP-FP, CPLFW: Evaluación de cambios de pose
    • AGEDB, CALFW: Evaluación de cambios de edad
    • Eclipse (ECL): Evaluación de cambios de iluminación
    • Hadrian (HAD): Evaluación de cambios de vello facial

Métricas de Evaluación

  • Precisión de verificación (validación cruzada de 10 pliegues)
  • Precisión promedio en diferentes conjuntos de datos

Métodos de Comparación

  • ArcFace (ResNet50/100)
  • AdaFace (ResNet50/100)
  • UniFace (ResNet50)
  • KP-RPE (ViT)

Detalles de Implementación

  • Épocas de Entrenamiento: 20-30
  • Aumento de Datos: Volteo horizontal, desplazamientos verticales y horizontales de ±5 píxeles
  • Aumento de Máscara: Proporciones de máscara de bloque del 20% y 40%
  • Arquitectura: Red troncal ResNet50/100

Resultados Experimentales

Resultados Principales

Desempeño de RRFNet-56:

  • Bajo la configuración WebFace4M+ResNet100, logra una precisión promedio del 95.69% en siete conjuntos de datos
  • Supera métodos SOTA como ArcFace (95.09%) y AdaFace (95.28%)
  • Logra el mejor desempeño en la mayoría de los conjuntos de datos

Desempeño de RRFNet-28:

  • Logra una precisión promedio del 95.20%, compitiendo intensamente con métodos SOTA
  • Demuestra que incluso con bloques pequeños de 28×28 se puede mantener buen desempeño

Experimentos de Ablación

Análisis de Desempeño de Bloques Individuales:

  • El bloque de región central (posición 28,28) muestra el mejor desempeño, con precisión de bloque único del 94.41%
  • La mitad inferior del rostro generalmente supera a la mitad superior
  • En el conjunto de datos Hadrian, la mitad superior tiene mejor desempeño debido al impacto de cambios de barba

Estrategias de Combinación de Bloques:

  • Solo bloques de 28×28: promedio del 93.12%
  • Solo bloques de 56×56: promedio del 95.18%
  • Combinación de ambos tamaños de bloque: promedio del 95.51%

Efecto del Aumento de Máscara:

  • Máscara del 20%: logra el mejor desempeño en la mayoría de configuraciones
  • Máscara del 40%: desempeño ligeramente reducido pero aún competitivo
  • Sin máscara: desempeño de línea base

Análisis de Casos

El artículo presenta resultados de visualización de RRFNet-28:

  • Puntuaciones de similitud de cada par de bloques mostradas intuitivamente
  • Mapas de calor que muestran la distribución espacial de similitud de bloques
  • Pares de muestras positivas muestran regiones de alta similitud concentradas en características faciales clave
  • Pares de muestras negativas muestran distribución de similitud más baja y dispersa

Hallazgos Experimentales

  1. Local vs Global: Los campos receptivos restringidos no necesariamente dañan el desempeño, en algunos casos pueden ser beneficiosos
  2. Impacto del Tamaño de Bloque: Los bloques de 56×56 logran el mejor equilibrio entre desempeño e interpretabilidad
  3. Importancia de la Posición: La región central del rostro es más crítica para la decisión de verificación
  4. Desafío Transversal de Pose: Los bloques de 28×28 muestran mayor caída de desempeño en conjuntos de datos con cambios de pose

Trabajo Relacionado

Clasificación de Métodos de IA Interpretable

  1. Métodos de Explicación Posteriores: LIME, SHAP, Grad-CAM, etc., generan importancia a nivel de píxel
  2. Métodos Intrínsecamente Interpretables: Diseñan arquitecturas de modelo inherentemente interpretables

Interpretabilidad en Reconocimiento Facial

  • El trabajo existente adopta principalmente métodos de explicación posteriores
  • Carece de métricas confiables para evaluar cuantitativamente la calidad de explicaciones
  • Este trabajo proporciona una alternativa intrínsecamente interpretable

Arquitecturas Relacionadas

  • ProtoPNet: Clasificación basada en prototipos interpretable, pero limitada a reconocimiento de conjunto cerrado
  • BagNet: Restringe el campo receptivo de CNN para proporcionar explicaciones locales, pero sacrifica precisión

Conclusiones y Discusión

Conclusiones Principales

  1. El método propuesto basado en campos receptivos restringidos logra verificación facial intrínsecamente interpretable
  2. RRFNet-56 supera métodos SOTA mientras mantiene interpretabilidad
  3. Incluso bloques pequeños de 28×28 pueden lograr desempeño competitivo
  4. El método proporciona explicaciones de decisión sin costo computacional adicional

Limitaciones

  1. Costo Computacional: El tiempo de entrenamiento aumenta 3-7 veces en comparación con métodos de línea base
  2. Selección de Bloques: Actualmente utiliza bloques distribuidos uniformemente fijos, que pueden no ser óptimos
  3. Desempeño Transversal de Pose: Los bloques pequeños muestran caída de desempeño con cambios de pose significativos
  4. Limitaciones de Arquitectura: Principalmente validado en ResNet, la aplicabilidad a otras arquitecturas requiere exploración

Direcciones Futuras

  1. Selección Adaptativa de Bloques: Seleccionar automáticamente tamaño y posición de bloques según contenido de imagen
  2. Optimización de Arquitectura: Explorar la aplicabilidad de otras arquitecturas CNN o ViT
  3. Estrategia de Bloques Dinámica: Ajustar la selección de bloques según los pares de imágenes comparados
  4. Análisis Teórico: Analizar profundamente la base teórica de la relación entre campos receptivos restringidos y desempeño

Evaluación Profunda

Fortalezas

  1. Innovación Fuerte: Propone un nuevo paradigma de verificación facial intrínsecamente interpretable
  2. Desempeño Excepcional: Logra o supera SOTA mientras garantiza interpretabilidad
  3. Experimentación Completa: Evaluación exhaustiva en múltiples conjuntos de datos de referencia
  4. Método Simple: Logra objetivos complejos mediante modificaciones arquitectónicas simples
  5. Valor Práctico: Proporciona soluciones confiables para aplicaciones de alto riesgo

Insuficiencias

  1. Eficiencia Computacional: El aumento significativo del tiempo de entrenamiento puede limitar aplicaciones prácticas
  2. Análisis Teórico: Carece de explicación teórica profunda sobre por qué los campos receptivos restringidos mejoran el desempeño
  3. Generalización: Principalmente validado en tareas de verificación facial, la aplicabilidad a otras tareas visuales es desconocida
  4. Estrategia de Bloques: La estrategia de división de bloques fija puede no ser adecuada para todos los escenarios

Impacto

  1. Contribución Académica: Proporciona una nueva dirección de investigación para el campo de IA interpretable
  2. Valor Práctico: Tiene perspectivas de aplicación importantes en campos de seguridad, medicina y otros de alto riesgo
  3. Reproducibilidad: La descripción del método es clara y fácil de reproducir y extender
  4. Inspiración: Puede inspirar más investigación sobre modelos intrínsecamente interpretables

Escenarios de Aplicación

  1. Aplicaciones de Alto Riesgo: Sistemas de seguridad que requieren explicación del proceso de decisión
  2. Entorno Regulatorio: Aplicaciones comerciales que necesitan cumplir requisitos de interpretabilidad
  3. Herramienta de Investigación: Para analizar el comportamiento de modelos de reconocimiento facial
  4. Escenarios Educativos: Ayuda a comprender los principios de funcionamiento de modelos de aprendizaje profundo

Referencias

El artículo cita 68 referencias relacionadas, cubriendo principalmente:

  • Métodos de IA Interpretable (Rudin 2019, Chen et al. 2019)
  • Tecnología de Reconocimiento Facial (Deng et al. 2019, Kim et al. 2022)
  • Arquitecturas de Aprendizaje Profundo (He et al. 2016)
  • Conjuntos de Datos de Referencia de Evaluación (Huang et al. 2007, Wu et al. 2024)

Resumen: Este artículo propone un método innovador de verificación facial basado en campos receptivos restringidos, logrando exitosamente interpretabilidad intrínseca mientras mantiene alto desempeño. Este trabajo proporciona ideas valiosas y nuevas para el campo de IA interpretable, siendo particularmente adecuado para escenarios de alto riesgo que requieren transparencia en decisiones. A pesar de limitaciones como costo computacional e insuficiencia en análisis teórico, su innovación y valor práctico lo convierten en una contribución importante en este campo.