2025-11-13T00:16:11.561915

Restricted Receptive Fields for Face Verification

Ozturk, Bhatta, Wu et al.

Understanding how deep neural networks make decisions is crucial for analyzing their behavior and diagnosing failure cases. In computer vision, a common approach to improve interpretability is to assign importance to individual pixels using post-hoc methods. Although they are widely used to explain black-box models, their fidelity to the model's actual reasoning is uncertain due to the lack of reliable evaluation metrics. This limitation motivates an alternative approach, which is to design models whose decision processes are inherently interpretable. To this end, we propose a face similarity metric that breaks down global similarity into contributions from restricted receptive fields. Our method defines the similarity between two face images as the sum of patch-level similarity scores, providing a locally additive explanation without relying on post-hoc analysis. We show that the proposed approach achieves competitive verification performance even with patches as small as 28x28 within 112x112 face images, and surpasses state-of-the-art methods when using 56x56 patches.

academic

Restricted Receptive Fields for Face Verification

基本信息

论文ID: 2510.10753
标题: Restricted Receptive Fields for Face Verification
作者: Kagan Ozturk, Aman Bhatta, Haiyu Wu, Patrick Flynn, Kevin W. Bowyer (University of Notre Dame)
分类: cs.CV (Computer Vision)
发表时间: 2025年10月12日 (arXiv预印本)
论文链接: https://arxiv.org/abs/2510.10753

摘要

本文提出了一种基于受限感受野的人脸验证方法，旨在解决深度神经网络决策过程不可解释的问题。传统方法使用单一全局特征向量表示整张人脸图像，而本文将全局相似度分解为来自受限感受野的局部贡献。该方法将两张人脸图像间的相似度定义为块级相似度分数的和，提供了局部可加性解释，无需依赖事后分析。实验表明，即使在112×112人脸图像中使用28×28的小块，该方法仍能达到竞争性的验证性能，而使用56×56块时更是超越了当前最先进的方法。

研究背景与动机

核心问题

深度神经网络在人脸识别任务中取得了卓越性能，但其决策过程缺乏可解释性，这在高风险应用场景中是一个严重问题。

问题重要性

安全性需求: 人脸识别系统广泛应用于安全和医疗等高风险领域，需要可信赖的决策过程
故障诊断: 理解模型决策机制对于分析模型行为和诊断失败案例至关重要
监管合规: 许多应用场景要求AI系统具备可解释性

现有方法局限性

事后解释方法: 现有的可解释AI方法主要依赖事后分析生成热力图，但缺乏可靠的评估指标
解释可信度: 相同的热力图可能对正确和错误预测都产生，削弱了解释的可靠性
计算开销: 事后方法需要额外的计算资源来生成解释

研究动机

本文提出一种内在可解释的替代方案，通过设计决策过程本身就可解释的模型，而非依赖事后分析方法。

核心贡献

提出了基于受限感受野的人脸相似度度量方法: 将全局相似度分解为局部块级相似度的加权和
设计了RRFNet架构: 通过对ResNet的轻微修改，实现了基于块级比较的可解释验证
验证了方法有效性: 在七个基准数据集上展示了竞争性甚至优于SOTA的性能
提供了内在可解释性: 无需额外计算即可提供决策过程的局部解释

方法详解

任务定义

输入: 两张112×112的人脸图像A和B 输出: 二元验证决策(相同/不同身份) 约束: 决策过程必须可解释为局部区域贡献的组合

模型架构

方法一: 区域基础相似度度量

图像分块: 将每张人脸图像均匀分割为k个w×h的局部块
独立特征学习: 为每个块训练独立的CNN提取N维特征向量
局部相似度计算: 使用余弦相似度计算对应块间的相似度:
```
S_local(P^A_i, P^B_i) = (f^A_i · f^B_i) / (||f^A_i|| ||f^B_i||)
```
全局相似度聚合: 通过加权和获得全局相似度:
```
S_global(A,B) = Σ(i=1 to k) w_i · S_local(P^A_i, P^B_i)
```

方法二: 受限感受野网络(RRFNet)

架构修改: 对ResNet进行轻微修改，将第一个块的步长从2改为1
块级特征提取: 从28×28(RRFNet-28)或56×56(RRFNet-56)图像块中提取512维特征
全局表示: 将全局表示定义为块级特征的均值:
```
F^A = (1/K) Σ(i=1 to K) f^A_i
```
相似度计算: 全局相似度可表示为块级特征点积的组合

技术创新点

内在可解释性: 与事后解释方法不同，本方法的解释是决策过程的固有组成部分
性能保持: 通过巧妙的架构设计，在提高可解释性的同时保持了竞争性能
灵活的块大小: 支持不同大小的受限感受野，平衡性能和可解释性
统一框架: 提供了将全局相似度分解为局部贡献的数学框架

实验设置

数据集

训练数据: WebFace4M和CASIA-WebFace
测试数据: 七个基准数据集
- LFW: 标准人脸验证基准
- CFP-FP, CPLFW: 姿态变化评估
- AGEDB, CALFW: 年龄变化评估
- Eclipse (ECL): 光照变化评估
- Hadrian (HAD): 面部毛发变化评估