Understanding how deep neural networks make decisions is crucial for analyzing their behavior and diagnosing failure cases. In computer vision, a common approach to improve interpretability is to assign importance to individual pixels using post-hoc methods. Although they are widely used to explain black-box models, their fidelity to the model's actual reasoning is uncertain due to the lack of reliable evaluation metrics. This limitation motivates an alternative approach, which is to design models whose decision processes are inherently interpretable. To this end, we propose a face similarity metric that breaks down global similarity into contributions from restricted receptive fields. Our method defines the similarity between two face images as the sum of patch-level similarity scores, providing a locally additive explanation without relying on post-hoc analysis. We show that the proposed approach achieves competitive verification performance even with patches as small as 28x28 within 112x112 face images, and surpasses state-of-the-art methods when using 56x56 patches.
academic 论文ID : 2510.10753标题 : Restricted Receptive Fields for Face Verification作者 : Kagan Ozturk, Aman Bhatta, Haiyu Wu, Patrick Flynn, Kevin W. Bowyer (University of Notre Dame)分类 : cs.CV (Computer Vision)发表时间 : 2025年10月12日 (arXiv预印本)论文链接 : https://arxiv.org/abs/2510.10753 本文提出了一种基于受限感受野的人脸验证方法,旨在解决深度神经网络决策过程不可解释的问题。传统方法使用单一全局特征向量表示整张人脸图像,而本文将全局相似度分解为来自受限感受野的局部贡献。该方法将两张人脸图像间的相似度定义为块级相似度分数的和,提供了局部可加性解释,无需依赖事后分析。实验表明,即使在112×112人脸图像中使用28×28的小块,该方法仍能达到竞争性的验证性能,而使用56×56块时更是超越了当前最先进的方法。
深度神经网络在人脸识别任务中取得了卓越性能,但其决策过程缺乏可解释性,这在高风险应用场景中是一个严重问题。
安全性需求 : 人脸识别系统广泛应用于安全和医疗等高风险领域,需要可信赖的决策过程故障诊断 : 理解模型决策机制对于分析模型行为和诊断失败案例至关重要监管合规 : 许多应用场景要求AI系统具备可解释性事后解释方法 : 现有的可解释AI方法主要依赖事后分析生成热力图,但缺乏可靠的评估指标解释可信度 : 相同的热力图可能对正确和错误预测都产生,削弱了解释的可靠性计算开销 : 事后方法需要额外的计算资源来生成解释本文提出一种内在可解释的替代方案,通过设计决策过程本身就可解释的模型,而非依赖事后分析方法。
提出了基于受限感受野的人脸相似度度量方法 : 将全局相似度分解为局部块级相似度的加权和设计了RRFNet架构 : 通过对ResNet的轻微修改,实现了基于块级比较的可解释验证验证了方法有效性 : 在七个基准数据集上展示了竞争性甚至优于SOTA的性能提供了内在可解释性 : 无需额外计算即可提供决策过程的局部解释输入 : 两张112×112的人脸图像A和B
输出 : 二元验证决策(相同/不同身份)
约束 : 决策过程必须可解释为局部区域贡献的组合
图像分块 : 将每张人脸图像均匀分割为k个w×h的局部块独立特征学习 : 为每个块训练独立的CNN提取N维特征向量局部相似度计算 : 使用余弦相似度计算对应块间的相似度:
S_local(P^A_i, P^B_i) = (f^A_i · f^B_i) / (||f^A_i|| ||f^B_i||)
全局相似度聚合 : 通过加权和获得全局相似度:
S_global(A,B) = Σ(i=1 to k) w_i · S_local(P^A_i, P^B_i)
架构修改 : 对ResNet进行轻微修改,将第一个块的步长从2改为1块级特征提取 : 从28×28(RRFNet-28)或56×56(RRFNet-56)图像块中提取512维特征全局表示 : 将全局表示定义为块级特征的均值:
F^A = (1/K) Σ(i=1 to K) f^A_i
相似度计算 : 全局相似度可表示为块级特征点积的组合内在可解释性 : 与事后解释方法不同,本方法的解释是决策过程的固有组成部分性能保持 : 通过巧妙的架构设计,在提高可解释性的同时保持了竞争性能灵活的块大小 : 支持不同大小的受限感受野,平衡性能和可解释性统一框架 : 提供了将全局相似度分解为局部贡献的数学框架训练数据 : WebFace4M和CASIA-WebFace测试数据 : 七个基准数据集
LFW: 标准人脸验证基准 CFP-FP, CPLFW: 姿态变化评估 AGEDB, CALFW: 年龄变化评估 Eclipse (ECL): 光照变化评估 Hadrian (HAD): 面部毛发变化评估 验证准确率(10折交叉验证) 不同数据集的平均准确率 ArcFace (ResNet50/100) AdaFace (ResNet50/100) UniFace (ResNet50) KP-RPE (ViT) 训练轮数 : 20-30轮数据增强 : 水平翻转,±5像素垂直和水平偏移掩码增强 : 20%和40%的块掩码比例架构 : ResNet50/100骨干网络RRFNet-56性能表现 :
在WebFace4M+ResNet100设置下,七个数据集平均准确率达到95.69% 超越了ArcFace (95.09%)和AdaFace (95.28%)等SOTA方法 在多数数据集上取得最佳性能 RRFNet-28性能表现 :
平均准确率达到95.20%,与SOTA方法竞争激烈 证明了即使使用28×28的小块也能保持良好性能 单个块性能分析 :
中央区域块(位置28,28)表现最佳,单块准确率达到94.41% 面部下半部分通常优于上半部分 在Hadrian数据集上,上半部分由于胡须变化影响表现更好 块组合策略 :
仅使用28×28块: 平均93.12% 仅使用56×56块: 平均95.18% 组合两种块大小: 平均95.51% 掩码增强效果 :
20%掩码: 在多数设置下取得最佳性能 40%掩码: 性能略有下降但仍保持竞争力 无掩码: 基线性能 论文展示了RRFNet-28的可视化结果:
每个块对的相似度分数直观显示 热力图展示了块相似度的空间分布 正样本对显示高相似度区域集中在关键面部特征 负样本对显示较低且分散的相似度分布 局部vs全局 : 受限感受野不一定损害性能,某些情况下反而有益块大小影响 : 56×56块在性能和可解释性间取得最佳平衡位置重要性 : 面部中央区域对验证决策最为关键跨姿态挑战 : 28×28块在跨姿态数据集上性能下降更明显事后解释方法 : LIME, SHAP, Grad-CAM等生成像素级重要性内在可解释方法 : 设计本身可解释的模型架构现有工作主要采用事后解释方法 缺乏定量评估解释质量的可靠指标 本文提供了内在可解释的替代方案 ProtoPNet : 基于原型的可解释分类,但限于封闭集识别BagNet : 限制CNN感受野提供局部解释,但牺牲了准确性提出的基于受限感受野的方法实现了内在可解释的人脸验证 RRFNet-56在保持可解释性的同时超越了SOTA方法 即使28×28的小块也能达到竞争性能 方法无需额外计算开销即可提供决策解释 计算开销 : 训练时间比基线方法增加3-7倍块选择 : 当前使用固定的均匀分布块,可能不是最优策略跨姿态性能 : 小块在姿态变化较大时性能下降架构限制 : 主要在ResNet上验证,其他架构的适用性待探索自适应块选择 : 根据图像内容自动选择块大小和位置架构优化 : 探索其他CNN或ViT架构的适用性动态块策略 : 根据比较的图像对调整块选择策略理论分析 : 深入分析受限感受野与性能关系的理论基础创新性强 : 提出了内在可解释的人脸验证新范式性能优异 : 在保证可解释性的同时达到或超越SOTA实验充分 : 在多个基准数据集上进行了全面评估方法简洁 : 通过简单的架构修改实现复杂目标实用价值 : 为高风险应用提供了可信赖的解决方案计算效率 : 训练时间显著增加可能限制实际应用理论分析 : 缺乏对为什么受限感受野能提升性能的深入理论解释泛化性 : 主要在人脸验证任务上验证,其他视觉任务的适用性未知块策略 : 固定的块划分策略可能不适合所有场景学术贡献 : 为可解释AI领域提供了新的研究方向实用价值 : 在安全、医疗等高风险领域有重要应用前景可复现性 : 方法描述清晰,易于复现和扩展启发性 : 可能启发更多内在可解释模型的研究高风险应用 : 需要解释决策过程的安全系统监管环境 : 需要满足可解释性要求的商业应用研究工具 : 用于分析人脸识别模型行为的研究教育场景 : 帮助理解深度学习模型工作原理论文引用了68篇相关文献,主要涵盖:
可解释AI方法 (Rudin 2019, Chen et al. 2019) 人脸识别技术 (Deng et al. 2019, Kim et al. 2022) 深度学习架构 (He et al. 2016) 评估基准数据集 (Huang et al. 2007, Wu et al. 2024) 总结 : 本文提出了一种创新的基于受限感受野的人脸验证方法,成功在保持高性能的同时实现了内在可解释性。该工作为可解释AI领域提供了有价值的新思路,特别适用于需要决策透明度的高风险应用场景。尽管存在计算开销和理论分析不足等局限性,但其创新性和实用价值使其成为该领域的重要贡献。