2025-11-13T00:16:11.561915

Restricted Receptive Fields for Face Verification

Ozturk, Bhatta, Wu et al.
Understanding how deep neural networks make decisions is crucial for analyzing their behavior and diagnosing failure cases. In computer vision, a common approach to improve interpretability is to assign importance to individual pixels using post-hoc methods. Although they are widely used to explain black-box models, their fidelity to the model's actual reasoning is uncertain due to the lack of reliable evaluation metrics. This limitation motivates an alternative approach, which is to design models whose decision processes are inherently interpretable. To this end, we propose a face similarity metric that breaks down global similarity into contributions from restricted receptive fields. Our method defines the similarity between two face images as the sum of patch-level similarity scores, providing a locally additive explanation without relying on post-hoc analysis. We show that the proposed approach achieves competitive verification performance even with patches as small as 28x28 within 112x112 face images, and surpasses state-of-the-art methods when using 56x56 patches.
academic

Restricted Receptive Fields for Face Verification

基本信息

  • 论文ID: 2510.10753
  • 标题: Restricted Receptive Fields for Face Verification
  • 作者: Kagan Ozturk, Aman Bhatta, Haiyu Wu, Patrick Flynn, Kevin W. Bowyer (University of Notre Dame)
  • 分类: cs.CV (Computer Vision)
  • 发表时间: 2025年10月12日 (arXiv预印本)
  • 论文链接: https://arxiv.org/abs/2510.10753

摘要

本文提出了一种基于受限感受野的人脸验证方法,旨在解决深度神经网络决策过程不可解释的问题。传统方法使用单一全局特征向量表示整张人脸图像,而本文将全局相似度分解为来自受限感受野的局部贡献。该方法将两张人脸图像间的相似度定义为块级相似度分数的和,提供了局部可加性解释,无需依赖事后分析。实验表明,即使在112×112人脸图像中使用28×28的小块,该方法仍能达到竞争性的验证性能,而使用56×56块时更是超越了当前最先进的方法。

研究背景与动机

核心问题

深度神经网络在人脸识别任务中取得了卓越性能,但其决策过程缺乏可解释性,这在高风险应用场景中是一个严重问题。

问题重要性

  1. 安全性需求: 人脸识别系统广泛应用于安全和医疗等高风险领域,需要可信赖的决策过程
  2. 故障诊断: 理解模型决策机制对于分析模型行为和诊断失败案例至关重要
  3. 监管合规: 许多应用场景要求AI系统具备可解释性

现有方法局限性

  1. 事后解释方法: 现有的可解释AI方法主要依赖事后分析生成热力图,但缺乏可靠的评估指标
  2. 解释可信度: 相同的热力图可能对正确和错误预测都产生,削弱了解释的可靠性
  3. 计算开销: 事后方法需要额外的计算资源来生成解释

研究动机

本文提出一种内在可解释的替代方案,通过设计决策过程本身就可解释的模型,而非依赖事后分析方法。

核心贡献

  1. 提出了基于受限感受野的人脸相似度度量方法: 将全局相似度分解为局部块级相似度的加权和
  2. 设计了RRFNet架构: 通过对ResNet的轻微修改,实现了基于块级比较的可解释验证
  3. 验证了方法有效性: 在七个基准数据集上展示了竞争性甚至优于SOTA的性能
  4. 提供了内在可解释性: 无需额外计算即可提供决策过程的局部解释

方法详解

任务定义

输入: 两张112×112的人脸图像A和B 输出: 二元验证决策(相同/不同身份) 约束: 决策过程必须可解释为局部区域贡献的组合

模型架构

方法一: 区域基础相似度度量

  1. 图像分块: 将每张人脸图像均匀分割为k个w×h的局部块
  2. 独立特征学习: 为每个块训练独立的CNN提取N维特征向量
  3. 局部相似度计算: 使用余弦相似度计算对应块间的相似度:
    S_local(P^A_i, P^B_i) = (f^A_i · f^B_i) / (||f^A_i|| ||f^B_i||)
    
  4. 全局相似度聚合: 通过加权和获得全局相似度:
    S_global(A,B) = Σ(i=1 to k) w_i · S_local(P^A_i, P^B_i)
    

方法二: 受限感受野网络(RRFNet)

  1. 架构修改: 对ResNet进行轻微修改,将第一个块的步长从2改为1
  2. 块级特征提取: 从28×28(RRFNet-28)或56×56(RRFNet-56)图像块中提取512维特征
  3. 全局表示: 将全局表示定义为块级特征的均值:
    F^A = (1/K) Σ(i=1 to K) f^A_i
    
  4. 相似度计算: 全局相似度可表示为块级特征点积的组合

技术创新点

  1. 内在可解释性: 与事后解释方法不同,本方法的解释是决策过程的固有组成部分
  2. 性能保持: 通过巧妙的架构设计,在提高可解释性的同时保持了竞争性能
  3. 灵活的块大小: 支持不同大小的受限感受野,平衡性能和可解释性
  4. 统一框架: 提供了将全局相似度分解为局部贡献的数学框架

实验设置

数据集

  • 训练数据: WebFace4M和CASIA-WebFace
  • 测试数据: 七个基准数据集
    • LFW: 标准人脸验证基准
    • CFP-FP, CPLFW: 姿态变化评估
    • AGEDB, CALFW: 年龄变化评估
    • Eclipse (ECL): 光照变化评估
    • Hadrian (HAD): 面部毛发变化评估

评价指标

  • 验证准确率(10折交叉验证)
  • 不同数据集的平均准确率

对比方法

  • ArcFace (ResNet50/100)
  • AdaFace (ResNet50/100)
  • UniFace (ResNet50)
  • KP-RPE (ViT)

实现细节

  • 训练轮数: 20-30轮
  • 数据增强: 水平翻转,±5像素垂直和水平偏移
  • 掩码增强: 20%和40%的块掩码比例
  • 架构: ResNet50/100骨干网络

实验结果

主要结果

RRFNet-56性能表现:

  • 在WebFace4M+ResNet100设置下,七个数据集平均准确率达到95.69%
  • 超越了ArcFace (95.09%)和AdaFace (95.28%)等SOTA方法
  • 在多数数据集上取得最佳性能

RRFNet-28性能表现:

  • 平均准确率达到95.20%,与SOTA方法竞争激烈
  • 证明了即使使用28×28的小块也能保持良好性能

消融实验

单个块性能分析:

  • 中央区域块(位置28,28)表现最佳,单块准确率达到94.41%
  • 面部下半部分通常优于上半部分
  • 在Hadrian数据集上,上半部分由于胡须变化影响表现更好

块组合策略:

  • 仅使用28×28块: 平均93.12%
  • 仅使用56×56块: 平均95.18%
  • 组合两种块大小: 平均95.51%

掩码增强效果:

  • 20%掩码: 在多数设置下取得最佳性能
  • 40%掩码: 性能略有下降但仍保持竞争力
  • 无掩码: 基线性能

案例分析

论文展示了RRFNet-28的可视化结果:

  • 每个块对的相似度分数直观显示
  • 热力图展示了块相似度的空间分布
  • 正样本对显示高相似度区域集中在关键面部特征
  • 负样本对显示较低且分散的相似度分布

实验发现

  1. 局部vs全局: 受限感受野不一定损害性能,某些情况下反而有益
  2. 块大小影响: 56×56块在性能和可解释性间取得最佳平衡
  3. 位置重要性: 面部中央区域对验证决策最为关键
  4. 跨姿态挑战: 28×28块在跨姿态数据集上性能下降更明显

相关工作

可解释AI方法分类

  1. 事后解释方法: LIME, SHAP, Grad-CAM等生成像素级重要性
  2. 内在可解释方法: 设计本身可解释的模型架构

人脸识别可解释性

  • 现有工作主要采用事后解释方法
  • 缺乏定量评估解释质量的可靠指标
  • 本文提供了内在可解释的替代方案

相关架构

  • ProtoPNet: 基于原型的可解释分类,但限于封闭集识别
  • BagNet: 限制CNN感受野提供局部解释,但牺牲了准确性

结论与讨论

主要结论

  1. 提出的基于受限感受野的方法实现了内在可解释的人脸验证
  2. RRFNet-56在保持可解释性的同时超越了SOTA方法
  3. 即使28×28的小块也能达到竞争性能
  4. 方法无需额外计算开销即可提供决策解释

局限性

  1. 计算开销: 训练时间比基线方法增加3-7倍
  2. 块选择: 当前使用固定的均匀分布块,可能不是最优策略
  3. 跨姿态性能: 小块在姿态变化较大时性能下降
  4. 架构限制: 主要在ResNet上验证,其他架构的适用性待探索

未来方向

  1. 自适应块选择: 根据图像内容自动选择块大小和位置
  2. 架构优化: 探索其他CNN或ViT架构的适用性
  3. 动态块策略: 根据比较的图像对调整块选择策略
  4. 理论分析: 深入分析受限感受野与性能关系的理论基础

深度评价

优点

  1. 创新性强: 提出了内在可解释的人脸验证新范式
  2. 性能优异: 在保证可解释性的同时达到或超越SOTA
  3. 实验充分: 在多个基准数据集上进行了全面评估
  4. 方法简洁: 通过简单的架构修改实现复杂目标
  5. 实用价值: 为高风险应用提供了可信赖的解决方案

不足

  1. 计算效率: 训练时间显著增加可能限制实际应用
  2. 理论分析: 缺乏对为什么受限感受野能提升性能的深入理论解释
  3. 泛化性: 主要在人脸验证任务上验证,其他视觉任务的适用性未知
  4. 块策略: 固定的块划分策略可能不适合所有场景

影响力

  1. 学术贡献: 为可解释AI领域提供了新的研究方向
  2. 实用价值: 在安全、医疗等高风险领域有重要应用前景
  3. 可复现性: 方法描述清晰,易于复现和扩展
  4. 启发性: 可能启发更多内在可解释模型的研究

适用场景

  1. 高风险应用: 需要解释决策过程的安全系统
  2. 监管环境: 需要满足可解释性要求的商业应用
  3. 研究工具: 用于分析人脸识别模型行为的研究
  4. 教育场景: 帮助理解深度学习模型工作原理

参考文献

论文引用了68篇相关文献,主要涵盖:

  • 可解释AI方法 (Rudin 2019, Chen et al. 2019)
  • 人脸识别技术 (Deng et al. 2019, Kim et al. 2022)
  • 深度学习架构 (He et al. 2016)
  • 评估基准数据集 (Huang et al. 2007, Wu et al. 2024)

总结: 本文提出了一种创新的基于受限感受野的人脸验证方法,成功在保持高性能的同时实现了内在可解释性。该工作为可解释AI领域提供了有价值的新思路,特别适用于需要决策透明度的高风险应用场景。尽管存在计算开销和理论分析不足等局限性,但其创新性和实用价值使其成为该领域的重要贡献。