2025-11-22T06:43:16.272980

Deep Edge Filter: Return of the Human-Crafted Layer in Deep Learning

Lee, Lee, Kwak
We introduce the Deep Edge Filter, a novel approach that applies high-pass filtering to deep neural network features to improve model generalizability. Our method is motivated by our hypothesis that neural networks encode task-relevant semantic information in high-frequency components while storing domain-specific biases in low-frequency components of deep features. By subtracting low-pass filtered outputs from original features, our approach isolates generalizable representations while preserving architectural integrity. Experimental results across diverse domains such as Vision, Text, 3D, and Audio demonstrate consistent performance improvements regardless of model architecture and data modality. Analysis reveals that our method induces feature sparsification and effectively isolates high-frequency components, providing empirical validation of our core hypothesis. The code is available at https://github.com/dongkwani/DeepEdgeFilter.
academic

Deep Edge Filter: Return of the Human-Crafted Layer in Deep Learning

基本信息

  • 论文ID: 2510.13865
  • 标题: Deep Edge Filter: Return of the Human-Crafted Layer in Deep Learning
  • 作者: Dongkwan Lee, Junhoo Lee, Nojun Kwak (Seoul National University)
  • 分类: cs.LG cs.AI
  • 发表时间/会议: 39th Conference on Neural Information Processing Systems (NeurIPS 2025)
  • 论文链接: https://arxiv.org/abs/2510.13865
  • 代码链接: https://github.com/dongkwani/DeepEdgeFilter

摘要

本文提出了Deep Edge Filter,一种将高通滤波应用于深度神经网络特征以提高模型泛化能力的新方法。该方法基于一个假设:神经网络在深度特征的高频分量中编码任务相关的语义信息,而在低频分量中存储领域特定的偏置。通过从原始特征中减去低通滤波输出,该方法能够分离出可泛化的表示,同时保持架构完整性。在视觉、文本、3D和音频等多个领域的实验结果表明,无论模型架构和数据模态如何,该方法都能带来一致的性能提升。分析显示该方法能够诱导特征稀疏化并有效分离高频分量,为核心假设提供了实证验证。

研究背景与动机

问题定义

深度学习模型面临的一个核心挑战是对扰动和领域偏移的脆弱性。现代深度学习模型在训练过程中获得的表面低级纹理依赖进一步加剧了它们对扰动的脆弱性,这在对抗攻击和领域适应等领域表现得尤为明显。

研究动机

作者观察到传统的边缘滤波器在图像处理中长期被用作有效捕获相关信息的经典技术,提供了对各种噪声类型鲁棒的强先验,同时有效提取语义信息。然而,现代深度学习中这一知识似乎被遗忘了。

现有方法的局限性

过去将边缘检测技术集成到深度学习领域的尝试失败的主要原因包括:

  1. 将边缘滤波器应用于图像虽然提供了对扰动的鲁棒性,但会导致细粒度图像细节的丢失
  2. 经典边缘检测仅限于图像领域,难以在处理多样化数据模态的现代深度学习中普遍应用

本文贡献

本文将边缘滤波器的概念推广到深度特征,可以直接应用于深层而非输入层,结合了传统边缘滤波器和深度学习的优势,构建了对扰动和领域偏移鲁棒的模型。

核心贡献

  1. 提出了Deep Edge Filter:一种基于人类直觉构建的滤波器,可以以模态无关的方式应用于深度神经网络的特征,促进可泛化特征的提取
  2. 跨架构和跨模态验证:为CNN和ViT架构提出了Edge Filter,并在图像、文本、3D和音频等多种模态的泛化关键任务上实证证明了滤波器的有效性
  3. 理论分析和实证验证:通过层稀疏性和频率分解的视角分析实验结果,并提供了关于深度特征Edge Filter的广泛消融研究

方法详解

核心假设

作者提出了一个关键假设:深度网络在高频分量中编码任务相关的语义特征,在低频分量中编码领域特定的偏置。如果这个假设成立,那么推广Edge Filter(本质上作为高通滤波器)应该有助于分离可泛化的特征。

Deep Edge Filter定义

Edge Filter被定义为通过减去低通滤波(LPF)结果从原始深度特征h得到的残差:

F_edge(h) = h - LPF(h)

其中LPF表示应用于h的低通滤波器,如均值、中值或高斯核。

特征分解理论

设h ∈ R^d为深度网络隐藏层的特征向量,假设特征可以加性分解为:

h = h_sem + h_dom

其中:

  • h_sem编码可泛化的、任务相关的语义特征
  • h_dom表示领域特定的偏置,如照明、分辨率或背景纹理

稀疏编码视角

在提出的特征分解和频率假设下:

LPF(h) ≈ h_dom ⇒ F_edge(h) ≈ h_sem

这种通过频率滤波来细化特征的方法与稀疏编码的原理强烈共鸣,通过边缘滤波去除h中的低频、领域特定冗余,本质上简化了需要表示的信号。

架构适配

  • CNN架构:使用2D Edge Filter,因为CNN天然处理像素间的垂直和水平空间关系
  • MLP和Transformer架构:使用1D Edge Filter,因为这些架构不固有地处理空间关系

实验设置

数据集和任务选择

作者选择了四个具有不同特征的模态进行实验:

  1. 视觉领域:测试时适应(TTA)任务
    • CIFAR10-C/100-C和ImageNet200-C基准
    • 使用WRN28-10、ResNet18和ViT-B/32架构
  2. 语言领域:情感分析任务
    • GLUE基准的子任务:SST-2、QQP、QNLI
    • 使用12层Transformer(BERT架构)
  3. 3D领域:少样本神经辐射场
    • Blender数据集,8视图少样本设置
    • 评估指标:PSNR、SSIM、LPIPS、MAE
  4. 音频领域:音频分类
    • UrbanSound8K数据集
    • 三个卷积块的CNN架构

实现细节

  • Edge Filter在模型训练过程中LPF组件被分离,以抑制梯度反向传播
  • 每个模型中只在单一层实现Edge Filter,避免多个滤波器导致的信息损失
  • 使用反射填充保持输入输出维度一致

实验结果

主要结果

视觉领域(TTA)

在CIFAR10-C/100-C和ImageNet200-C上的结果显示:

  • CIFAR10-C:性能提升1.2%p到8.5%p
  • CIFAR100-C:性能提升0.4%p到10.2%p
  • ImageNet200-C:性能提升0.1%p到1.9%p

值得注意的是,尽管在Source数据集上性能略有下降,但在损坏数据集上性能显著提升,表明Edge Filter有效防止了过拟合。

语言领域

在GLUE基准测试中:

  • SST-2:79.36% → 80.85% (+1.49%p)
  • QQP:83.42% → 83.46% (+0.04%p)
  • QNLI:62.40% → 63.30% (+0.90%p)

3D领域

在NeRF少样本渲染中:

  • 平均PSNR提升:22.95 → 23.39 (+0.44)
  • 平均SSIM提升:0.856 → 0.862 (+0.006)
  • LPIPS显著降低11%,表明视觉质量明显改善

音频领域

UrbanSound8K分类任务:77.42% → 81.72% (+4.3%p)

分析实验

特征稀疏性分析

通过测量训练过程中层输出的密度,发现Edge Filter显著降低了后续层的输出密度,验证了高通滤波导致特征稀疏编码的理论。

频率域分析

FFT分析显示Edge Filter有效降低了深度特征低频区域的幅度,确认了其作为高通操作器的预期功能。

消融实验

滤波器类型比较

测试了不同LPF类型(均值、中值、高斯)的效果:

  • 均值和中值滤波器在所有任务上都显示出一致的性能提升
  • 直接应用LPF导致显著性能下降,验证了低频分量包含领域特定信息的假设

位置和核大小影响

  • WRN模型:Edge Filter应用普遍带来性能提升,最大提升9.6%p
  • ViT模型:在后续层应用滤波器效果更好
  • 语言任务:无论位置和核大小如何,性能都保持不变或提升

相关工作

深度学习中的频率视角

现有研究主要集中在图像数据和CNN上,发现:

  • CNN对纹理而非形状有强烈偏置
  • 深度神经网络遵循"频率原理",在训练期间先学习低频分量

激活滤波和稀疏性

相关工作包括:

  • Filter Response Normalization (FRN)
  • Deep Frequency Filtering
  • ProSparse等方法

本文的创新在于提出了适用于不同深度学习应用的通用滤波层。

结论与讨论

主要结论

  1. Deep Edge Filter能够有效提取更泛化的特征,在多个模态和架构上都显示出一致的性能提升
  2. 理论假设得到实证验证:语义信息主要存在于高频分量,领域特定信息存在于低频分量
  3. 该方法具有架构无关性和模态无关性

局限性

  1. 计算成本:需要从头重新训练模型,限制了在大型模型上的广泛实验
  2. 大模型验证不足:由于计算成本约束,无法在最先进的模型或更广泛的任务上验证
  3. 语言领域限制:无法在LLM上进行实验验证

未来方向

  1. 将方法应用于大语言模型(LLM)
  2. 探索在多模态模型中的应用
  3. 研究更高效的实现方式,减少重训练需求

深度评价

优点

  1. 理论创新性强:将经典图像处理中的边缘滤波概念成功推广到深度特征,提供了新的理论视角
  2. 跨模态验证充分:在视觉、文本、3D、音频四个不同模态上验证,证明了方法的普适性
  3. 理论与实践结合:不仅提出了方法,还通过稀疏编码理论和频率分析提供了理论解释
  4. 实验设计严谨:包含了丰富的消融实验、统计显著性测试和可视化分析

不足

  1. 计算开销分析不足:虽然在附录F中提供了计算开销比较,但对实际应用中的效率影响分析不够深入
  2. 大模型验证有限:主要在相对较小的模型上验证,对于当前主流的大模型适用性有待验证
  3. 理论解释的局限性:虽然提供了频率域的解释,但对于为什么语义信息主要存在于高频分量的深层机理解释不够充分
  4. 应用场景限制:需要重新训练模型的要求限制了其在预训练模型上的直接应用

影响力

  1. 学术价值:为深度学习中的特征表示学习提供了新的视角,可能启发更多相关研究
  2. 实用价值:方法简单易实现,在需要提升泛化能力的任务中具有实际应用价值
  3. 可复现性:作者提供了完整的代码实现,实验细节描述充分

适用场景

  1. 领域适应任务:特别适合需要跨领域泛化的场景
  2. 小样本学习:在数据有限的情况下提升模型泛化能力
  3. 鲁棒性要求高的应用:对噪声和扰动敏感的应用场景
  4. 多模态学习:可以统一应用于不同模态的特征处理

参考文献

论文中引用了53篇相关文献,主要涵盖:

  • 深度学习中的频率分析相关工作
  • 领域适应和测试时适应方法
  • 激活滤波和网络稀疏性研究
  • 各模态的基准数据集和评估方法

总体评价:这是一篇理论创新与实践验证并重的优秀论文,成功将经典信号处理的概念引入现代深度学习,并在多个领域验证了其有效性。尽管存在一些局限性,但其提供的新视角和一致的实验结果使其具有重要的学术价值和实用意义。