2025-11-22T06:43:16.272980

Deep Edge Filter: Return of the Human-Crafted Layer in Deep Learning

Lee, Lee, Kwak

We introduce the Deep Edge Filter, a novel approach that applies high-pass filtering to deep neural network features to improve model generalizability. Our method is motivated by our hypothesis that neural networks encode task-relevant semantic information in high-frequency components while storing domain-specific biases in low-frequency components of deep features. By subtracting low-pass filtered outputs from original features, our approach isolates generalizable representations while preserving architectural integrity. Experimental results across diverse domains such as Vision, Text, 3D, and Audio demonstrate consistent performance improvements regardless of model architecture and data modality. Analysis reveals that our method induces feature sparsification and effectively isolates high-frequency components, providing empirical validation of our core hypothesis. The code is available at https://github.com/dongkwani/DeepEdgeFilter.

academic

Deep Edge Filter: 深層学習における人間が設計したレイヤーの復活

基本情報

論文ID: 2510.13865
タイトル: Deep Edge Filter: Return of the Human-Crafted Layer in Deep Learning
著者: Dongkwan Lee, Junhoo Lee, Nojun Kwak (ソウル国立大学)
分類: cs.LG cs.AI
発表時期/会議: 第39回ニューラル情報処理システム会議 (NeurIPS 2025)
論文リンク: https://arxiv.org/abs/2510.13865
コードリンク: https://github.com/dongkwani/DeepEdgeFilter

概要

本論文は、深層ニューラルネットワークの特徴に高域通過フィルタを適用してモデルの汎化能力を向上させるDeep Edge Filterを提案している。本手法は、ニューラルネットワークが深層特徴の高周波成分にタスク関連の意味情報を符号化し、低周波成分に領域固有のバイアスを保存するという仮説に基づいている。元の特徴から低域通過フィルタ出力を減算することにより、本手法は汎化可能な表現を分離しながらアーキテクチャの完全性を維持できる。視覚、テキスト、3D、音声など複数の領域での実験結果は、モデルアーキテクチャとデータモダリティに関わらず、一貫した性能向上をもたらすことを示している。分析は、本手法が特徴のスパース化を誘導し、高周波成分を効果的に分離できることを示し、核心的な仮説に対する実証的検証を提供している。

研究背景と動機

問題定義

深層学習モデルが直面する中心的な課題は、摂動と領域シフトに対する脆弱性である。現代の深層学習モデルが訓練過程で獲得する表面的な低レベルのテクスチャ依存性は、特に敵対的攻撃と領域適応の領域において、摂動に対する脆弱性をさらに悪化させている。

研究動機

著者らは、従来のエッジフィルタが画像処理において関連情報を効果的に捉える古典的な技術として長期間使用されてきたことに注目している。これらは様々なノイズタイプに対してロバストな強力な事前知識を提供しながら、意味情報を効果的に抽出する。しかし、現代の深層学習ではこの知識が忘れられているようである。

既存手法の限界

過去にエッジ検出技術を深層学習領域に統合しようとした試みが失敗した主な理由には以下が含まれる:

エッジフィルタを画像に適用することは摂動に対するロバスト性を提供するが、細粒度の画像詳細の損失をもたらす
古典的なエッジ検出は画像領域に限定されており、多様なデータモダリティを処理する現代の深層学習に普遍的に適用することが困難である

本論文の貢献

本論文は、エッジフィルタの概念を深層特徴に一般化し、入力層ではなく深層に直接適用できるようにした。これにより、従来のエッジフィルタと深層学習の利点を組み合わせ、摂動と領域シフトに対してロバストなモデルを構築している。

核心的な貢献

Deep Edge Filterの提案: 人間の直感に基づいて構築されたフィルタであり、モダリティに依存しない方法で深層ニューラルネットワークの特徴に適用でき、汎化可能な特徴の抽出を促進する
アーキテクチャ横断的およびモダリティ横断的な検証: CNNおよびViTアーキテクチャに対するEdge Filterを提案し、画像、テキスト、3D、音声などの複数のモダリティにおける汎化の重要なタスクで、フィルタの有効性を実証的に証明している
理論的分析と実証的検証: レイヤースパース性と周波数分解の観点から実験結果を分析し、深層特徴Edge Filterに関する広範なアブレーション研究を提供している

手法の詳細

核心的な仮説

著者らは重要な仮説を提案している: 深層ネットワークは高周波成分にタスク関連の意味特徴を符号化し、低周波成分に領域固有のバイアスを符号化する。この仮説が成立するならば、Edge Filter (本質的には高域通過フィルタとして機能する) を一般化することは、汎化可能な特徴の分離に役立つはずである。

Deep Edge Filterの定義

Edge Filterは、元の深層特徴hから低域通過フィルタ(LPF)の結果を減算することで得られる残差として定義される:

F_edge(h) = h - LPF(h)

ここでLPFはhに適用される低域通過フィルタを表し、平均、中央値、またはガウスカーネルなどが該当する。

特徴分解理論

h ∈ R^dを深層ネットワークの隠れ層の特徴ベクトルとし、特徴が加法的に分解可能であると仮定する:

h = h_sem + h_dom

ここで:

h_semは汎化可能でタスク関連の意味特徴を符号化する
h_domは照明、解像度、背景テクスチャなどの領域固有のバイアスを表す

スパース符号化の観点

提案された特徴分解と周波数仮説の下では:

LPF(h) ≈ h_dom ⇒ F_edge(h) ≈ h_sem

周波数フィルタリングを通じて特徴を精緻化するこの方法は、スパース符号化の原理と強く共鳴している。エッジフィルタリングによってhから低周波の領域固有の冗長性を除去することで、本質的に表現する必要がある信号を簡素化する。

アーキテクチャ適応

CNNアーキテクチャ: 2D Edge Filterを使用する。CNNはピクセル間の垂直および水平空間関係を自然に処理するため
MLPおよびTransformerアーキテクチャ: 1D Edge Filterを使用する。これらのアーキテクチャは本質的に空間関係を処理しないため

実験設定

データセットとタスク選択

著者らは異なる特性を持つ4つのモダリティで実験を実施した:

視覚領域: テスト時適応(TTA)タスク
- CIFAR10-C/100-CおよびImageNet200-Cベンチマーク
- WRN28-10、ResNet18、ViT-B/32アーキテクチャを使用
言語領域: 感情分析タスク
- GLUEベンチマークのサブタスク: SST-2、QQP、QNLI
- 12層Transformer(BERTアーキテクチャ)を使用
3D領域: 少数ショットニューラルラディアンスフィールド
- Blenderデータセット、8ビュー少数ショット設定
- 評価指標: PSNR、SSIM、LPIPS、MAE
音声領域: 音声分類
- UrbanSound8Kデータセット
- 3つの畳み込みブロックを持つCNNアーキテクチャ