We introduce the Deep Edge Filter, a novel approach that applies high-pass filtering to deep neural network features to improve model generalizability. Our method is motivated by our hypothesis that neural networks encode task-relevant semantic information in high-frequency components while storing domain-specific biases in low-frequency components of deep features. By subtracting low-pass filtered outputs from original features, our approach isolates generalizable representations while preserving architectural integrity. Experimental results across diverse domains such as Vision, Text, 3D, and Audio demonstrate consistent performance improvements regardless of model architecture and data modality. Analysis reveals that our method induces feature sparsification and effectively isolates high-frequency components, providing empirical validation of our core hypothesis. The code is available at https://github.com/dongkwani/DeepEdgeFilter.
論文ID : 2510.13865タイトル : Deep Edge Filter: Return of the Human-Crafted Layer in Deep Learning著者 : Dongkwan Lee, Junhoo Lee, Nojun Kwak (ソウル国立大学)分類 : cs.LG cs.AI発表時期/会議 : 第39回ニューラル情報処理システム会議 (NeurIPS 2025)論文リンク : https://arxiv.org/abs/2510.13865 コードリンク : https://github.com/dongkwani/DeepEdgeFilter 本論文は、深層ニューラルネットワークの特徴に高域通過フィルタを適用してモデルの汎化能力を向上させるDeep Edge Filterを提案している。本手法は、ニューラルネットワークが深層特徴の高周波成分にタスク関連の意味情報を符号化し、低周波成分に領域固有のバイアスを保存するという仮説に基づいている。元の特徴から低域通過フィルタ出力を減算することにより、本手法は汎化可能な表現を分離しながらアーキテクチャの完全性を維持できる。視覚、テキスト、3D、音声など複数の領域での実験結果は、モデルアーキテクチャとデータモダリティに関わらず、一貫した性能向上をもたらすことを示している。分析は、本手法が特徴のスパース化を誘導し、高周波成分を効果的に分離できることを示し、核心的な仮説に対する実証的検証を提供している。
深層学習モデルが直面する中心的な課題は、摂動と領域シフトに対する脆弱性である。現代の深層学習モデルが訓練過程で獲得する表面的な低レベルのテクスチャ依存性は、特に敵対的攻撃と領域適応の領域において、摂動に対する脆弱性をさらに悪化させている。
著者らは、従来のエッジフィルタが画像処理において関連情報を効果的に捉える古典的な技術として長期間使用されてきたことに注目している。これらは様々なノイズタイプに対してロバストな強力な事前知識を提供しながら、意味情報を効果的に抽出する。しかし、現代の深層学習ではこの知識が忘れられているようである。
過去にエッジ検出技術を深層学習領域に統合しようとした試みが失敗した主な理由には以下が含まれる:
エッジフィルタを画像に適用することは摂動に対するロバスト性を提供するが、細粒度の画像詳細の損失をもたらす 古典的なエッジ検出は画像領域に限定されており、多様なデータモダリティを処理する現代の深層学習に普遍的に適用することが困難である 本論文は、エッジフィルタの概念を深層特徴に一般化し、入力層ではなく深層に直接適用できるようにした。これにより、従来のエッジフィルタと深層学習の利点を組み合わせ、摂動と領域シフトに対してロバストなモデルを構築している。
Deep Edge Filterの提案 : 人間の直感に基づいて構築されたフィルタであり、モダリティに依存しない方法で深層ニューラルネットワークの特徴に適用でき、汎化可能な特徴の抽出を促進するアーキテクチャ横断的およびモダリティ横断的な検証 : CNNおよびViTアーキテクチャに対するEdge Filterを提案し、画像、テキスト、3D、音声などの複数のモダリティにおける汎化の重要なタスクで、フィルタの有効性を実証的に証明している理論的分析と実証的検証 : レイヤースパース性と周波数分解の観点から実験結果を分析し、深層特徴Edge Filterに関する広範なアブレーション研究を提供している著者らは重要な仮説を提案している: 深層ネットワークは高周波成分にタスク関連の意味特徴を符号化し、低周波成分に領域固有のバイアスを符号化する。この仮説が成立するならば、Edge Filter (本質的には高域通過フィルタとして機能する) を一般化することは、汎化可能な特徴の分離に役立つはずである。
Edge Filterは、元の深層特徴hから低域通過フィルタ(LPF)の結果を減算することで得られる残差として定義される:
ここでLPFはhに適用される低域通過フィルタを表し、平均、中央値、またはガウスカーネルなどが該当する。
h ∈ R^dを深層ネットワークの隠れ層の特徴ベクトルとし、特徴が加法的に分解可能であると仮定する:
ここで:
h_semは汎化可能でタスク関連の意味特徴を符号化する h_domは照明、解像度、背景テクスチャなどの領域固有のバイアスを表す 提案された特徴分解と周波数仮説の下では:
LPF(h) ≈ h_dom ⇒ F_edge(h) ≈ h_sem
周波数フィルタリングを通じて特徴を精緻化するこの方法は、スパース符号化の原理と強く共鳴している。エッジフィルタリングによってhから低周波の領域固有の冗長性を除去することで、本質的に表現する必要がある信号を簡素化する。
CNNアーキテクチャ : 2D Edge Filterを使用する。CNNはピクセル間の垂直および水平空間関係を自然に処理するためMLPおよびTransformerアーキテクチャ : 1D Edge Filterを使用する。これらのアーキテクチャは本質的に空間関係を処理しないため著者らは異なる特性を持つ4つのモダリティで実験を実施した:
視覚領域 : テスト時適応(TTA)タスクCIFAR10-C/100-CおよびImageNet200-Cベンチマーク WRN28-10、ResNet18、ViT-B/32アーキテクチャを使用 言語領域 : 感情分析タスクGLUEベンチマークのサブタスク: SST-2、QQP、QNLI 12層Transformer(BERTアーキテクチャ)を使用 3D領域 : 少数ショットニューラルラディアンスフィールドBlenderデータセット、8ビュー少数ショット設定 評価指標: PSNR、SSIM、LPIPS、MAE 音声領域 : 音声分類UrbanSound8Kデータセット 3つの畳み込みブロックを持つCNNアーキテクチャ Edge Filterは訓練過程中にLPF成分が分離され、勾配の逆伝播を抑制する 各モデルでは単一のレイヤーのみにEdge Filterを実装し、複数のフィルタによる情報損失を回避する 反射パディングを使用して入出力の次元を一致させる CIFAR10-C/100-CおよびImageNet200-Cでの結果は以下を示している:
CIFAR10-C: 性能向上1.2%pから8.5%p CIFAR100-C: 性能向上0.4%pから10.2%p ImageNet200-C: 性能向上0.1%pから1.9%p 注目すべきことに、ソースデータセット上では性能がわずかに低下しているが、破損データセット上では性能が大幅に向上しており、Edge Filterが過適合を効果的に防止していることを示している。
GLUEベンチマークでの結果:
SST-2: 79.36% → 80.85% (+1.49%p) QQP: 83.42% → 83.46% (+0.04%p) QNLI: 62.40% → 63.30% (+0.90%p) NeRF少数ショットレンダリングでの結果:
平均PSNR向上: 22.95 → 23.39 (+0.44) 平均SSIM向上: 0.856 → 0.862 (+0.006) LPIPS大幅低下11%、視覚品質の明らかな改善を示す UrbanSound8K分類タスク: 77.42% → 81.72% (+4.3%p)
訓練過程中のレイヤー出力の密度を測定することにより、Edge Filterが後続レイヤーの出力密度を大幅に低下させることが判明し、高域通過フィルタリングが特徴のスパース符号化をもたらすという理論を検証している。
FFT分析は、Edge Filterが深層特徴の低周波領域の振幅を効果的に低下させることを示し、高域通過操作としての予期された機能を確認している。
異なるLPFタイプ(平均、中央値、ガウス)の効果をテストした:
平均および中央値フィルタはすべてのタスクで一貫した性能向上を示す LPFの直接適用は大幅な性能低下をもたらし、低周波成分が領域固有の情報を含むという仮説を検証している WRNモデル: Edge Filterの適用は普遍的に性能向上をもたらし、最大9.6%pの向上 ViTモデル: 後続レイヤーでのフィルタ適用がより効果的 言語タスク: 位置とカーネルサイズに関わらず、性能は不変または向上 既存の研究は主に画像データとCNNに焦点を当てており、以下を発見している:
CNNは形状ではなくテクスチャに強い偏向を持つ 深層ニューラルネットワークは「周波数原理」に従い、訓練中に低周波成分を先に学習する 関連研究には以下が含まれる:
Filter Response Normalization (FRN) Deep Frequency Filtering ProSparseなどの手法 本論文の革新性は、異なる深層学習応用に適用可能な汎用フィルタレイヤーを提案したことにある。
Deep Edge Filterは効果的にさらに汎化可能な特徴を抽出でき、複数のモダリティとアーキテクチャで一貫した性能向上を示す 理論的仮説は実証的に検証される: 意味情報は主に高周波成分に存在し、領域固有の情報は低周波成分に存在する 本手法はアーキテクチャに依存しず、モダリティに依存しない 計算コスト : モデルをゼロから再訓練する必要があり、大規模モデルでの広範な実験を制限している大規模モデルの検証不足 : 計算コストの制約により、最先端のモデルまたはより広範なタスクでの検証ができていない言語領域の制限 : LLMでの実験検証ができていない大規模言語モデル(LLM)への手法の適用 マルチモーダルモデルでの応用の探索 再訓練の必要性を減らす、より効率的な実装方法の研究 理論的革新性が強い : 古典的な画像処理のエッジフィルタの概念を深層特徴に成功裏に一般化し、新しい理論的観点を提供しているモダリティ横断的な検証が充分 : 視覚、テキスト、3D、音声の4つの異なるモダリティで検証し、手法の普遍性を証明している理論と実践の結合 : 手法を提案するだけでなく、スパース符号化理論と周波数分析を通じて理論的説明を提供している実験設計が厳密 : 豊富なアブレーション実験、統計的有意性検定、可視化分析を含んでいる計算オーバーヘッド分析の不足 : 付録Fで計算オーバーヘッドの比較が提供されているが、実際の応用における効率への影響分析が十分でない大規模モデルの検証が限定的 : 主に比較的小規模なモデルで検証されており、現在の主流の大規模モデルへの適用可能性は検証が必要である理論的説明の限界 : 周波数領域の説明は提供されているが、なぜ意味情報が主に高周波成分に存在するのかについての深層的なメカニズム説明が不十分である応用シーンの制限 : モデルの再訓練が必要という要件は、事前訓練済みモデルへの直接適用を制限している学術的価値 : 深層学習における特徴表現学習に新しい観点を提供し、関連研究をさらに刺激する可能性がある実用的価値 : 手法が単純で実装しやすく、汎化能力の向上が必要なタスクで実際の応用価値を持つ再現性 : 著者が完全なコード実装を提供し、実験の詳細が充分に記述されている領域適応タスク : 特に領域横断的な汎化が必要なシーンに適している少数ショット学習 : データが限定されている状況でモデルの汎化能力を向上させるロバスト性要件が高い応用 : ノイズと摂動に敏感な応用シーンマルチモーダル学習 : 異なるモダリティの特徴処理に統一的に適用可能論文は53篇の関連文献を引用しており、主に以下を含む:
深層学習における周波数分析に関する研究 領域適応とテスト時適応手法 活性化フィルタリングとネットワークスパース性研究 各モダリティのベンチマークデータセットと評価方法 総合評価 : これは理論的革新と実践的検証を重視する優秀な論文であり、古典的な信号処理の概念を現代の深層学習に成功裏に導入し、複数の領域でその有効性を検証している。いくつかの限界は存在するが、提供される新しい観点と一貫した実験結果は、重要な学術的価値と実用的意義を持つものである。