2025-11-22T06:43:16.272980

Deep Edge Filter: Return of the Human-Crafted Layer in Deep Learning

Lee, Lee, Kwak
We introduce the Deep Edge Filter, a novel approach that applies high-pass filtering to deep neural network features to improve model generalizability. Our method is motivated by our hypothesis that neural networks encode task-relevant semantic information in high-frequency components while storing domain-specific biases in low-frequency components of deep features. By subtracting low-pass filtered outputs from original features, our approach isolates generalizable representations while preserving architectural integrity. Experimental results across diverse domains such as Vision, Text, 3D, and Audio demonstrate consistent performance improvements regardless of model architecture and data modality. Analysis reveals that our method induces feature sparsification and effectively isolates high-frequency components, providing empirical validation of our core hypothesis. The code is available at https://github.com/dongkwani/DeepEdgeFilter.
academic

Deep Edge Filter : Le Retour de la Couche Conçue par l'Homme dans l'Apprentissage Profond

Informations Fondamentales

  • ID de l'article : 2510.13865
  • Titre : Deep Edge Filter: Return of the Human-Crafted Layer in Deep Learning
  • Auteurs : Dongkwan Lee, Junhoo Lee, Nojun Kwak (Université Nationale de Séoul)
  • Classification : cs.LG cs.AI
  • Date de publication/Conférence : 39e Conférence sur les Systèmes de Traitement de l'Information Neuronale (NeurIPS 2025)
  • Lien de l'article : https://arxiv.org/abs/2510.13865
  • Lien du code : https://github.com/dongkwani/DeepEdgeFilter

Résumé

Cet article propose Deep Edge Filter, une nouvelle méthode qui applique un filtrage passe-haut aux caractéristiques des réseaux de neurones profonds pour améliorer la capacité de généralisation du modèle. La méthode repose sur l'hypothèse que les réseaux de neurones encodent les informations sémantiques pertinentes pour la tâche dans les composantes haute fréquence des caractéristiques profondes, tandis que les biais spécifiques au domaine sont stockés dans les composantes basse fréquence. En soustrayant la sortie du filtrage passe-bas des caractéristiques originales, cette méthode peut isoler les représentations généralisables tout en préservant l'intégrité de l'architecture. Les résultats expérimentaux dans plusieurs domaines, notamment la vision, le texte, la 3D et l'audio, démontrent que la méthode apporte des améliorations de performance cohérentes, indépendamment de l'architecture du modèle et de la modalité des données. L'analyse montre que la méthode peut induire une parcimonie des caractéristiques et séparer efficacement les composantes haute fréquence, fournissant une vérification empirique de l'hypothèse fondamentale.

Contexte de Recherche et Motivation

Définition du Problème

Un défi fondamental auquel font face les modèles d'apprentissage profond est leur fragilité face aux perturbations et aux changements de domaine. La dépendance accrue des modèles d'apprentissage profond modernes aux textures de bas niveau acquises lors de l'entraînement aggrave davantage leur fragilité face aux perturbations, ce qui est particulièrement évident dans des domaines tels que les attaques adversariales et l'adaptation de domaine.

Motivation de la Recherche

Les auteurs observent que les filtres de détection de contours traditionnels ont longtemps été utilisés en traitement d'images comme une technique classique efficace pour capturer les informations pertinentes, offrant des a priori forts robustes à divers types de bruits tout en extrayant efficacement les informations sémantiques. Cependant, cette connaissance semble avoir été oubliée dans l'apprentissage profond moderne.

Limitations des Approches Existantes

Les principales raisons de l'échec des tentatives précédentes d'intégration des techniques de détection de contours dans l'apprentissage profond incluent :

  1. L'application de filtres de contours aux images, bien qu'elle fournisse une robustesse aux perturbations, entraîne une perte de détails fins de l'image
  2. La détection de contours classique est limitée au domaine de l'image et est difficile à appliquer universellement dans l'apprentissage profond moderne qui traite des modalités de données diversifiées

Contributions de cet Article

Cet article généralise le concept de filtrage de contours aux caractéristiques profondes, qui peuvent être appliquées directement aux couches profondes plutôt qu'à la couche d'entrée, combinant les avantages des filtres de contours traditionnels et de l'apprentissage profond pour construire des modèles robustes aux perturbations et aux changements de domaine.

Contributions Principales

  1. Proposition de Deep Edge Filter : Un filtre construit sur l'intuition humaine qui peut être appliqué de manière indépendante de la modalité aux caractéristiques des réseaux de neurones profonds, favorisant l'extraction de caractéristiques généralisables
  2. Vérification inter-architectures et inter-modalités : Proposition de Edge Filter pour les architectures CNN et ViT, et vérification empirique de l'efficacité du filtre sur des tâches critiques de généralisation dans plusieurs modalités, notamment l'image, le texte, la 3D et l'audio
  3. Analyse théorique et vérification empirique : Analyse des résultats expérimentaux sous les perspectives de la parcimonie des couches et de la décomposition en fréquence, et fourniture d'études d'ablation approfondies sur le Edge Filter des caractéristiques profondes

Détails de la Méthode

Hypothèse Fondamentale

Les auteurs proposent une hypothèse clé : les réseaux profonds encodent les caractéristiques sémantiques pertinentes pour la tâche dans les composantes haute fréquence et les biais spécifiques au domaine dans les composantes basse fréquence. Si cette hypothèse est vérifiée, alors la généralisation du Edge Filter (essentiellement un filtre passe-haut) devrait aider à isoler les caractéristiques généralisables.

Définition de Deep Edge Filter

Le Edge Filter est défini comme le résidu obtenu en soustrayant le résultat du filtrage passe-bas (LPF) des caractéristiques profondes originales h :

F_edge(h) = h - LPF(h)

où LPF représente un filtre passe-bas appliqué à h, tel qu'une moyenne, une médiane ou un noyau gaussien.

Théorie de la Décomposition des Caractéristiques

Soit h ∈ R^d un vecteur de caractéristiques d'une couche cachée du réseau profond. On suppose que les caractéristiques peuvent être décomposées additivement comme :

h = h_sem + h_dom

où :

  • h_sem encode les caractéristiques sémantiques généralisables et pertinentes pour la tâche
  • h_dom représente les biais spécifiques au domaine, tels que l'éclairage, la résolution ou la texture de fond

Perspective du Codage Parcimonieux

Sous la décomposition des caractéristiques et l'hypothèse de fréquence proposées :

LPF(h) ≈ h_dom ⇒ F_edge(h) ≈ h_sem

Cette approche de raffinage des caractéristiques par filtrage en fréquence résonne fortement avec les principes du codage parcimonieux. En supprimant les redondances basse fréquence et spécifiques au domaine dans h par filtrage de contours, on simplifie essentiellement le signal qui doit être représenté.

Adaptation de l'Architecture

  • Architecture CNN : Utilisation d'un Edge Filter 2D, car les CNN traitent naturellement les relations spatiales verticales et horizontales entre les pixels
  • Architectures MLP et Transformer : Utilisation d'un Edge Filter 1D, car ces architectures ne traitent pas intrinsèquement les relations spatiales

Configuration Expérimentale

Sélection des Ensembles de Données et des Tâches

Les auteurs ont sélectionné quatre modalités avec des caractéristiques différentes pour les expériences :

  1. Domaine de la Vision : Tâches d'adaptation au moment du test (TTA)
    • Références CIFAR10-C/100-C et ImageNet200-C
    • Utilisation des architectures WRN28-10, ResNet18 et ViT-B/32
  2. Domaine du Langage : Tâches d'analyse de sentiment
    • Sous-tâches de la référence GLUE : SST-2, QQP, QNLI
    • Utilisation d'un Transformer à 12 couches (architecture BERT)
  3. Domaine 3D : Champs de rayonnement neuraux peu nombreux
    • Ensemble de données Blender, configuration peu nombreuse à 8 vues
    • Métriques d'évaluation : PSNR, SSIM, LPIPS, MAE
  4. Domaine Audio : Classification audio
    • Ensemble de données UrbanSound8K
    • Architecture CNN avec trois blocs de convolution

Détails d'Implémentation

  • Le composant LPF du Edge Filter est séparé lors de l'entraînement du modèle pour inhiber la rétropropagation du gradient
  • Le Edge Filter n'est implémenté que dans une seule couche de chaque modèle, évitant la perte d'information causée par plusieurs filtres
  • Utilisation du remplissage par réflexion pour maintenir la cohérence des dimensions d'entrée et de sortie

Résultats Expérimentaux

Résultats Principaux

Domaine de la Vision (TTA)

Les résultats sur CIFAR10-C/100-C et ImageNet200-C montrent :

  • CIFAR10-C : Amélioration de performance de 1,2 %p à 8,5 %p
  • CIFAR100-C : Amélioration de performance de 0,4 %p à 10,2 %p
  • ImageNet200-C : Amélioration de performance de 0,1 %p à 1,9 %p

Il est à noter que, bien que la performance sur l'ensemble de données source diminue légèrement, la performance sur les ensembles de données corrompus s'améliore significativement, indiquant que le Edge Filter prévient efficacement le surapprentissage.

Domaine du Langage

Sur la référence GLUE :

  • SST-2 : 79,36 % → 80,85 % (+1,49 %p)
  • QQP : 83,42 % → 83,46 % (+0,04 %p)
  • QNLI : 62,40 % → 63,30 % (+0,90 %p)

Domaine 3D

Dans le rendu NeRF peu nombreux :

  • Amélioration moyenne du PSNR : 22,95 → 23,39 (+0,44)
  • Amélioration moyenne du SSIM : 0,856 → 0,862 (+0,006)
  • Réduction significative du LPIPS de 11 %, indiquant une amélioration évidente de la qualité visuelle

Domaine Audio

Tâche de classification UrbanSound8K : 77,42 % → 81,72 % (+4,3 %p)

Expériences d'Analyse

Analyse de la Parcimonie des Caractéristiques

En mesurant la densité de la sortie de la couche pendant l'entraînement, on constate que le Edge Filter réduit significativement la densité de sortie des couches suivantes, vérifiant la théorie selon laquelle le filtrage passe-haut conduit à un codage parcimonieux des caractéristiques.

Analyse dans le Domaine Fréquentiel

L'analyse FFT montre que le Edge Filter réduit efficacement l'amplitude dans la région basse fréquence des caractéristiques profondes, confirmant sa fonction attendue en tant qu'opérateur passe-haut.

Études d'Ablation

Comparaison des Types de Filtres

Test de l'efficacité de différents types de LPF (moyenne, médiane, gaussienne) :

  • Les filtres de moyenne et de médiane montrent des améliorations de performance cohérentes sur toutes les tâches
  • L'application directe du LPF entraîne une baisse significative de performance, vérifiant l'hypothèse selon laquelle les composantes basse fréquence contiennent des informations spécifiques au domaine

Impact de la Position et de la Taille du Noyau

  • Modèle WRN : L'application du Edge Filter apporte universellement des améliorations de performance, avec une amélioration maximale de 9,6 %p
  • Modèle ViT : L'application du filtre dans les couches suivantes est plus efficace
  • Tâches de langage : La performance reste inchangée ou s'améliore indépendamment de la position et de la taille du noyau

Travaux Connexes

Perspective Fréquentielle dans l'Apprentissage Profond

Les recherches existantes se concentrent principalement sur les données d'image et les CNN, découvrant que :

  • Les CNN ont un biais fort vers la texture plutôt que la forme
  • Les réseaux de neurones profonds suivent le « principe de fréquence », apprenant d'abord les composantes basse fréquence pendant l'entraînement

Filtrage d'Activation et Parcimonie

Les travaux connexes incluent :

  • Filter Response Normalization (FRN)
  • Deep Frequency Filtering
  • Méthodes telles que ProSparse

L'innovation de cet article réside dans la proposition d'une couche de filtrage universelle applicable à différentes applications d'apprentissage profond.

Conclusion et Discussion

Conclusions Principales

  1. Le Deep Edge Filter peut extraire efficacement des caractéristiques plus généralisables, montrant des améliorations de performance cohérentes sur plusieurs modalités et architectures
  2. L'hypothèse théorique est vérifiée empiriquement : les informations sémantiques résident principalement dans les composantes haute fréquence, tandis que les informations spécifiques au domaine résident dans les composantes basse fréquence
  3. La méthode est indépendante de l'architecture et de la modalité

Limitations

  1. Coût Computationnel : Nécessite un réentraînement complet du modèle à partir de zéro, limitant les expériences étendues sur les grands modèles
  2. Vérification Insuffisante sur les Grands Modèles : En raison des contraintes de coût computationnel, impossible de vérifier sur les modèles les plus avancés ou sur un ensemble plus large de tâches
  3. Limitations du Domaine du Langage : Impossible de conduire des expériences de vérification sur les grands modèles de langage (LLM)

Directions Futures

  1. Application de la méthode aux grands modèles de langage (LLM)
  2. Exploration de l'application dans les modèles multimodaux
  3. Recherche de modes d'implémentation plus efficaces, réduisant le besoin de réentraînement

Évaluation Approfondie

Points Forts

  1. Forte Innovativité Théorique : Généralisation réussie du concept de détection de contours de la vision par ordinateur classique aux caractéristiques profondes, offrant une nouvelle perspective théorique
  2. Vérification Inter-Modalités Complète : Vérification sur quatre modalités différentes (vision, texte, 3D, audio), démontrant l'universalité de la méthode
  3. Combinaison de Théorie et de Pratique : Non seulement propose la méthode, mais fournit également des explications théoriques par le biais de la théorie du codage parcimonieux et de l'analyse fréquentielle
  4. Conception Expérimentale Rigoureuse : Inclut des études d'ablation approfondies, des tests de significativité statistique et des analyses de visualisation

Insuffisances

  1. Analyse Insuffisante de la Surcharge Computationnelle : Bien que des comparaisons de surcharge computationnelle soient fournies en annexe F, l'analyse de l'impact sur l'efficacité dans les applications pratiques est insuffisante
  2. Vérification Limitée sur les Grands Modèles : Principalement vérifiée sur des modèles relativement petits, l'applicabilité aux grands modèles actuels reste à démontrer
  3. Limitations de l'Explication Théorique : Bien que fournissant une explication dans le domaine fréquentiel, l'explication des mécanismes profonds de la raison pour laquelle les informations sémantiques résident principalement dans les composantes haute fréquence est insuffisante
  4. Restrictions des Scénarios d'Application : L'exigence de réentraînement du modèle limite son application directe sur les modèles pré-entraînés

Impact

  1. Valeur Académique : Fournit une nouvelle perspective pour l'apprentissage des représentations de caractéristiques dans l'apprentissage profond, pouvant inspirer davantage de recherches connexes
  2. Valeur Pratique : La méthode est simple à implémenter et a une valeur d'application pratique dans les tâches nécessitant une amélioration de la capacité de généralisation
  3. Reproductibilité : Les auteurs fournissent une implémentation de code complète avec des descriptions détaillées des expériences

Scénarios d'Application

  1. Tâches d'Adaptation de Domaine : Particulièrement adaptée aux scénarios nécessitant une généralisation inter-domaines
  2. Apprentissage Peu Nombreux : Amélioration de la capacité de généralisation du modèle dans les cas de données limitées
  3. Applications Nécessitant une Robustesse Élevée : Scénarios d'application sensibles au bruit et aux perturbations
  4. Apprentissage Multimodal : Peut être appliqué uniformément au traitement des caractéristiques de différentes modalités

Références

L'article cite 53 références connexes, couvrant principalement :

  • Travaux connexes sur l'analyse fréquentielle dans l'apprentissage profond
  • Méthodes d'adaptation de domaine et d'adaptation au moment du test
  • Recherches sur le filtrage d'activation et la parcimonie des réseaux
  • Ensembles de données de référence et méthodes d'évaluation pour diverses modalités

Évaluation Globale : Cet article est un excellent travail qui met l'accent à la fois sur l'innovation théorique et la vérification pratique, généralisant avec succès les concepts du traitement du signal classique à l'apprentissage profond moderne et vérifiant son efficacité dans plusieurs domaines. Bien qu'il présente certaines limitations, la nouvelle perspective qu'il offre et les résultats expérimentaux cohérents lui confèrent une valeur académique et pratique importante.