2025-11-22T06:43:16.272980

Deep Edge Filter: Return of the Human-Crafted Layer in Deep Learning

Lee, Lee, Kwak
We introduce the Deep Edge Filter, a novel approach that applies high-pass filtering to deep neural network features to improve model generalizability. Our method is motivated by our hypothesis that neural networks encode task-relevant semantic information in high-frequency components while storing domain-specific biases in low-frequency components of deep features. By subtracting low-pass filtered outputs from original features, our approach isolates generalizable representations while preserving architectural integrity. Experimental results across diverse domains such as Vision, Text, 3D, and Audio demonstrate consistent performance improvements regardless of model architecture and data modality. Analysis reveals that our method induces feature sparsification and effectively isolates high-frequency components, providing empirical validation of our core hypothesis. The code is available at https://github.com/dongkwani/DeepEdgeFilter.
academic

Глубокий фильтр краёв: возвращение ручного слоя в глубокое обучение

Основная информация

  • ID статьи: 2510.13865
  • Название: Deep Edge Filter: Return of the Human-Crafted Layer in Deep Learning
  • Авторы: Dongkwan Lee, Junhoo Lee, Nojun Kwak (Сеульский национальный университет)
  • Классификация: cs.LG cs.AI
  • Время публикации/конференция: 39-я конференция по нейронным системам обработки информации (NeurIPS 2025)
  • Ссылка на статью: https://arxiv.org/abs/2510.13865
  • Ссылка на код: https://github.com/dongkwani/DeepEdgeFilter

Аннотация

В данной работе предложен Deep Edge Filter — новый метод применения высокочастотной фильтрации к признакам глубоких нейронных сетей для повышения обобщающей способности модели. Метод основан на предположении, что нейронные сети кодируют связанную с задачей семантическую информацию в высокочастотных компонентах глубоких признаков, а информацию, специфичную для области, хранят в низкочастотных компонентах. Путём вычитания выхода низкочастотного фильтра из исходных признаков метод позволяет выделить обобщаемые представления при сохранении целостности архитектуры. Экспериментальные результаты в области компьютерного зрения, обработки текста, 3D-графики и аудиообработки демонстрируют, что метод обеспечивает последовательное повышение производительности независимо от архитектуры модели и модальности данных. Анализ показывает, что метод вызывает разреженность признаков и эффективно разделяет высокочастотные компоненты, обеспечивая эмпирическую проверку основного предположения.

Исследовательский контекст и мотивация

Определение проблемы

Одной из ключевых проблем, с которой сталкиваются модели глубокого обучения, является их уязвимость к возмущениям и смещениям области. Зависимость современных моделей глубокого обучения от поверхностных низкоуровневых текстур, приобретаемая во время обучения, ещё больше усугубляет их уязвимость к возмущениям, что особенно заметно в области состязательных атак и адаптации к новым областям.

Исследовательская мотивация

Авторы заметили, что традиционные фильтры краёв долгое время использовались в обработке изображений как классический метод эффективного захвата релевантной информации, обеспечивающий надёжный приоритет для различных типов шума и эффективное извлечение семантической информации. Однако это знание, похоже, было забыто в современном глубоком обучении.

Ограничения существующих методов

Основные причины неудачи попыток интеграции методов обнаружения краёв в область глубокого обучения включают:

  1. Применение фильтров краёв к изображениям, хотя и обеспечивает устойчивость к возмущениям, приводит к потере мелкозернистых деталей изображения
  2. Классическое обнаружение краёв ограничено областью изображений и сложно применяется универсально в современном глубоком обучении, работающем с разнообразными модальностями данных

Вклад данной работы

В данной работе концепция фильтра краёв обобщена на глубокие признаки, которые можно применять непосредственно к глубоким слоям, а не к входному слою, объединяя преимущества традиционных фильтров краёв и глубокого обучения для построения моделей, устойчивых к возмущениям и смещениям области.

Основные вклады

  1. Предложен Deep Edge Filter: фильтр, построенный на основе человеческой интуиции, который может применяться к признакам глубоких нейронных сетей независимо от модальности, способствуя извлечению обобщаемых признаков
  2. Проверка на разных архитектурах и модальностях: предложены фильтры краёв для архитектур CNN и ViT, эмпирически доказана эффективность фильтра на ключевых задачах обобщения в различных модальностях: изображения, текст, 3D и аудио
  3. Теоретический анализ и эмпирическая проверка: анализ результатов экспериментов с точки зрения разреженности слоёв и разложения по частотам, а также проведены обширные абляционные исследования Deep Edge Filter

Описание метода

Основное предположение

Авторы выдвигают ключевое предположение: глубокие сети кодируют связанные с задачей семантические признаки в высокочастотных компонентах, а информацию, специфичную для области, — в низкочастотных компонентах. Если это предположение верно, то применение обобщённого фильтра краёв (по сути, высокочастотного фильтра) должно помочь выделить обобщаемые признаки.

Определение Deep Edge Filter

Фильтр краёв определяется как остаток, полученный путём вычитания результата низкочастотной фильтрации (LPF) из исходного глубокого признака h:

F_edge(h) = h - LPF(h)

где LPF обозначает низкочастотный фильтр, применяемый к h, такой как средний, медианный или гауссовский фильтр.

Теория разложения признаков

Пусть h ∈ R^d — вектор признаков скрытого слоя глубокой сети. Предположим, что признаки могут быть аддитивно разложены как:

h = h_sem + h_dom

где:

  • h_sem кодирует обобщаемые, связанные с задачей семантические признаки
  • h_dom представляет информацию, специфичную для области, такую как освещение, разрешение или текстура фона

Перспектива разреженного кодирования

При предложенном разложении признаков и частотном предположении:

LPF(h) ≈ h_dom ⇒ F_edge(h) ≈ h_sem

Этот метод уточнения признаков путём частотной фильтрации тесно согласуется с принципами разреженного кодирования. Путём удаления низкочастотной, специфичной для области избыточности в h через фильтрацию краёв, по сути, упрощается сигнал, который необходимо представить.

Адаптация архитектуры

  • Архитектуры CNN: используется 2D фильтр краёв, так как CNN естественным образом обрабатывают вертикальные и горизонтальные пространственные отношения между пикселями
  • Архитектуры MLP и Transformer: используется 1D фильтр краёв, так как эти архитектуры не обрабатывают пространственные отношения по своей природе

Экспериментальная установка

Выбор наборов данных и задач

Авторы выбрали четыре модальности с различными характеристиками для экспериментов:

  1. Область компьютерного зрения: задачи адаптации при тестировании (TTA)
    • Эталоны CIFAR10-C/100-C и ImageNet200-C
    • Использованы архитектуры WRN28-10, ResNet18 и ViT-B/32
  2. Область языка: задачи анализа тональности
    • Подзадачи эталона GLUE: SST-2, QQP, QNLI
    • Использован 12-слойный Transformer (архитектура BERT)
  3. Область 3D: нейронные поля излучения с малым числом примеров
    • Набор данных Blender, установка с 8 видами и малым числом примеров
    • Метрики оценки: PSNR, SSIM, LPIPS, MAE
  4. Область аудио: классификация аудио
    • Набор данных UrbanSound8K
    • Архитектура CNN с тремя сверточными блоками

Детали реализации

  • Компонент LPF фильтра краёв отделяется во время обучения модели для подавления обратного распространения градиентов
  • Deep Edge Filter реализуется только в одном слое каждой модели, чтобы избежать потери информации из-за нескольких фильтров
  • Используется отражающее заполнение для сохранения согласованности размерности входа и выхода

Результаты экспериментов

Основные результаты

Область компьютерного зрения (TTA)

Результаты на эталонах CIFAR10-C/100-C и ImageNet200-C показывают:

  • CIFAR10-C: повышение производительности на 1,2%p до 8,5%p
  • CIFAR100-C: повышение производительности на 0,4%p до 10,2%p
  • ImageNet200-C: повышение производительности на 0,1%p до 1,9%p

Примечательно, что несмотря на небольшое снижение производительности на исходном наборе данных, производительность на повреждённых наборах данных значительно улучшается, что свидетельствует об эффективности Deep Edge Filter в предотвращении переобучения.

Область языка

На эталоне GLUE:

  • SST-2: 79,36% → 80,85% (+1,49%p)
  • QQP: 83,42% → 83,46% (+0,04%p)
  • QNLI: 62,40% → 63,30% (+0,90%p)

Область 3D

При рендеринге NeRF с малым числом примеров:

  • Среднее повышение PSNR: 22,95 → 23,39 (+0,44)
  • Среднее повышение SSIM: 0,856 → 0,862 (+0,006)
  • Значительное снижение LPIPS на 11%, что свидетельствует об явном улучшении визуального качества

Область аудио

Задача классификации UrbanSound8K: 77,42% → 81,72% (+4,3%p)

Аналитические эксперименты

Анализ разреженности признаков

Путём измерения плотности выходов слоёв во время обучения обнаружено, что Deep Edge Filter значительно снижает плотность выходов последующих слоёв, что подтверждает теорию о том, что высокочастотная фильтрация приводит к разреженному кодированию признаков.

Анализ в частотной области

Анализ FFT показывает, что Deep Edge Filter эффективно снижает амплитуду в низкочастотной области глубоких признаков, подтверждая его предполагаемую функцию в качестве высокочастотного оператора.

Абляционные эксперименты

Сравнение типов фильтров

Протестированы эффекты различных типов LPF (средний, медианный, гауссовский):

  • Фильтры среднего и медианного значения показывают последовательное повышение производительности на всех задачах
  • Прямое применение LPF приводит к значительному снижению производительности, что подтверждает предположение о том, что низкочастотные компоненты содержат информацию, специфичную для области

Влияние положения и размера ядра

  • Модель WRN: применение фильтра краёв универсально повышает производительность, максимальное повышение 9,6%p
  • Модель ViT: применение фильтра в последующих слоях даёт лучшие результаты
  • Языковые задачи: производительность остаётся неизменной или улучшается независимо от положения и размера ядра

Связанные работы

Частотный подход в глубоком обучении

Существующие исследования в основном сосредоточены на данных изображений и CNN, обнаружив:

  • CNN имеют сильное смещение в сторону текстур, а не форм
  • Глубокие нейронные сети следуют «принципу частотности», сначала изучая низкочастотные компоненты во время обучения

Фильтрация активаций и разреженность

Связанные работы включают:

  • Filter Response Normalization (FRN)
  • Deep Frequency Filtering
  • Методы типа ProSparse

Инновация данной работы заключается в предложении универсального слоя фильтрации, применимого к различным приложениям глубокого обучения.

Заключение и обсуждение

Основные выводы

  1. Deep Edge Filter эффективно извлекает более обобщаемые признаки, демонстрируя последовательное повышение производительности на нескольких модальностях и архитектурах
  2. Теоретическое предположение подтверждено эмпирически: семантическая информация в основном находится в высокочастотных компонентах, а информация, специфичная для области, — в низкочастотных компонентах
  3. Метод является независимым от архитектуры и модальности

Ограничения

  1. Вычислительные затраты: требует переобучения модели с нуля, что ограничивает широкие эксперименты на больших моделях
  2. Недостаточная проверка на больших моделях: из-за ограничений вычислительных ресурсов невозможно проверить на самых современных моделях или более широком диапазоне задач
  3. Ограничения в языковой области: невозможно провести эксперименты на больших языковых моделях (LLM)

Направления будущих исследований

  1. Применение метода к большим языковым моделям (LLM)
  2. Исследование применения в мультимодальных моделях
  3. Разработка более эффективных способов реализации, снижающих требования к переобучению

Глубокая оценка

Преимущества

  1. Сильная теоретическая новизна: успешное обобщение концепции фильтра краёв из классической обработки изображений на глубокие признаки, предоставляющее новую теоретическую перспективу
  2. Полная проверка на разных модальностях: проверка на четырёх различных модальностях (компьютерное зрение, текст, 3D, аудио) доказывает универсальность метода
  3. Сочетание теории и практики: не только предложен метод, но и предоставлено теоретическое объяснение через теорию разреженного кодирования и анализ в частотной области
  4. Строгое экспериментальное проектирование: включает богатые абляционные эксперименты, тесты статистической значимости и визуальный анализ

Недостатки

  1. Недостаточный анализ вычислительных затрат: хотя в приложении F приведено сравнение вычислительных затрат, анализ влияния на эффективность в практических приложениях недостаточно глубок
  2. Ограниченная проверка на больших моделях: основная проверка проведена на относительно небольших моделях, применимость к текущим основным большим моделям требует дальнейшей проверки
  3. Ограничения теоретического объяснения: хотя предоставлено объяснение в частотной области, объяснение глубокого механизма того, почему семантическая информация в основном находится в высокочастотных компонентах, недостаточно полно
  4. Ограничения сценариев применения: требование переобучения модели ограничивает прямое применение к предварительно обученным моделям

Влияние

  1. Академическая ценность: предоставляет новую перспективу для изучения представления признаков в глубоком обучении, может вдохновить больше связанных исследований
  2. Практическая ценность: метод прост в реализации и имеет практическое применение в задачах, требующих повышения обобщающей способности
  3. Воспроизводимость: авторы предоставили полную реализацию кода, описание экспериментальных деталей достаточно полно

Применимые сценарии

  1. Задачи адаптации к новым областям: особенно подходит для сценариев, требующих кросс-доменного обобщения
  2. Обучение с малым числом примеров: повышение обобщающей способности модели при ограниченных данных
  3. Приложения с высокими требованиями к надёжности: сценарии приложений, чувствительные к шуму и возмущениям
  4. Мультимодальное обучение: может быть единообразно применено к обработке признаков различных модальностей

Список литературы

Статья ссылается на 53 связанные работы, в основном охватывающие:

  • Исследования частотного анализа в глубоком обучении
  • Методы адаптации к новым областям и адаптации при тестировании
  • Исследования фильтрации активаций и разреженности сетей
  • Эталонные наборы данных и методы оценки для различных модальностей

Общая оценка: это отличная статья, в которой теоретическая инновация и практическая проверка идут рука об руку, успешно внедряя концепции классической обработки сигналов в современное глубокое обучение и проверяя его эффективность в нескольких областях. Несмотря на некоторые ограничения, предоставляемая новая перспектива и последовательные экспериментальные результаты придают ей важное академическое значение и практическую ценность.