Deep Edge Filter: Return of the Human-Crafted Layer in Deep Learning
Lee, Lee, Kwak
We introduce the Deep Edge Filter, a novel approach that applies high-pass filtering to deep neural network features to improve model generalizability. Our method is motivated by our hypothesis that neural networks encode task-relevant semantic information in high-frequency components while storing domain-specific biases in low-frequency components of deep features. By subtracting low-pass filtered outputs from original features, our approach isolates generalizable representations while preserving architectural integrity. Experimental results across diverse domains such as Vision, Text, 3D, and Audio demonstrate consistent performance improvements regardless of model architecture and data modality. Analysis reveals that our method induces feature sparsification and effectively isolates high-frequency components, providing empirical validation of our core hypothesis. The code is available at https://github.com/dongkwani/DeepEdgeFilter.
academic
Глубокий фильтр краёв: возвращение ручного слоя в глубокое обучение
В данной работе предложен Deep Edge Filter — новый метод применения высокочастотной фильтрации к признакам глубоких нейронных сетей для повышения обобщающей способности модели. Метод основан на предположении, что нейронные сети кодируют связанную с задачей семантическую информацию в высокочастотных компонентах глубоких признаков, а информацию, специфичную для области, хранят в низкочастотных компонентах. Путём вычитания выхода низкочастотного фильтра из исходных признаков метод позволяет выделить обобщаемые представления при сохранении целостности архитектуры. Экспериментальные результаты в области компьютерного зрения, обработки текста, 3D-графики и аудиообработки демонстрируют, что метод обеспечивает последовательное повышение производительности независимо от архитектуры модели и модальности данных. Анализ показывает, что метод вызывает разреженность признаков и эффективно разделяет высокочастотные компоненты, обеспечивая эмпирическую проверку основного предположения.
Одной из ключевых проблем, с которой сталкиваются модели глубокого обучения, является их уязвимость к возмущениям и смещениям области. Зависимость современных моделей глубокого обучения от поверхностных низкоуровневых текстур, приобретаемая во время обучения, ещё больше усугубляет их уязвимость к возмущениям, что особенно заметно в области состязательных атак и адаптации к новым областям.
Авторы заметили, что традиционные фильтры краёв долгое время использовались в обработке изображений как классический метод эффективного захвата релевантной информации, обеспечивающий надёжный приоритет для различных типов шума и эффективное извлечение семантической информации. Однако это знание, похоже, было забыто в современном глубоком обучении.
Основные причины неудачи попыток интеграции методов обнаружения краёв в область глубокого обучения включают:
Применение фильтров краёв к изображениям, хотя и обеспечивает устойчивость к возмущениям, приводит к потере мелкозернистых деталей изображения
Классическое обнаружение краёв ограничено областью изображений и сложно применяется универсально в современном глубоком обучении, работающем с разнообразными модальностями данных
В данной работе концепция фильтра краёв обобщена на глубокие признаки, которые можно применять непосредственно к глубоким слоям, а не к входному слою, объединяя преимущества традиционных фильтров краёв и глубокого обучения для построения моделей, устойчивых к возмущениям и смещениям области.
Предложен Deep Edge Filter: фильтр, построенный на основе человеческой интуиции, который может применяться к признакам глубоких нейронных сетей независимо от модальности, способствуя извлечению обобщаемых признаков
Проверка на разных архитектурах и модальностях: предложены фильтры краёв для архитектур CNN и ViT, эмпирически доказана эффективность фильтра на ключевых задачах обобщения в различных модальностях: изображения, текст, 3D и аудио
Теоретический анализ и эмпирическая проверка: анализ результатов экспериментов с точки зрения разреженности слоёв и разложения по частотам, а также проведены обширные абляционные исследования Deep Edge Filter
Авторы выдвигают ключевое предположение: глубокие сети кодируют связанные с задачей семантические признаки в высокочастотных компонентах, а информацию, специфичную для области, — в низкочастотных компонентах. Если это предположение верно, то применение обобщённого фильтра краёв (по сути, высокочастотного фильтра) должно помочь выделить обобщаемые признаки.
При предложенном разложении признаков и частотном предположении:
LPF(h) ≈ h_dom ⇒ F_edge(h) ≈ h_sem
Этот метод уточнения признаков путём частотной фильтрации тесно согласуется с принципами разреженного кодирования. Путём удаления низкочастотной, специфичной для области избыточности в h через фильтрацию краёв, по сути, упрощается сигнал, который необходимо представить.
Архитектуры CNN: используется 2D фильтр краёв, так как CNN естественным образом обрабатывают вертикальные и горизонтальные пространственные отношения между пикселями
Архитектуры MLP и Transformer: используется 1D фильтр краёв, так как эти архитектуры не обрабатывают пространственные отношения по своей природе
Результаты на эталонах CIFAR10-C/100-C и ImageNet200-C показывают:
CIFAR10-C: повышение производительности на 1,2%p до 8,5%p
CIFAR100-C: повышение производительности на 0,4%p до 10,2%p
ImageNet200-C: повышение производительности на 0,1%p до 1,9%p
Примечательно, что несмотря на небольшое снижение производительности на исходном наборе данных, производительность на повреждённых наборах данных значительно улучшается, что свидетельствует об эффективности Deep Edge Filter в предотвращении переобучения.
Путём измерения плотности выходов слоёв во время обучения обнаружено, что Deep Edge Filter значительно снижает плотность выходов последующих слоёв, что подтверждает теорию о том, что высокочастотная фильтрация приводит к разреженному кодированию признаков.
Анализ FFT показывает, что Deep Edge Filter эффективно снижает амплитуду в низкочастотной области глубоких признаков, подтверждая его предполагаемую функцию в качестве высокочастотного оператора.
Протестированы эффекты различных типов LPF (средний, медианный, гауссовский):
Фильтры среднего и медианного значения показывают последовательное повышение производительности на всех задачах
Прямое применение LPF приводит к значительному снижению производительности, что подтверждает предположение о том, что низкочастотные компоненты содержат информацию, специфичную для области
Deep Edge Filter эффективно извлекает более обобщаемые признаки, демонстрируя последовательное повышение производительности на нескольких модальностях и архитектурах
Теоретическое предположение подтверждено эмпирически: семантическая информация в основном находится в высокочастотных компонентах, а информация, специфичная для области, — в низкочастотных компонентах
Метод является независимым от архитектуры и модальности
Вычислительные затраты: требует переобучения модели с нуля, что ограничивает широкие эксперименты на больших моделях
Недостаточная проверка на больших моделях: из-за ограничений вычислительных ресурсов невозможно проверить на самых современных моделях или более широком диапазоне задач
Ограничения в языковой области: невозможно провести эксперименты на больших языковых моделях (LLM)
Сильная теоретическая новизна: успешное обобщение концепции фильтра краёв из классической обработки изображений на глубокие признаки, предоставляющее новую теоретическую перспективу
Полная проверка на разных модальностях: проверка на четырёх различных модальностях (компьютерное зрение, текст, 3D, аудио) доказывает универсальность метода
Сочетание теории и практики: не только предложен метод, но и предоставлено теоретическое объяснение через теорию разреженного кодирования и анализ в частотной области
Строгое экспериментальное проектирование: включает богатые абляционные эксперименты, тесты статистической значимости и визуальный анализ
Недостаточный анализ вычислительных затрат: хотя в приложении F приведено сравнение вычислительных затрат, анализ влияния на эффективность в практических приложениях недостаточно глубок
Ограниченная проверка на больших моделях: основная проверка проведена на относительно небольших моделях, применимость к текущим основным большим моделям требует дальнейшей проверки
Ограничения теоретического объяснения: хотя предоставлено объяснение в частотной области, объяснение глубокого механизма того, почему семантическая информация в основном находится в высокочастотных компонентах, недостаточно полно
Ограничения сценариев применения: требование переобучения модели ограничивает прямое применение к предварительно обученным моделям
Академическая ценность: предоставляет новую перспективу для изучения представления признаков в глубоком обучении, может вдохновить больше связанных исследований
Практическая ценность: метод прост в реализации и имеет практическое применение в задачах, требующих повышения обобщающей способности
Воспроизводимость: авторы предоставили полную реализацию кода, описание экспериментальных деталей достаточно полно
Статья ссылается на 53 связанные работы, в основном охватывающие:
Исследования частотного анализа в глубоком обучении
Методы адаптации к новым областям и адаптации при тестировании
Исследования фильтрации активаций и разреженности сетей
Эталонные наборы данных и методы оценки для различных модальностей
Общая оценка: это отличная статья, в которой теоретическая инновация и практическая проверка идут рука об руку, успешно внедряя концепции классической обработки сигналов в современное глубокое обучение и проверяя его эффективность в нескольких областях. Несмотря на некоторые ограничения, предоставляемая новая перспектива и последовательные экспериментальные результаты придают ей важное академическое значение и практическую ценность.