2025-11-18T05:49:12.501691

Phase-Aware Deep Learning with Complex-Valued CNNs for Audio Signal Applications

Agrawal

This study explores the design and application of Complex-Valued Convolutional Neural Networks (CVCNNs) in audio signal processing, with a focus on preserving and utilizing phase information often neglected in real-valued networks. We begin by presenting the foundational theoretical concepts of CVCNNs, including complex convolutions, pooling layers, Wirtinger-based differentiation, and various complex-valued activation functions. These are complemented by critical adaptations of training techniques, including complex batch normalization and weight initialization schemes, to ensure stability in training dynamics. Empirical evaluations are conducted across three stages. First, CVCNNs are benchmarked on standard image datasets, where they demonstrate competitive performance with real-valued CNNs, even under synthetic complex perturbations. Although our focus is audio signal processing, we first evaluate CVCNNs on image datasets to establish baseline performance and validate training stability before applying them to audio tasks. In the second experiment, we focus on audio classification using Mel-Frequency Cepstral Coefficients (MFCCs). CVCNNs trained on real-valued MFCCs slightly outperform real CNNs, while preserving phase in input workflows highlights challenges in exploiting phase without architectural modifications. Finally, a third experiment introduces GNNs to model phase information via edge weighting, where the inclusion of phase yields measurable gains in both binary and multi-class genre classification. These results underscore the expressive capacity of complex-valued architectures and confirm phase as a meaningful and exploitable feature in audio processing applications. While current methods show promise, especially with activations like cardioid, future advances in phase-aware design will be essential to leverage the potential of complex representations in neural networks.

academic

Фазово-осведомленное глубокое обучение с комплексными сверточными нейронными сетями для приложений обработки аудиосигналов

Основная информация

ID статьи: 2510.09926
Название: Phase-Aware Deep Learning with Complex-Valued CNNs for Audio Signal Applications
Автор: Agrawal Naman (Национальный университет Сингапура)
Классификация: cs.LG cs.AI cs.SD
Дата публикации: 10 октября 2025 г. (препринт arXiv)
Ссылка на статью: https://arxiv.org/abs/2510.09926

Аннотация

В данном исследовании изучается проектирование и применение комплексных сверточных нейронных сетей (КСНС) при обработке аудиосигналов с акцентом на сохранение и использование информации о фазе, которая игнорируется традиционными вещественными сетями. Исследование устанавливает теоретическую основу КСНС, включая комплексную свертку, слои пулинга, дифференцирование на основе Виртингера и различные комплексные функции активации, дополненные методами комплексной пакетной нормализации и инициализации весов. Эксперименты проводятся в три этапа: сначала проверяется базовая производительность КСНС на стандартных наборах данных изображений; затем оценивается производительность на задачах классификации аудио с использованием мел-частотных кепстральных коэффициентов (МФКК); наконец, вводятся графовые нейронные сети (ГНС) для явного моделирования информации о фазе через веса ребер. Результаты показывают, что КСНС обладают мощной выразительной способностью, а информация о фазе действительно является значимым и используемым признаком при обработке аудио.

Исследовательский контекст и мотивация

Определение проблемы

Традиционные вещественные сверточные нейронные сети при обработке аудиосигналов имеют фундаментальный недостаток: они по своей природе отбрасывают или недостаточно используют информацию о фазе, которая является критически важным компонентом во многих задачах обработки сигналов.

Анализ значимости

Ценность информации о фазе: При преобразовании аудиосигналов в частотную область с помощью кратковременного преобразования Фурье (КПФ) получается комплексный выход, где амплитуда представляет величину колебаний, а фаза содержит важную временную и пространственную информацию
Требования приложений: В задачах улучшения речи, локализации источников звука, классификации аудио информация о фазе имеет потенциальную ценность для повышения производительности
Технологическое развитие: КСНС продемонстрировали значительные преимущества в дистанционном зондировании, медицинской визуализации, системах связи и других областях

Ограничения существующих методов

Традиционные CNN обрабатывают только спектр амплитуды, полностью игнорируя информацию о фазе
Отсутствуют эффективные методы обучения комплексных сетей и теоретическая база
Существующие комплексные функции активации имеют проблемы со стабильностью обучения

Исследовательская мотивация

Путем расширения CNN в комплексную область построить архитектуры нейронных сетей, способные одновременно обрабатывать информацию об амплитуде и фазе, обеспечивая более выразительные и эффективные методы представления для обработки аудиосигналов.

Основные вклады

Установление теоретической базы: Систематическое построение математических основ КСНС, включая полную теоретическую систему комплексной свертки, пулинга, функций активации и пакетной нормализации
Оптимизация методов обучения: Предложены стратегии инициализации весов и методы пакетной нормализации для комплексных сетей, обеспечивающие стабильность обучения
Улучшение функций активации: Предложена функция активации smooth zReLU, решающая проблему разрывности исходной функции zReLU
Верификация информации о фазе: Через эксперименты с ГНС явно подтверждена ценность информации о фазе в задачах классификации аудио
Комплексная оценка: Проведена всесторонняя экспериментальная верификация в двух областях (изображения и аудио), обеспечивающая эмпирическую поддержку применения КСНС

Подробное описание методов

Определение задачи

Данная работа сосредоточена на задачах классификации аудиосигналов, в частности на классификации музыкальных жанров. Входные данные представляют собой МФКК-представление аудиосигнала, выходные данные — метки классов. Основная проблема заключается в том, как эффективно использовать информацию о фазе аудиосигнала в нейронной сети.

Архитектура модели

Операция комплексной свертки

Для комплексной входной матрицы $X = A_1 + iB_1$ и комплексного ядра свертки $W = A_2 + iB_2$ комплексная свертка определяется как:

$W * X = (A_1 * A_2 - B_1 * B_2) + i(B_1 * A_2 + A_1 * B_2)$

Это может быть представлено в матричной форме как: $W * X = \begin{pmatrix} A_1 & -B_1 \\ B_1 & A_1 \end{pmatrix} * \begin{pmatrix} A_2 & -B_2 \\ B_2 & A_2 \end{pmatrix}$

Слой комплексного пулинга

Максимальный пулинг: Выбор максимального значения на основе амплитуды комплексного числа, соответствующая фаза восстанавливается через индекс максимальной амплитуды
Средний пулинг: Отдельное усреднение вещественной и мнимой частей

Комплексные функции активации

Статья подробно сравнивает пять комплексных функций активации:

CReLU: $\text{CReLU}(z) = \text{ReLU}(\text{Re}(z)) + i\text{ReLU}(\text{Im}(z))$
modReLU: $\text{modReLU}(z) = \text{ReLU}(|z| + b) \cdot \frac{z}{|z|}$
zReLU: Возвращает исходное значение только когда вещественная и мнимая части неотрицательны
smooth zReLU: $z \cdot \sigma(\alpha \cdot \text{Re}(z)) \cdot \sigma(\alpha \cdot \text{Im}(z))$
cardioid: $g(z) = \frac{z}{2}(1 + \cos \phi_z)$

Комплексная пакетная нормализация

Процесс стандартизации комплексного вектора $x$ : $\tilde{x} = V^{-1/2}(x - E(x))$

где матрица ковариации: $V = \begin{pmatrix} \text{Cov}(\text{Re}(x), \text{Re}(x)) & \text{Cov}(\text{Re}(x), \text{Im}(x)) \\ \text{Cov}(\text{Im}(x), \text{Re}(x)) & \text{Cov}(\text{Im}(x), \text{Im}(x)) \end{pmatrix} + \lambda I$

Технические инновации

Применение исчисления Виртингера: Решение проблемы вычисления градиентов для неаналитических комплексных функций
Фазово-осведомленное извлечение признаков: Разработка двух методов извлечения МФКК, сохраняющих информацию о фазе
Интеграция графовых нейронных сетей: Инновационное использование весов ребер ГНС для явного моделирования информации о фазе
Оптимизация функций активации: Предложение smooth zReLU для решения проблем нестабильности обучения

Экспериментальная установка

Наборы данных

Наборы данных изображений: MNIST, Fashion-MNIST, Kuzushiji-MNIST
Наборы данных аудио: Набор данных музыкальных жанров GTZAN (1000 аудиофрагментов по 30 секунд, 10 жанров)

Метрики оценки

Точность обучения и тестирования
Сравнение времени обучения
Анализ сходимости

Методы сравнения

Стандартная вещественная CNN (базовая модель)
КСНС с различными конфигурациями (вещественный вход, комплексный вход и т.д.)
Варианты КСНС с различными функциями активации

Детали реализации

Использование библиотек PyTorch и complexPyTorch
Обучение на CPU с процессором Apple M2 Pro
Отсечение градиентов для предотвращения нестабильности обучения
Цикл обучения 5-10 эпох

Результаты экспериментов

Основные результаты

Эксперименты по классификации изображений

На наборах данных MNIST, KMNIST и Fashion-MNIST КСНС достигают производительности, сравнимой с вещественной CNN при различных конфигурациях входа:

MNIST: точность тестирования ~99%
KMNIST: точность тестирования ~95%
Fashion-MNIST: точность тестирования ~90%

Эксперименты по классификации аудио

На задаче двоичной классификации музыкальных жанров:

Базовая вещественная CNN: точность тестирования 92,5%
КСНС (вещественный МФКК): точность тестирования 95,34% (функция активации cardioid)
КСНС (комплексный МФКК): некоторое снижение производительности, демонстрирующее ограничения текущей архитектуры

Сравнение функций активации

Функция активации cardioid показала лучшие результаты во всех экспериментах:

Наиболее стабильна при возмущениях комплексного входа
Достигает наивысшей точности в задачах обработки аудио
Наиболее стабильный процесс обучения

Абляционные эксперименты

Влияние различных функций активации

Результаты экспериментов показывают:

cardioid: Отличная производительность при всех конфигурациях, особенно при возмущениях фазы
modReLU: Нестабильность при фиксированной фазе и параметрах мнимой части, значительное снижение точности
smooth zReLU: Хорошая производительность при отсутствии преобразований и в условиях шума
CReLU: Стабильный выбор в качестве базовой модели

Верификация ценности информации о фазе

Эксперименты с ГНС явно доказали ценность информации о фазе:

ГНС без информации о фазе (базовая модель)
ГНС с весами ребер на основе разности фаз: значительное превосходство над базовой моделью в задачах двоичной и десятиклассовой классификации

Экспериментальные выводы

Эффективность обучения: Время обучения КСНС примерно в 4-5 раз больше, чем для вещественной CNN
Стабильность: Правильный выбор функции активации критически важен для стабильности обучения
Использование фазы: Текущая архитектура имеет ограничения в прямом использовании информации о фазе
Способность к обобщению: КСНС демонстрируют хорошую робастность при возмущениях комплексного входа

Связанные работы

Развитие комплексных нейронных сетей

Ранние работы сосредоточены на теоретических основах и базовых архитектурах
В последние годы достигнуты прорывы в специфических областях (восстановление МРТ, обработка изображений РСА)

Глубокое обучение при обработке аудиосигналов

Традиционные методы в основном основаны на признаках спектра амплитуды
Методы, осведомленные о фазе, начинают привлекать внимание, например Deep Complex U-Net

Преимущества данной работы

По сравнению с существующими работами, данная статья предоставляет более систематическую теоретическую базу и более полную экспериментальную верификацию, особенно в сравнении функций активации и верификации ценности информации о фазе.

Заключение и обсуждение

Основные выводы

Осуществимость архитектуры: КСНС сохраняют производительность, сравнимую с вещественной CNN, при этом обеспечивая способность обработки комплексной информации
Ценность информации о фазе: Эксперименты с ГНС явно доказывают дискриминативную ценность информации о фазе при классификации аудио
Важность функций активации: Фазово-осведомленные функции активации, такие как cardioid, значительно превосходят традиционные варианты
Потенциал применения: При надлежащем проектировании архитектуры КСНС могут достичь прорывов в задачах обработки аудио

Ограничения

Вычислительные затраты: Значительное увеличение времени обучения (4-5 раз)
Ограничения архитектуры: Текущее проектирование все еще недостаточно для прямого использования информации о фазе
Специфичность для области: В некоторых задачах ценность информации о фазе может быть ограничена
Сложность реализации: Требуется поддержка специализированных библиотек для комплексных вычислений

Направления будущих исследований

Архитектурные инновации: Разработка специализированных модулей, осведомленных о фазе, и механизмов внимания
Оптимизация обучения: Разработка более эффективных алгоритмов обучения комплексных сетей
Расширение приложений: Исследование применения в задачах распознавания речи, локализации источников звука и других областях
Углубление теории: Дальнейшее понимание выразительной способности комплексного представления и динамики обучения

Глубокая оценка

Преимущества

Полнота теории: Предоставляет полную математическую базу КСНС от базовых операций до методов обучения
Полнота экспериментов: Систематическая оценка с различных углов (разные функции активации, конфигурации входа) в разных областях (изображения + аудио)
Верификация инноваций: Умное использование ГНС для верификации внутренней ценности информации о фазе
Практическое руководство: Предоставляет конкретные технические рекомендации для практического применения КСНС

Недостатки

Ограниченное улучшение производительности: В некоторых задачах преимущество КСНС над вещественной CNN не очень очевидно
Вычислительная эффективность: Значительные вычислительные затраты могут ограничить практическое применение
Недостаточное исследование архитектур: Главным образом используются стандартные архитектуры CNN, отсутствует специализированное проектирование для комплексных характеристик
Масштаб наборов данных: Эксперименты проводятся в основном на относительно простых наборах данных

Влияние

Научный вклад: Предоставляет важную теоретическую и экспериментальную базу для исследований комплексных нейронных сетей
Практическая ценность: Вводит новый технологический путь для области обработки аудиосигналов
Воспроизводимость: Предоставляет полную реализацию кода, облегчая последующие исследования
Вдохновляющий характер: Указывает направление развития фазово-осведомленного глубокого обучения

Применимые сценарии

Обработка аудио: Анализ музыки, улучшение речи, классификация акустических сцен
Обработка сигналов: Обработка радиолокационных сигналов, системы связи, анализ биомедицинских сигналов
Научные вычисления: Физическое моделирование и численные расчеты, связанные с комплексными данными
Исследовательские инструменты: Базовая платформа для исследования ценности информации о фазе

Библиография

Статья цитирует 37 важных работ, охватывающих теорию комплексных нейронных сетей, обработку аудиосигналов, оптимизацию глубокого обучения и другие области, обеспечивая прочную теоретическую базу и техническую поддержку исследования.

Общая оценка: Это систематическая исследовательская работа, которая строит мост между теорией комплексных нейронных сетей и их практическим применением. Хотя улучшение производительности в некоторых аспектах еще не очень значительно, она предоставляет важную базовую работу и направления исследований для развития этой области.