This study explores the design and application of Complex-Valued Convolutional Neural Networks (CVCNNs) in audio signal processing, with a focus on preserving and utilizing phase information often neglected in real-valued networks. We begin by presenting the foundational theoretical concepts of CVCNNs, including complex convolutions, pooling layers, Wirtinger-based differentiation, and various complex-valued activation functions. These are complemented by critical adaptations of training techniques, including complex batch normalization and weight initialization schemes, to ensure stability in training dynamics. Empirical evaluations are conducted across three stages. First, CVCNNs are benchmarked on standard image datasets, where they demonstrate competitive performance with real-valued CNNs, even under synthetic complex perturbations. Although our focus is audio signal processing, we first evaluate CVCNNs on image datasets to establish baseline performance and validate training stability before applying them to audio tasks. In the second experiment, we focus on audio classification using Mel-Frequency Cepstral Coefficients (MFCCs). CVCNNs trained on real-valued MFCCs slightly outperform real CNNs, while preserving phase in input workflows highlights challenges in exploiting phase without architectural modifications. Finally, a third experiment introduces GNNs to model phase information via edge weighting, where the inclusion of phase yields measurable gains in both binary and multi-class genre classification. These results underscore the expressive capacity of complex-valued architectures and confirm phase as a meaningful and exploitable feature in audio processing applications. While current methods show promise, especially with activations like cardioid, future advances in phase-aware design will be essential to leverage the potential of complex representations in neural networks.
- ID статьи: 2510.09926
- Название: Phase-Aware Deep Learning with Complex-Valued CNNs for Audio Signal Applications
- Автор: Agrawal Naman (Национальный университет Сингапура)
- Классификация: cs.LG cs.AI cs.SD
- Дата публикации: 10 октября 2025 г. (препринт arXiv)
- Ссылка на статью: https://arxiv.org/abs/2510.09926
В данном исследовании изучается проектирование и применение комплексных сверточных нейронных сетей (КСНС) при обработке аудиосигналов с акцентом на сохранение и использование информации о фазе, которая игнорируется традиционными вещественными сетями. Исследование устанавливает теоретическую основу КСНС, включая комплексную свертку, слои пулинга, дифференцирование на основе Виртингера и различные комплексные функции активации, дополненные методами комплексной пакетной нормализации и инициализации весов. Эксперименты проводятся в три этапа: сначала проверяется базовая производительность КСНС на стандартных наборах данных изображений; затем оценивается производительность на задачах классификации аудио с использованием мел-частотных кепстральных коэффициентов (МФКК); наконец, вводятся графовые нейронные сети (ГНС) для явного моделирования информации о фазе через веса ребер. Результаты показывают, что КСНС обладают мощной выразительной способностью, а информация о фазе действительно является значимым и используемым признаком при обработке аудио.
Традиционные вещественные сверточные нейронные сети при обработке аудиосигналов имеют фундаментальный недостаток: они по своей природе отбрасывают или недостаточно используют информацию о фазе, которая является критически важным компонентом во многих задачах обработки сигналов.
- Ценность информации о фазе: При преобразовании аудиосигналов в частотную область с помощью кратковременного преобразования Фурье (КПФ) получается комплексный выход, где амплитуда представляет величину колебаний, а фаза содержит важную временную и пространственную информацию
- Требования приложений: В задачах улучшения речи, локализации источников звука, классификации аудио информация о фазе имеет потенциальную ценность для повышения производительности
- Технологическое развитие: КСНС продемонстрировали значительные преимущества в дистанционном зондировании, медицинской визуализации, системах связи и других областях
- Традиционные CNN обрабатывают только спектр амплитуды, полностью игнорируя информацию о фазе
- Отсутствуют эффективные методы обучения комплексных сетей и теоретическая база
- Существующие комплексные функции активации имеют проблемы со стабильностью обучения
Путем расширения CNN в комплексную область построить архитектуры нейронных сетей, способные одновременно обрабатывать информацию об амплитуде и фазе, обеспечивая более выразительные и эффективные методы представления для обработки аудиосигналов.
- Установление теоретической базы: Систематическое построение математических основ КСНС, включая полную теоретическую систему комплексной свертки, пулинга, функций активации и пакетной нормализации
- Оптимизация методов обучения: Предложены стратегии инициализации весов и методы пакетной нормализации для комплексных сетей, обеспечивающие стабильность обучения
- Улучшение функций активации: Предложена функция активации smooth zReLU, решающая проблему разрывности исходной функции zReLU
- Верификация информации о фазе: Через эксперименты с ГНС явно подтверждена ценность информации о фазе в задачах классификации аудио
- Комплексная оценка: Проведена всесторонняя экспериментальная верификация в двух областях (изображения и аудио), обеспечивающая эмпирическую поддержку применения КСНС
Данная работа сосредоточена на задачах классификации аудиосигналов, в частности на классификации музыкальных жанров. Входные данные представляют собой МФКК-представление аудиосигнала, выходные данные — метки классов. Основная проблема заключается в том, как эффективно использовать информацию о фазе аудиосигнала в нейронной сети.
Для комплексной входной матрицы X=A1+iB1 и комплексного ядра свертки W=A2+iB2 комплексная свертка определяется как:
W∗X=(A1∗A2−B1∗B2)+i(B1∗A2+A1∗B2)
Это может быть представлено в матричной форме как:
W∗X=(A1B1−B1A1)∗(A2B2−B2A2)
- Максимальный пулинг: Выбор максимального значения на основе амплитуды комплексного числа, соответствующая фаза восстанавливается через индекс максимальной амплитуды
- Средний пулинг: Отдельное усреднение вещественной и мнимой частей
Статья подробно сравнивает пять комплексных функций активации:
- CReLU: CReLU(z)=ReLU(Re(z))+iReLU(Im(z))
- modReLU: modReLU(z)=ReLU(∣z∣+b)⋅∣z∣z
- zReLU: Возвращает исходное значение только когда вещественная и мнимая части неотрицательны
- smooth zReLU: z⋅σ(α⋅Re(z))⋅σ(α⋅Im(z))
- cardioid: g(z)=2z(1+cosϕz)
Процесс стандартизации комплексного вектора x:
x~=V−1/2(x−E(x))
где матрица ковариации:
V=(Cov(Re(x),Re(x))Cov(Im(x),Re(x))Cov(Re(x),Im(x))Cov(Im(x),Im(x)))+λI
- Применение исчисления Виртингера: Решение проблемы вычисления градиентов для неаналитических комплексных функций
- Фазово-осведомленное извлечение признаков: Разработка двух методов извлечения МФКК, сохраняющих информацию о фазе
- Интеграция графовых нейронных сетей: Инновационное использование весов ребер ГНС для явного моделирования информации о фазе
- Оптимизация функций активации: Предложение smooth zReLU для решения проблем нестабильности обучения
- Наборы данных изображений: MNIST, Fashion-MNIST, Kuzushiji-MNIST
- Наборы данных аудио: Набор данных музыкальных жанров GTZAN (1000 аудиофрагментов по 30 секунд, 10 жанров)
- Точность обучения и тестирования
- Сравнение времени обучения
- Анализ сходимости
- Стандартная вещественная CNN (базовая модель)
- КСНС с различными конфигурациями (вещественный вход, комплексный вход и т.д.)
- Варианты КСНС с различными функциями активации
- Использование библиотек PyTorch и complexPyTorch
- Обучение на CPU с процессором Apple M2 Pro
- Отсечение градиентов для предотвращения нестабильности обучения
- Цикл обучения 5-10 эпох
На наборах данных MNIST, KMNIST и Fashion-MNIST КСНС достигают производительности, сравнимой с вещественной CNN при различных конфигурациях входа:
- MNIST: точность тестирования ~99%
- KMNIST: точность тестирования ~95%
- Fashion-MNIST: точность тестирования ~90%
На задаче двоичной классификации музыкальных жанров:
- Базовая вещественная CNN: точность тестирования 92,5%
- КСНС (вещественный МФКК): точность тестирования 95,34% (функция активации cardioid)
- КСНС (комплексный МФКК): некоторое снижение производительности, демонстрирующее ограничения текущей архитектуры
Функция активации cardioid показала лучшие результаты во всех экспериментах:
- Наиболее стабильна при возмущениях комплексного входа
- Достигает наивысшей точности в задачах обработки аудио
- Наиболее стабильный процесс обучения
Результаты экспериментов показывают:
- cardioid: Отличная производительность при всех конфигурациях, особенно при возмущениях фазы
- modReLU: Нестабильность при фиксированной фазе и параметрах мнимой части, значительное снижение точности
- smooth zReLU: Хорошая производительность при отсутствии преобразований и в условиях шума
- CReLU: Стабильный выбор в качестве базовой модели
Эксперименты с ГНС явно доказали ценность информации о фазе:
- ГНС без информации о фазе (базовая модель)
- ГНС с весами ребер на основе разности фаз: значительное превосходство над базовой моделью в задачах двоичной и десятиклассовой классификации
- Эффективность обучения: Время обучения КСНС примерно в 4-5 раз больше, чем для вещественной CNN
- Стабильность: Правильный выбор функции активации критически важен для стабильности обучения
- Использование фазы: Текущая архитектура имеет ограничения в прямом использовании информации о фазе
- Способность к обобщению: КСНС демонстрируют хорошую робастность при возмущениях комплексного входа
- Ранние работы сосредоточены на теоретических основах и базовых архитектурах
- В последние годы достигнуты прорывы в специфических областях (восстановление МРТ, обработка изображений РСА)
- Традиционные методы в основном основаны на признаках спектра амплитуды
- Методы, осведомленные о фазе, начинают привлекать внимание, например Deep Complex U-Net
По сравнению с существующими работами, данная статья предоставляет более систематическую теоретическую базу и более полную экспериментальную верификацию, особенно в сравнении функций активации и верификации ценности информации о фазе.
- Осуществимость архитектуры: КСНС сохраняют производительность, сравнимую с вещественной CNN, при этом обеспечивая способность обработки комплексной информации
- Ценность информации о фазе: Эксперименты с ГНС явно доказывают дискриминативную ценность информации о фазе при классификации аудио
- Важность функций активации: Фазово-осведомленные функции активации, такие как cardioid, значительно превосходят традиционные варианты
- Потенциал применения: При надлежащем проектировании архитектуры КСНС могут достичь прорывов в задачах обработки аудио
- Вычислительные затраты: Значительное увеличение времени обучения (4-5 раз)
- Ограничения архитектуры: Текущее проектирование все еще недостаточно для прямого использования информации о фазе
- Специфичность для области: В некоторых задачах ценность информации о фазе может быть ограничена
- Сложность реализации: Требуется поддержка специализированных библиотек для комплексных вычислений
- Архитектурные инновации: Разработка специализированных модулей, осведомленных о фазе, и механизмов внимания
- Оптимизация обучения: Разработка более эффективных алгоритмов обучения комплексных сетей
- Расширение приложений: Исследование применения в задачах распознавания речи, локализации источников звука и других областях
- Углубление теории: Дальнейшее понимание выразительной способности комплексного представления и динамики обучения
- Полнота теории: Предоставляет полную математическую базу КСНС от базовых операций до методов обучения
- Полнота экспериментов: Систематическая оценка с различных углов (разные функции активации, конфигурации входа) в разных областях (изображения + аудио)
- Верификация инноваций: Умное использование ГНС для верификации внутренней ценности информации о фазе
- Практическое руководство: Предоставляет конкретные технические рекомендации для практического применения КСНС
- Ограниченное улучшение производительности: В некоторых задачах преимущество КСНС над вещественной CNN не очень очевидно
- Вычислительная эффективность: Значительные вычислительные затраты могут ограничить практическое применение
- Недостаточное исследование архитектур: Главным образом используются стандартные архитектуры CNN, отсутствует специализированное проектирование для комплексных характеристик
- Масштаб наборов данных: Эксперименты проводятся в основном на относительно простых наборах данных
- Научный вклад: Предоставляет важную теоретическую и экспериментальную базу для исследований комплексных нейронных сетей
- Практическая ценность: Вводит новый технологический путь для области обработки аудиосигналов
- Воспроизводимость: Предоставляет полную реализацию кода, облегчая последующие исследования
- Вдохновляющий характер: Указывает направление развития фазово-осведомленного глубокого обучения
- Обработка аудио: Анализ музыки, улучшение речи, классификация акустических сцен
- Обработка сигналов: Обработка радиолокационных сигналов, системы связи, анализ биомедицинских сигналов
- Научные вычисления: Физическое моделирование и численные расчеты, связанные с комплексными данными
- Исследовательские инструменты: Базовая платформа для исследования ценности информации о фазе
Статья цитирует 37 важных работ, охватывающих теорию комплексных нейронных сетей, обработку аудиосигналов, оптимизацию глубокого обучения и другие области, обеспечивая прочную теоретическую базу и техническую поддержку исследования.
Общая оценка: Это систематическая исследовательская работа, которая строит мост между теорией комплексных нейронных сетей и их практическим применением. Хотя улучшение производительности в некоторых аспектах еще не очень значительно, она предоставляет важную базовую работу и направления исследований для развития этой области.