This study explores the design and application of Complex-Valued Convolutional Neural Networks (CVCNNs) in audio signal processing, with a focus on preserving and utilizing phase information often neglected in real-valued networks. We begin by presenting the foundational theoretical concepts of CVCNNs, including complex convolutions, pooling layers, Wirtinger-based differentiation, and various complex-valued activation functions. These are complemented by critical adaptations of training techniques, including complex batch normalization and weight initialization schemes, to ensure stability in training dynamics. Empirical evaluations are conducted across three stages. First, CVCNNs are benchmarked on standard image datasets, where they demonstrate competitive performance with real-valued CNNs, even under synthetic complex perturbations. Although our focus is audio signal processing, we first evaluate CVCNNs on image datasets to establish baseline performance and validate training stability before applying them to audio tasks. In the second experiment, we focus on audio classification using Mel-Frequency Cepstral Coefficients (MFCCs). CVCNNs trained on real-valued MFCCs slightly outperform real CNNs, while preserving phase in input workflows highlights challenges in exploiting phase without architectural modifications. Finally, a third experiment introduces GNNs to model phase information via edge weighting, where the inclusion of phase yields measurable gains in both binary and multi-class genre classification. These results underscore the expressive capacity of complex-valued architectures and confirm phase as a meaningful and exploitable feature in audio processing applications. While current methods show promise, especially with activations like cardioid, future advances in phase-aware design will be essential to leverage the potential of complex representations in neural networks.
- ID del Artículo: 2510.09926
- Título: Phase-Aware Deep Learning with Complex-Valued CNNs for Audio Signal Applications
- Autor: Agrawal Naman (National University of Singapore)
- Clasificación: cs.LG cs.AI cs.SD
- Fecha de Publicación: 10 de octubre de 2025 (preimpresión arXiv)
- Enlace del Artículo: https://arxiv.org/abs/2510.09926
Este estudio explora el diseño y la aplicación de redes neuronales convolucionales de valores complejos (CVCNNs) en el procesamiento de señales de audio, enfocándose en la retención y utilización de información de fase que es ignorada en redes tradicionales de valores reales. La investigación primero establece los fundamentos teóricos de las CVCNNs, incluyendo convolución de valores complejos, capas de agrupamiento, diferenciación basada en Wirtinger y diversas funciones de activación de valores complejos, junto con esquemas de normalización por lotes de valores complejos e inicialización de pesos. Los experimentos se dividen en tres fases: primero, validar el rendimiento fundamental de las CVCNNs en conjuntos de datos de imágenes estándar; segundo, evaluar en tareas de clasificación de audio utilizando coeficientes cepstrales de frecuencia de Mel (MFCCs); finalmente, introducir redes neuronales gráficas (GNNs) para modelar explícitamente la información de fase a través de pesos de aristas. Los resultados demuestran que las CVCNNs poseen una capacidad expresiva sólida y que la información de fase es efectivamente una característica significativa y utilizable en el procesamiento de audio.
Las redes neuronales convolucionales tradicionales de valores reales presentan un defecto fundamental en el procesamiento de señales de audio: inherentemente descartan o no utilizan suficientemente la información de fase, que es un componente crítico en muchas tareas de procesamiento de señales.
- Valor de la Información de Fase: Las señales de audio producen salidas de valores complejos cuando se transforman al dominio de frecuencia mediante la transformada de Fourier de corta duración (STFT), donde la magnitud representa la amplitud y la fase contiene información temporal y espacial importante
- Demandas de Aplicación: En tareas como mejora de voz, localización de fuentes de sonido y clasificación de audio, la información de fase tiene valor potencial para mejorar el rendimiento
- Desarrollo Tecnológico: Las CVCNNs han demostrado ventajas significativas en campos como teledetección, imágenes médicas y sistemas de comunicación
- Las CNN tradicionales solo procesan espectros de magnitud, ignorando completamente la información de fase
- Carecen de técnicas efectivas de entrenamiento de redes de valores complejos y marco teórico
- Las funciones de activación de valores complejos existentes presentan desafíos en la estabilidad del entrenamiento
Mediante la extensión de CNN al dominio de valores complejos, construir arquitecturas de redes neuronales capaces de procesar simultáneamente información de magnitud y fase, proporcionando métodos de representación más expresivos y eficientes para el procesamiento de señales de audio.
- Establecimiento de Marco Teórico: Construcción sistemática de los fundamentos matemáticos de las CVCNNs, incluyendo un sistema teórico completo de convolución de valores complejos, agrupamiento, funciones de activación y normalización por lotes
- Optimización de Técnicas de Entrenamiento: Propuesta de estrategias de inicialización de pesos y métodos de normalización por lotes aplicables a redes de valores complejos, asegurando estabilidad del entrenamiento
- Mejora de Funciones de Activación: Propuesta de la función de activación smooth zReLU, resolviendo el problema de discontinuidad del zReLU original
- Verificación de Información de Fase: Verificación explícita del valor de la información de fase en tareas de clasificación de audio mediante experimentos con GNN
- Evaluación Integral: Validación experimental completa en dos dominios (imagen y audio), proporcionando apoyo empírico para la aplicación de CVCNNs
Este artículo investiga principalmente tareas de clasificación de señales de audio, particularmente clasificación de géneros musicales. La entrada es la representación de características MFCC de la señal de audio, y la salida es la etiqueta de clasificación. El desafío central es cómo utilizar efectivamente la información de fase de la señal de audio en la red neuronal.
Para la matriz de entrada de valores complejos X=A1+iB1 y núcleo de convolución de valores complejos W=A2+iB2, la convolución de valores complejos se define como:
W∗X=(A1∗A2−B1∗B2)+i(B1∗A2+A1∗B2)
Esto puede expresarse en forma matricial como:
W∗X=(A1B1−B1A1)∗(A2B2−B2A2)
- Agrupamiento Máximo: Selección de valor máximo basada en la magnitud del número complejo, con la fase correspondiente recuperada mediante el índice de magnitud máxima
- Agrupamiento Promedio: Operaciones de promedio realizadas separadamente en partes reales e imaginarias
El artículo compara detalladamente cinco funciones de activación de valores complejos:
- CReLU: CReLU(z)=ReLU(Re(z))+iReLU(Im(z))
- modReLU: modReLU(z)=ReLU(∣z∣+b)⋅∣z∣z
- zReLU: Devuelve el valor original solo cuando tanto la parte real como la imaginaria son no negativas
- smooth zReLU: z⋅σ(α⋅Re(z))⋅σ(α⋅Im(z))
- cardioid: g(z)=2z(1+cosϕz)
Proceso de estandarización para vector de valores complejos x:
x~=V−1/2(x−E(x))
Donde la matriz de covarianza:
V=(Cov(Re(x),Re(x))Cov(Im(x),Re(x))Cov(Re(x),Im(x))Cov(Im(x),Im(x)))+λI
- Aplicación del Cálculo de Wirtinger: Resolución del problema de cálculo de gradientes para funciones de valores complejos no analíticas
- Extracción de Características Consciente de Fase: Diseño de dos flujos de extracción de MFCC que preservan la información de fase
- Integración de Redes Neuronales Gráficas: Uso innovador de pesos de aristas de GNN para modelar explícitamente la información de fase
- Optimización de Funciones de Activación: Propuesta de smooth zReLU para resolver problemas de inestabilidad del entrenamiento
- Conjuntos de Datos de Imágenes: MNIST, Fashion-MNIST, Kuzushiji-MNIST
- Conjuntos de Datos de Audio: Conjunto de datos GTZAN de géneros musicales (1000 fragmentos de audio de 30 segundos, 10 géneros)
- Precisión de entrenamiento y prueba
- Comparación de tiempo de entrenamiento
- Análisis de convergencia
- CNN estándar de valores reales (línea base)
- CVCNNs con diferentes configuraciones (entrada de valores reales, entrada de valores complejos, etc.)
- Variantes de CVCNN con diferentes funciones de activación
- Uso de bibliotecas PyTorch y complexPyTorch
- Entrenamiento en CPU con chip Apple M2 Pro
- Recorte de gradientes para prevenir inestabilidad del entrenamiento
- Ciclos de entrenamiento de 5-10 épocas
En MNIST, KMNIST y Fashion-MNIST, las CVCNNs alcanzan rendimiento comparable al de CNN de valores reales bajo diversas configuraciones de entrada:
- MNIST: precisión de prueba aproximadamente 99%
- KMNIST: precisión de prueba aproximadamente 95%
- Fashion-MNIST: precisión de prueba aproximadamente 90%
En tareas de clasificación binaria de géneros musicales:
- Línea base CNN de valores reales: 92.5% de precisión de prueba
- CVCNN (MFCC de valores reales): 95.34% de precisión de prueba (activación cardioid)
- CVCNN (MFCC de valores complejos): rendimiento reducido, mostrando limitaciones de la arquitectura actual
La función de activación cardioid mostró el mejor rendimiento en todos los experimentos:
- Más estable bajo perturbaciones de entrada de valores complejos
- Alcanzó la precisión más alta en tareas de audio
- Proceso de entrenamiento más estable
Los resultados experimentales muestran:
- cardioid: Excelente rendimiento en todas las configuraciones, particularmente bajo perturbaciones de fase
- modReLU: Inestable en configuraciones de fase fija y parte imaginaria, con caída significativa de precisión
- smooth zReLU: Buen rendimiento sin transformación y en configuraciones con ruido
- CReLU: Opción de línea base estable
Los experimentos con GNN demostraron explícitamente el valor de la información de fase:
- GNN sin información de fase (línea base)
- GNN con pesos de aristas basados en diferencia de fase: significativamente superior a la línea base en tareas binarias y de diez clases
- Eficiencia de Entrenamiento: El tiempo de entrenamiento de CVCNNs es aproximadamente 4-5 veces mayor que el de CNN de valores reales
- Estabilidad: La selección apropiada de función de activación es crítica para la estabilidad del entrenamiento
- Utilización de Fase: La arquitectura actual tiene limitaciones en la utilización directa de información de fase
- Capacidad de Generalización: Las CVCNNs muestran buena robustez bajo perturbaciones de valores complejos
- El trabajo temprano se enfocó principalmente en fundamentos teóricos y arquitecturas básicas
- Avances recientes en campos específicos (como reconstrucción de MRI, procesamiento de imágenes SAR)
- Los métodos tradicionales se basan principalmente en características de espectro de magnitud
- Métodos conscientes de fase comienzan a recibir atención, como Deep Complex U-Net
Comparado con trabajos existentes, este artículo proporciona un marco teórico más sistemático y validación experimental más completa, particularmente en comparación de funciones de activación y verificación del valor de información de fase.
- Viabilidad de la Arquitectura: Las CVCNNs mantienen rendimiento comparable al de CNN de valores reales mientras proporcionan capacidad para procesar información de valores complejos
- Valor de la Información de Fase: Los experimentos con GNN demostraron explícitamente el valor discriminativo de la información de fase en clasificación de audio
- Importancia de la Función de Activación: Funciones de activación conscientes de fase como cardioid superan significativamente opciones tradicionales
- Potencial de Aplicación: Con diseño de arquitectura apropiado, las CVCNNs prometen logros significativos en tareas de procesamiento de audio
- Costo Computacional: Aumento significativo en tiempo de entrenamiento (4-5 veces)
- Limitaciones de Arquitectura: El diseño actual tiene insuficiencias en la utilización directa de información de fase
- Especificidad de Dominio: El valor de la información de fase puede ser limitado en ciertas tareas
- Complejidad de Implementación: Requiere bibliotecas especializadas de operaciones de valores complejos
- Innovación de Arquitectura: Diseño de módulos conscientes de fase y mecanismos de atención especializados
- Optimización de Entrenamiento: Desarrollo de algoritmos de entrenamiento más eficientes para redes de valores complejos
- Extensión de Aplicaciones: Exploración de aplicaciones en reconocimiento de voz, localización de fuentes de sonido y otras tareas
- Profundización Teórica: Comprensión adicional de la capacidad expresiva de representaciones de valores complejos y dinámicas de aprendizaje
- Completitud Teórica: Proporciona marco matemático completo para CVCNNs, desde operaciones fundamentales hasta técnicas de entrenamiento
- Completitud Experimental: Evaluación sistemática entre dominios (imagen + audio), múltiples ángulos (diferentes funciones de activación, configuraciones de entrada)
- Verificación de Innovación: Verificación ingeniosa del valor intrínseco de la información de fase mediante GNN
- Orientación Práctica: Proporciona orientación técnica específica para aplicación práctica de CVCNNs
- Mejora de Rendimiento Limitada: En ciertas tareas, la ventaja de CVCNNs sobre CNN de valores reales no es evidente
- Eficiencia Computacional: El costo computacional significativo puede limitar aplicaciones prácticas
- Exploración de Arquitectura Insuficiente: Principalmente utiliza arquitectura CNN estándar, carece de diseño especializado para características de valores complejos
- Escala de Conjunto de Datos: Los experimentos se realizan principalmente en conjuntos de datos relativamente simples
- Contribución Académica: Proporciona base teórica y experimental importante para investigación de redes neuronales de valores complejos
- Valor Práctico: Introduce nueva ruta técnica para el campo del procesamiento de señales de audio
- Reproducibilidad: Proporciona implementación de código completa, facilitando investigación posterior
- Inspiración: Señala dirección para desarrollo de aprendizaje profundo consciente de fase
- Procesamiento de Audio: Análisis musical, mejora de voz, clasificación de escenas acústicas
- Procesamiento de Señales: Procesamiento de señales de radar, sistemas de comunicación, análisis de señales biomédicas
- Computación Científica: Simulación física y cálculo numérico que involucra datos de valores complejos
- Herramienta de Investigación: Plataforma fundamental para explorar el valor de información de fase
El artículo cita 37 referencias importantes, cubriendo teoría de redes neuronales de valores complejos, procesamiento de señales de audio, optimización de aprendizaje profundo y otros aspectos múltiples, proporcionando base teórica sólida y apoyo técnico para la investigación.
Evaluación General: Este es un artículo de investigación con gran sistematicidad, que construye un puente entre la construcción teórica de redes neuronales de valores complejos y aplicaciones prácticas. Aunque la mejora de rendimiento en ciertos aspectos aún no es suficientemente significativa, proporciona trabajo fundamental importante y dirección de investigación para el desarrollo del campo.