2025-11-18T05:49:12.501691

Phase-Aware Deep Learning with Complex-Valued CNNs for Audio Signal Applications

Agrawal
This study explores the design and application of Complex-Valued Convolutional Neural Networks (CVCNNs) in audio signal processing, with a focus on preserving and utilizing phase information often neglected in real-valued networks. We begin by presenting the foundational theoretical concepts of CVCNNs, including complex convolutions, pooling layers, Wirtinger-based differentiation, and various complex-valued activation functions. These are complemented by critical adaptations of training techniques, including complex batch normalization and weight initialization schemes, to ensure stability in training dynamics. Empirical evaluations are conducted across three stages. First, CVCNNs are benchmarked on standard image datasets, where they demonstrate competitive performance with real-valued CNNs, even under synthetic complex perturbations. Although our focus is audio signal processing, we first evaluate CVCNNs on image datasets to establish baseline performance and validate training stability before applying them to audio tasks. In the second experiment, we focus on audio classification using Mel-Frequency Cepstral Coefficients (MFCCs). CVCNNs trained on real-valued MFCCs slightly outperform real CNNs, while preserving phase in input workflows highlights challenges in exploiting phase without architectural modifications. Finally, a third experiment introduces GNNs to model phase information via edge weighting, where the inclusion of phase yields measurable gains in both binary and multi-class genre classification. These results underscore the expressive capacity of complex-valued architectures and confirm phase as a meaningful and exploitable feature in audio processing applications. While current methods show promise, especially with activations like cardioid, future advances in phase-aware design will be essential to leverage the potential of complex representations in neural networks.
academic

Aprendizaje Profundo Consciente de Fase con CNNs de Valores Complejos para Aplicaciones de Señales de Audio

Información Básica

  • ID del Artículo: 2510.09926
  • Título: Phase-Aware Deep Learning with Complex-Valued CNNs for Audio Signal Applications
  • Autor: Agrawal Naman (National University of Singapore)
  • Clasificación: cs.LG cs.AI cs.SD
  • Fecha de Publicación: 10 de octubre de 2025 (preimpresión arXiv)
  • Enlace del Artículo: https://arxiv.org/abs/2510.09926

Resumen

Este estudio explora el diseño y la aplicación de redes neuronales convolucionales de valores complejos (CVCNNs) en el procesamiento de señales de audio, enfocándose en la retención y utilización de información de fase que es ignorada en redes tradicionales de valores reales. La investigación primero establece los fundamentos teóricos de las CVCNNs, incluyendo convolución de valores complejos, capas de agrupamiento, diferenciación basada en Wirtinger y diversas funciones de activación de valores complejos, junto con esquemas de normalización por lotes de valores complejos e inicialización de pesos. Los experimentos se dividen en tres fases: primero, validar el rendimiento fundamental de las CVCNNs en conjuntos de datos de imágenes estándar; segundo, evaluar en tareas de clasificación de audio utilizando coeficientes cepstrales de frecuencia de Mel (MFCCs); finalmente, introducir redes neuronales gráficas (GNNs) para modelar explícitamente la información de fase a través de pesos de aristas. Los resultados demuestran que las CVCNNs poseen una capacidad expresiva sólida y que la información de fase es efectivamente una característica significativa y utilizable en el procesamiento de audio.

Antecedentes de Investigación y Motivación

Definición del Problema

Las redes neuronales convolucionales tradicionales de valores reales presentan un defecto fundamental en el procesamiento de señales de audio: inherentemente descartan o no utilizan suficientemente la información de fase, que es un componente crítico en muchas tareas de procesamiento de señales.

Análisis de Importancia

  1. Valor de la Información de Fase: Las señales de audio producen salidas de valores complejos cuando se transforman al dominio de frecuencia mediante la transformada de Fourier de corta duración (STFT), donde la magnitud representa la amplitud y la fase contiene información temporal y espacial importante
  2. Demandas de Aplicación: En tareas como mejora de voz, localización de fuentes de sonido y clasificación de audio, la información de fase tiene valor potencial para mejorar el rendimiento
  3. Desarrollo Tecnológico: Las CVCNNs han demostrado ventajas significativas en campos como teledetección, imágenes médicas y sistemas de comunicación

Limitaciones de Métodos Existentes

  • Las CNN tradicionales solo procesan espectros de magnitud, ignorando completamente la información de fase
  • Carecen de técnicas efectivas de entrenamiento de redes de valores complejos y marco teórico
  • Las funciones de activación de valores complejos existentes presentan desafíos en la estabilidad del entrenamiento

Motivación de la Investigación

Mediante la extensión de CNN al dominio de valores complejos, construir arquitecturas de redes neuronales capaces de procesar simultáneamente información de magnitud y fase, proporcionando métodos de representación más expresivos y eficientes para el procesamiento de señales de audio.

Contribuciones Principales

  1. Establecimiento de Marco Teórico: Construcción sistemática de los fundamentos matemáticos de las CVCNNs, incluyendo un sistema teórico completo de convolución de valores complejos, agrupamiento, funciones de activación y normalización por lotes
  2. Optimización de Técnicas de Entrenamiento: Propuesta de estrategias de inicialización de pesos y métodos de normalización por lotes aplicables a redes de valores complejos, asegurando estabilidad del entrenamiento
  3. Mejora de Funciones de Activación: Propuesta de la función de activación smooth zReLU, resolviendo el problema de discontinuidad del zReLU original
  4. Verificación de Información de Fase: Verificación explícita del valor de la información de fase en tareas de clasificación de audio mediante experimentos con GNN
  5. Evaluación Integral: Validación experimental completa en dos dominios (imagen y audio), proporcionando apoyo empírico para la aplicación de CVCNNs

Explicación Detallada del Método

Definición de Tarea

Este artículo investiga principalmente tareas de clasificación de señales de audio, particularmente clasificación de géneros musicales. La entrada es la representación de características MFCC de la señal de audio, y la salida es la etiqueta de clasificación. El desafío central es cómo utilizar efectivamente la información de fase de la señal de audio en la red neuronal.

Arquitectura del Modelo

Operación de Convolución de Valores Complejos

Para la matriz de entrada de valores complejos X=A1+iB1X = A_1 + iB_1 y núcleo de convolución de valores complejos W=A2+iB2W = A_2 + iB_2, la convolución de valores complejos se define como:

WX=(A1A2B1B2)+i(B1A2+A1B2)W * X = (A_1 * A_2 - B_1 * B_2) + i(B_1 * A_2 + A_1 * B_2)

Esto puede expresarse en forma matricial como: WX=(A1B1B1A1)(A2B2B2A2)W * X = \begin{pmatrix} A_1 & -B_1 \\ B_1 & A_1 \end{pmatrix} * \begin{pmatrix} A_2 & -B_2 \\ B_2 & A_2 \end{pmatrix}

Capas de Agrupamiento de Valores Complejos

  • Agrupamiento Máximo: Selección de valor máximo basada en la magnitud del número complejo, con la fase correspondiente recuperada mediante el índice de magnitud máxima
  • Agrupamiento Promedio: Operaciones de promedio realizadas separadamente en partes reales e imaginarias

Funciones de Activación de Valores Complejos

El artículo compara detalladamente cinco funciones de activación de valores complejos:

  1. CReLU: CReLU(z)=ReLU(Re(z))+iReLU(Im(z))\text{CReLU}(z) = \text{ReLU}(\text{Re}(z)) + i\text{ReLU}(\text{Im}(z))
  2. modReLU: modReLU(z)=ReLU(z+b)zz\text{modReLU}(z) = \text{ReLU}(|z| + b) \cdot \frac{z}{|z|}
  3. zReLU: Devuelve el valor original solo cuando tanto la parte real como la imaginaria son no negativas
  4. smooth zReLU: zσ(αRe(z))σ(αIm(z))z \cdot \sigma(\alpha \cdot \text{Re}(z)) \cdot \sigma(\alpha \cdot \text{Im}(z))
  5. cardioid: g(z)=z2(1+cosϕz)g(z) = \frac{z}{2}(1 + \cos \phi_z)

Normalización por Lotes de Valores Complejos

Proceso de estandarización para vector de valores complejos xx: x~=V1/2(xE(x))\tilde{x} = V^{-1/2}(x - E(x))

Donde la matriz de covarianza: V=(Cov(Re(x),Re(x))Cov(Re(x),Im(x))Cov(Im(x),Re(x))Cov(Im(x),Im(x)))+λIV = \begin{pmatrix} \text{Cov}(\text{Re}(x), \text{Re}(x)) & \text{Cov}(\text{Re}(x), \text{Im}(x)) \\ \text{Cov}(\text{Im}(x), \text{Re}(x)) & \text{Cov}(\text{Im}(x), \text{Im}(x)) \end{pmatrix} + \lambda I

Puntos de Innovación Técnica

  1. Aplicación del Cálculo de Wirtinger: Resolución del problema de cálculo de gradientes para funciones de valores complejos no analíticas
  2. Extracción de Características Consciente de Fase: Diseño de dos flujos de extracción de MFCC que preservan la información de fase
  3. Integración de Redes Neuronales Gráficas: Uso innovador de pesos de aristas de GNN para modelar explícitamente la información de fase
  4. Optimización de Funciones de Activación: Propuesta de smooth zReLU para resolver problemas de inestabilidad del entrenamiento

Configuración Experimental

Conjuntos de Datos

  1. Conjuntos de Datos de Imágenes: MNIST, Fashion-MNIST, Kuzushiji-MNIST
  2. Conjuntos de Datos de Audio: Conjunto de datos GTZAN de géneros musicales (1000 fragmentos de audio de 30 segundos, 10 géneros)

Métricas de Evaluación

  • Precisión de entrenamiento y prueba
  • Comparación de tiempo de entrenamiento
  • Análisis de convergencia

Métodos de Comparación

  • CNN estándar de valores reales (línea base)
  • CVCNNs con diferentes configuraciones (entrada de valores reales, entrada de valores complejos, etc.)
  • Variantes de CVCNN con diferentes funciones de activación

Detalles de Implementación

  • Uso de bibliotecas PyTorch y complexPyTorch
  • Entrenamiento en CPU con chip Apple M2 Pro
  • Recorte de gradientes para prevenir inestabilidad del entrenamiento
  • Ciclos de entrenamiento de 5-10 épocas

Resultados Experimentales

Resultados Principales

Experimentos de Clasificación de Imágenes

En MNIST, KMNIST y Fashion-MNIST, las CVCNNs alcanzan rendimiento comparable al de CNN de valores reales bajo diversas configuraciones de entrada:

  • MNIST: precisión de prueba aproximadamente 99%
  • KMNIST: precisión de prueba aproximadamente 95%
  • Fashion-MNIST: precisión de prueba aproximadamente 90%

Experimentos de Clasificación de Audio

En tareas de clasificación binaria de géneros musicales:

  • Línea base CNN de valores reales: 92.5% de precisión de prueba
  • CVCNN (MFCC de valores reales): 95.34% de precisión de prueba (activación cardioid)
  • CVCNN (MFCC de valores complejos): rendimiento reducido, mostrando limitaciones de la arquitectura actual

Comparación de Funciones de Activación

La función de activación cardioid mostró el mejor rendimiento en todos los experimentos:

  • Más estable bajo perturbaciones de entrada de valores complejos
  • Alcanzó la precisión más alta en tareas de audio
  • Proceso de entrenamiento más estable

Experimentos de Ablación

Impacto de Diferentes Funciones de Activación

Los resultados experimentales muestran:

  • cardioid: Excelente rendimiento en todas las configuraciones, particularmente bajo perturbaciones de fase
  • modReLU: Inestable en configuraciones de fase fija y parte imaginaria, con caída significativa de precisión
  • smooth zReLU: Buen rendimiento sin transformación y en configuraciones con ruido
  • CReLU: Opción de línea base estable

Verificación del Valor de la Información de Fase

Los experimentos con GNN demostraron explícitamente el valor de la información de fase:

  • GNN sin información de fase (línea base)
  • GNN con pesos de aristas basados en diferencia de fase: significativamente superior a la línea base en tareas binarias y de diez clases

Hallazgos Experimentales

  1. Eficiencia de Entrenamiento: El tiempo de entrenamiento de CVCNNs es aproximadamente 4-5 veces mayor que el de CNN de valores reales
  2. Estabilidad: La selección apropiada de función de activación es crítica para la estabilidad del entrenamiento
  3. Utilización de Fase: La arquitectura actual tiene limitaciones en la utilización directa de información de fase
  4. Capacidad de Generalización: Las CVCNNs muestran buena robustez bajo perturbaciones de valores complejos

Trabajo Relacionado

Desarrollo de Redes Neuronales de Valores Complejos

  • El trabajo temprano se enfocó principalmente en fundamentos teóricos y arquitecturas básicas
  • Avances recientes en campos específicos (como reconstrucción de MRI, procesamiento de imágenes SAR)

Aprendizaje Profundo en Procesamiento de Señales de Audio

  • Los métodos tradicionales se basan principalmente en características de espectro de magnitud
  • Métodos conscientes de fase comienzan a recibir atención, como Deep Complex U-Net

Ventajas de Este Artículo

Comparado con trabajos existentes, este artículo proporciona un marco teórico más sistemático y validación experimental más completa, particularmente en comparación de funciones de activación y verificación del valor de información de fase.

Conclusiones y Discusión

Conclusiones Principales

  1. Viabilidad de la Arquitectura: Las CVCNNs mantienen rendimiento comparable al de CNN de valores reales mientras proporcionan capacidad para procesar información de valores complejos
  2. Valor de la Información de Fase: Los experimentos con GNN demostraron explícitamente el valor discriminativo de la información de fase en clasificación de audio
  3. Importancia de la Función de Activación: Funciones de activación conscientes de fase como cardioid superan significativamente opciones tradicionales
  4. Potencial de Aplicación: Con diseño de arquitectura apropiado, las CVCNNs prometen logros significativos en tareas de procesamiento de audio

Limitaciones

  1. Costo Computacional: Aumento significativo en tiempo de entrenamiento (4-5 veces)
  2. Limitaciones de Arquitectura: El diseño actual tiene insuficiencias en la utilización directa de información de fase
  3. Especificidad de Dominio: El valor de la información de fase puede ser limitado en ciertas tareas
  4. Complejidad de Implementación: Requiere bibliotecas especializadas de operaciones de valores complejos

Direcciones Futuras

  1. Innovación de Arquitectura: Diseño de módulos conscientes de fase y mecanismos de atención especializados
  2. Optimización de Entrenamiento: Desarrollo de algoritmos de entrenamiento más eficientes para redes de valores complejos
  3. Extensión de Aplicaciones: Exploración de aplicaciones en reconocimiento de voz, localización de fuentes de sonido y otras tareas
  4. Profundización Teórica: Comprensión adicional de la capacidad expresiva de representaciones de valores complejos y dinámicas de aprendizaje

Evaluación Profunda

Fortalezas

  1. Completitud Teórica: Proporciona marco matemático completo para CVCNNs, desde operaciones fundamentales hasta técnicas de entrenamiento
  2. Completitud Experimental: Evaluación sistemática entre dominios (imagen + audio), múltiples ángulos (diferentes funciones de activación, configuraciones de entrada)
  3. Verificación de Innovación: Verificación ingeniosa del valor intrínseco de la información de fase mediante GNN
  4. Orientación Práctica: Proporciona orientación técnica específica para aplicación práctica de CVCNNs

Insuficiencias

  1. Mejora de Rendimiento Limitada: En ciertas tareas, la ventaja de CVCNNs sobre CNN de valores reales no es evidente
  2. Eficiencia Computacional: El costo computacional significativo puede limitar aplicaciones prácticas
  3. Exploración de Arquitectura Insuficiente: Principalmente utiliza arquitectura CNN estándar, carece de diseño especializado para características de valores complejos
  4. Escala de Conjunto de Datos: Los experimentos se realizan principalmente en conjuntos de datos relativamente simples

Impacto

  1. Contribución Académica: Proporciona base teórica y experimental importante para investigación de redes neuronales de valores complejos
  2. Valor Práctico: Introduce nueva ruta técnica para el campo del procesamiento de señales de audio
  3. Reproducibilidad: Proporciona implementación de código completa, facilitando investigación posterior
  4. Inspiración: Señala dirección para desarrollo de aprendizaje profundo consciente de fase

Escenarios Aplicables

  1. Procesamiento de Audio: Análisis musical, mejora de voz, clasificación de escenas acústicas
  2. Procesamiento de Señales: Procesamiento de señales de radar, sistemas de comunicación, análisis de señales biomédicas
  3. Computación Científica: Simulación física y cálculo numérico que involucra datos de valores complejos
  4. Herramienta de Investigación: Plataforma fundamental para explorar el valor de información de fase

Referencias

El artículo cita 37 referencias importantes, cubriendo teoría de redes neuronales de valores complejos, procesamiento de señales de audio, optimización de aprendizaje profundo y otros aspectos múltiples, proporcionando base teórica sólida y apoyo técnico para la investigación.


Evaluación General: Este es un artículo de investigación con gran sistematicidad, que construye un puente entre la construcción teórica de redes neuronales de valores complejos y aplicaciones prácticas. Aunque la mejora de rendimiento en ciertos aspectos aún no es suficientemente significativa, proporciona trabajo fundamental importante y dirección de investigación para el desarrollo del campo.