This study explores the design and application of Complex-Valued Convolutional Neural Networks (CVCNNs) in audio signal processing, with a focus on preserving and utilizing phase information often neglected in real-valued networks. We begin by presenting the foundational theoretical concepts of CVCNNs, including complex convolutions, pooling layers, Wirtinger-based differentiation, and various complex-valued activation functions. These are complemented by critical adaptations of training techniques, including complex batch normalization and weight initialization schemes, to ensure stability in training dynamics. Empirical evaluations are conducted across three stages. First, CVCNNs are benchmarked on standard image datasets, where they demonstrate competitive performance with real-valued CNNs, even under synthetic complex perturbations. Although our focus is audio signal processing, we first evaluate CVCNNs on image datasets to establish baseline performance and validate training stability before applying them to audio tasks. In the second experiment, we focus on audio classification using Mel-Frequency Cepstral Coefficients (MFCCs). CVCNNs trained on real-valued MFCCs slightly outperform real CNNs, while preserving phase in input workflows highlights challenges in exploiting phase without architectural modifications. Finally, a third experiment introduces GNNs to model phase information via edge weighting, where the inclusion of phase yields measurable gains in both binary and multi-class genre classification. These results underscore the expressive capacity of complex-valued architectures and confirm phase as a meaningful and exploitable feature in audio processing applications. While current methods show promise, especially with activations like cardioid, future advances in phase-aware design will be essential to leverage the potential of complex representations in neural networks.
- ID Articolo: 2510.09926
- Titolo: Phase-Aware Deep Learning with Complex-Valued CNNs for Audio Signal Applications
- Autore: Agrawal Naman (National University of Singapore)
- Classificazione: cs.LG cs.AI cs.SD
- Data di Pubblicazione: 10 ottobre 2025 (preprint arXiv)
- Link Articolo: https://arxiv.org/abs/2510.09926
Questo studio esplora la progettazione e l'applicazione di reti neurali convoluzionali a valori complessi (CVCNNs) nell'elaborazione dei segnali audio, con particolare attenzione alla conservazione e all'utilizzo delle informazioni di fase trascurate dalle reti tradizionali a valori reali. La ricerca stabilisce innanzitutto le fondamenta teoriche delle CVCNNs, includendo convoluzione a valori complessi, strati di pooling, metodi di differenziazione basati su Wirtinger e varie funzioni di attivazione a valori complessi, accompagnati da tecniche di addestramento critiche come normalizzazione batch a valori complessi e schemi di inizializzazione dei pesi. Gli esperimenti si articolano in tre fasi: innanzitutto la verifica delle prestazioni fondamentali delle CVCNNs su dataset di immagini standard; successivamente la valutazione su compiti di classificazione audio utilizzando coefficienti cepstrali di frequenza mel (MFCCs); infine l'introduzione di reti neurali grafiche (GNNs) per modellare esplicitamente le informazioni di fase attraverso i pesi degli archi. I risultati dimostrano che le CVCNNs possiedono una forte capacità espressiva e che le informazioni di fase rappresentano effettivamente caratteristiche significative e utilizzabili nell'elaborazione audio.
Le reti neurali convoluzionali tradizionali a valori reali presentano un difetto fondamentale nell'elaborazione dei segnali audio: scartano intrinsecamente o non sfruttano adeguatamente le informazioni di fase, che rappresentano una componente critica in molti compiti di elaborazione dei segnali.
- Valore delle Informazioni di Fase: I segnali audio, quando convertiti nel dominio della frequenza attraverso la trasformata di Fourier a breve termine (STFT), producono output a valori complessi, dove l'ampiezza rappresenta l'intensità e la fase contiene informazioni temporali e spaziali essenziali
- Esigenze Applicative: In compiti come l'enhancement vocale, la localizzazione delle sorgenti sonore e la classificazione audio, le informazioni di fase hanno un potenziale significativo nel migliorare le prestazioni
- Sviluppo Tecnologico: Le CVCNNs hanno già dimostrato vantaggi significativi in campi quali il telerilevamento, l'imaging medico e i sistemi di comunicazione
- Le CNN tradizionali elaborano solo lo spettro di ampiezza, ignorando completamente le informazioni di fase
- Mancanza di tecniche efficaci di addestramento di reti a valori complessi e di un quadro teorico coerente
- Le funzioni di attivazione a valori complessi esistenti presentano sfide nella stabilità dell'addestramento
Attraverso l'estensione delle CNN al dominio complesso, costruire architetture di reti neurali in grado di elaborare simultaneamente informazioni di ampiezza e fase, fornendo metodi di rappresentazione più espressivi ed efficienti per l'elaborazione dei segnali audio.
- Costruzione del Quadro Teorico: Stabilimento sistematico delle fondamenta matematiche delle CVCNNs, includendo un sistema teorico completo di convoluzione a valori complessi, pooling, funzioni di attivazione e normalizzazione batch
- Ottimizzazione delle Tecniche di Addestramento: Proposizione di strategie di inizializzazione dei pesi e metodi di normalizzazione batch applicabili alle reti a valori complessi, garantendo la stabilità dell'addestramento
- Miglioramento delle Funzioni di Attivazione: Proposizione della funzione di attivazione smooth zReLU, risolvendo il problema della discontinuità dello zReLU originale
- Verifica delle Informazioni di Fase: Verifica esplicita del valore delle informazioni di fase nei compiti di classificazione audio attraverso esperimenti con GNN
- Valutazione Complessiva: Validazione sperimentale completa in due domini (immagini e audio), fornendo supporto empirico per l'applicazione delle CVCNNs
Questo articolo si concentra principalmente sul compito di classificazione dei segnali audio, in particolare la classificazione dei generi musicali. L'input è la rappresentazione delle caratteristiche MFCC del segnale audio, l'output è l'etichetta di classificazione. La sfida centrale è come utilizzare efficacemente le informazioni di fase del segnale audio all'interno della rete neurale.
Per una matrice di input a valori complessi X=A1+iB1 e un kernel di convoluzione a valori complessi W=A2+iB2, la convoluzione a valori complessi è definita come:
W∗X=(A1∗A2−B1∗B2)+i(B1∗A2+A1∗B2)
Questo può essere espresso in forma matriciale come:
W∗X=(A1B1−B1A1)∗(A2B2−B2A2)
- Max Pooling: Selezione del valore massimo basata sull'ampiezza del numero complesso, con la fase corrispondente recuperata attraverso l'indice dell'ampiezza massima
- Average Pooling: Operazioni di media applicate separatamente alla parte reale e immaginaria
L'articolo confronta dettagliatamente cinque funzioni di attivazione a valori complessi:
- CReLU: CReLU(z)=ReLU(Re(z))+iReLU(Im(z))
- modReLU: modReLU(z)=ReLU(∣z∣+b)⋅∣z∣z
- zReLU: Restituisce il valore originale solo quando sia la parte reale che quella immaginaria sono non negative
- smooth zReLU: z⋅σ(α⋅Re(z))⋅σ(α⋅Im(z))
- cardioid: g(z)=2z(1+cosϕz)
Processo di standardizzazione per un vettore a valori complessi x:
x~=V−1/2(x−E(x))
dove la matrice di covarianza è:
V=(Cov(Re(x),Re(x))Cov(Im(x),Re(x))Cov(Re(x),Im(x))Cov(Im(x),Im(x)))+λI
- Applicazione del Calcolo di Wirtinger: Risoluzione del problema del calcolo del gradiente per funzioni a valori complessi non analitiche
- Estrazione di Caratteristiche Consapevoli della Fase: Progettazione di due procedure di estrazione MFCC che conservano le informazioni di fase
- Integrazione di Reti Neurali Grafiche: Utilizzo innovativo dei pesi degli archi delle GNN per modellare esplicitamente le informazioni di fase
- Ottimizzazione delle Funzioni di Attivazione: Proposizione di smooth zReLU per risolvere i problemi di instabilità dell'addestramento
- Dataset di Immagini: MNIST, Fashion-MNIST, Kuzushiji-MNIST
- Dataset Audio: Dataset GTZAN di generi musicali (1000 frammenti audio di 30 secondi, 10 generi)
- Accuratezza di addestramento e test
- Confronto dei tempi di addestramento
- Analisi della convergenza
- CNN a valori reali standard (baseline)
- CVCNN con diverse configurazioni (input a valori reali, input a valori complessi, ecc.)
- Varianti di CVCNN con diverse funzioni di attivazione
- Utilizzo di librerie PyTorch e complexPyTorch
- Addestramento su CPU con chip Apple M2 Pro
- Gradient clipping per prevenire instabilità dell'addestramento
- Cicli di addestramento di 5-10 epoch
Su MNIST, KMNIST e Fashion-MNIST, le CVCNNs raggiungono prestazioni comparabili alle CNN a valori reali in varie configurazioni di input:
- MNIST: accuratezza di test circa 99%
- KMNIST: accuratezza di test circa 95%
- Fashion-MNIST: accuratezza di test circa 90%
Su compiti di classificazione binaria di generi musicali:
- Baseline CNN a valori reali: 92,5% di accuratezza di test
- CVCNN (MFCC a valori reali): 95,34% di accuratezza di test (attivazione cardioid)
- CVCNN (MFCC a valori complessi): prestazioni ridotte, evidenziando le limitazioni dell'architettura attuale
La funzione di attivazione cardioid ha mostrato le migliori prestazioni in tutti gli esperimenti:
- Più stabile sotto perturbazioni di input a valori complessi
- Raggiunge l'accuratezza più alta nei compiti audio
- Processo di addestramento più stabile
I risultati sperimentali mostrano:
- cardioid: prestazioni eccellenti in varie configurazioni, particolarmente sotto perturbazioni di fase
- modReLU: instabile con impostazioni di fase fissa e parte immaginaria, con significativa riduzione dell'accuratezza
- smooth zReLU: buone prestazioni senza trasformazioni e con impostazioni di rumore
- CReLU: scelta stabile come baseline
Gli esperimenti con GNN hanno chiaramente dimostrato il valore delle informazioni di fase:
- GNN senza informazioni di fase (baseline)
- GNN con pesi degli archi basati su differenze di fase: significativamente superiore al baseline sia nei compiti di classificazione binaria che decenaria
- Efficienza di Addestramento: Il tempo di addestramento delle CVCNNs è circa 4-5 volte superiore a quello delle CNN a valori reali
- Stabilità: La scelta appropriata della funzione di attivazione è critica per la stabilità dell'addestramento
- Utilizzo della Fase: L'architettura attuale presenta ancora limitazioni nell'utilizzo diretto delle informazioni di fase
- Capacità di Generalizzazione: Le CVCNNs mostrano buona robustezza sotto perturbazioni a valori complessi
- I lavori iniziali si sono concentrati principalmente sulle fondamenta teoriche e sulle architetture di base
- Negli ultimi anni sono stati ottenuti progressi in campi specifici (come la ricostruzione MRI e l'elaborazione di immagini SAR)
- I metodi tradizionali si basano principalmente su caratteristiche dello spettro di ampiezza
- I metodi consapevoli della fase stanno iniziando a ricevere attenzione, come Deep Complex U-Net
Rispetto ai lavori esistenti, questo articolo fornisce un quadro teorico più sistematico e una validazione sperimentale più completa, in particolare nel confronto delle funzioni di attivazione e nella verifica del valore delle informazioni di fase.
- Fattibilità dell'Architettura: Le CVCNNs mantengono prestazioni comparabili alle CNN a valori reali fornendo al contempo la capacità di elaborare informazioni a valori complessi
- Valore delle Informazioni di Fase: Gli esperimenti con GNN hanno chiaramente dimostrato il valore discriminativo delle informazioni di fase nella classificazione audio
- Importanza delle Funzioni di Attivazione: Funzioni di attivazione consapevoli della fase come cardioid superano significativamente le scelte tradizionali
- Potenziale Applicativo: Con una progettazione architettonica appropriata, le CVCNNs promettono di ottenere progressi nei compiti di elaborazione audio
- Sovraccarico Computazionale: Aumento significativo del tempo di addestramento (4-5 volte)
- Limitazioni Architetturali: La progettazione attuale presenta ancora insufficienze nell'utilizzo diretto delle informazioni di fase
- Specificità del Dominio: In alcuni compiti il valore delle informazioni di fase potrebbe essere limitato
- Complessità di Implementazione: Richiede il supporto di librerie specializzate per operazioni a valori complessi
- Innovazione Architettonica: Progettazione di moduli specializzati consapevoli della fase e meccanismi di attenzione
- Ottimizzazione dell'Addestramento: Sviluppo di algoritmi di addestramento più efficienti per reti a valori complessi
- Estensione Applicativa: Esplorazione di applicazioni in riconoscimento vocale, localizzazione di sorgenti sonore e altri compiti
- Approfondimento Teorico: Ulteriore comprensione della capacità espressiva della rappresentazione a valori complessi e della dinamica di apprendimento
- Completezza Teorica: Fornisce un quadro matematico completo delle CVCNNs, dalle operazioni fondamentali alle tecniche di addestramento
- Completezza Sperimentale: Valutazione sistematica e multidimensionale (immagini + audio, diverse funzioni di attivazione, diverse configurazioni di input)
- Verifica dell'Innovazione: Verifica ingegnosa del valore intrinseco delle informazioni di fase attraverso esperimenti con GNN
- Guida Pratica: Fornisce indicazioni tecniche concrete per l'applicazione pratica delle CVCNNs
- Miglioramento delle Prestazioni Limitato: In alcuni compiti i vantaggi delle CVCNNs rispetto alle CNN a valori reali non sono evidenti
- Efficienza Computazionale: Il significativo sovraccarico computazionale potrebbe limitare le applicazioni pratiche
- Esplorazione Architettonica Insufficiente: Utilizzo principalmente di architetture CNN standard, mancanza di progettazioni specializzate per caratteristiche a valori complessi
- Scala dei Dataset: Gli esperimenti si concentrano principalmente su dataset relativamente semplici
- Contributo Accademico: Fornisce importanti fondamenta teoriche e sperimentali per la ricerca sulle reti neurali a valori complessi
- Valore Pratico: Introduce nuovi percorsi tecnologici per il campo dell'elaborazione dei segnali audio
- Riproducibilità: Fornisce implementazione di codice completa, facilitando la ricerca successiva
- Ispirazione: Indica direzioni per lo sviluppo dell'apprendimento profondo consapevole della fase
- Elaborazione Audio: Analisi musicale, enhancement vocale, classificazione di scene acustiche
- Elaborazione dei Segnali: Elaborazione di segnali radar, sistemi di comunicazione, analisi di segnali biomedici
- Calcolo Scientifico: Simulazioni fisiche e calcolo numerico che coinvolgono dati a valori complessi
- Strumenti di Ricerca: Piattaforma di base per esplorare il valore delle informazioni di fase
L'articolo cita 37 importanti riferimenti bibliografici, coprendo teoria delle reti neurali a valori complessi, elaborazione dei segnali audio, ottimizzazione dell'apprendimento profondo e altri aspetti, fornendo una base teorica solida e supporto tecnico per la ricerca.
Valutazione Complessiva: Questo è un articolo di ricerca con forte sistematicità che costruisce un ponte tra la costruzione teorica e l'applicazione pratica delle reti neurali a valori complessi. Sebbene il miglioramento delle prestazioni in alcuni aspetti non sia ancora sufficientemente significativo, fornisce un lavoro di base importante e direzioni di ricerca per lo sviluppo di questo campo.