This study explores the design and application of Complex-Valued Convolutional Neural Networks (CVCNNs) in audio signal processing, with a focus on preserving and utilizing phase information often neglected in real-valued networks. We begin by presenting the foundational theoretical concepts of CVCNNs, including complex convolutions, pooling layers, Wirtinger-based differentiation, and various complex-valued activation functions. These are complemented by critical adaptations of training techniques, including complex batch normalization and weight initialization schemes, to ensure stability in training dynamics. Empirical evaluations are conducted across three stages. First, CVCNNs are benchmarked on standard image datasets, where they demonstrate competitive performance with real-valued CNNs, even under synthetic complex perturbations. Although our focus is audio signal processing, we first evaluate CVCNNs on image datasets to establish baseline performance and validate training stability before applying them to audio tasks. In the second experiment, we focus on audio classification using Mel-Frequency Cepstral Coefficients (MFCCs). CVCNNs trained on real-valued MFCCs slightly outperform real CNNs, while preserving phase in input workflows highlights challenges in exploiting phase without architectural modifications. Finally, a third experiment introduces GNNs to model phase information via edge weighting, where the inclusion of phase yields measurable gains in both binary and multi-class genre classification. These results underscore the expressive capacity of complex-valued architectures and confirm phase as a meaningful and exploitable feature in audio processing applications. While current methods show promise, especially with activations like cardioid, future advances in phase-aware design will be essential to leverage the potential of complex representations in neural networks.
- Papier-ID: 2510.09926
- Titel: Phase-Aware Deep Learning with Complex-Valued CNNs for Audio Signal Applications
- Autor: Agrawal Naman (National University of Singapore)
- Klassifizierung: cs.LG cs.AI cs.SD
- Veröffentlichungsdatum: 10. Oktober 2025 (arXiv-Preprint)
- Papierlink: https://arxiv.org/abs/2510.09926
Diese Forschung untersucht die Gestaltung und Anwendung von komplexwertigen Faltungsneuronalen Netzen (CVCNNs) in der Audiosignalverarbeitung, mit besonderem Fokus auf die Bewahrung und Nutzung von Phaseninformationen, die in traditionellen reellwertigen Netzen vernachlässigt werden. Die Forschung etabliert zunächst die theoretischen Grundlagen von CVCNNs, einschließlich komplexwertiger Faltung, Pooling-Schichten, Wirtinger-basierter Differenziation und verschiedener komplexwertiger Aktivierungsfunktionen, zusammen mit komplexwertiger Batch-Normalisierung und Gewichtsinitialisierungsschemata. Die Experimente gliedern sich in drei Phasen: Zunächst wird die grundlegende Leistung von CVCNNs auf Standard-Bilddatensätzen validiert; zweitens werden Audioklassifizierungsaufgaben mit Mel-Frequenz-Cepstral-Koeffizienten (MFCCs) bewertet; schließlich werden Graphenneuronale Netze (GNNs) eingeführt, um Phaseninformationen durch Kantengewichte explizit zu modellieren. Die Ergebnisse zeigen, dass CVCNNs starke Ausdruckskraft besitzen und dass Phaseninformationen tatsächlich aussagekräftige und nutzbare Merkmale in der Audiosignalverarbeitung darstellen.
Traditionelle reellwertige Faltungsneuronale Netze in der Audiosignalverarbeitung weisen einen grundlegenden Mangel auf: Sie verwerfen oder nutzen Phaseninformationen nicht ausreichend, die in vielen Signalverarbeitungsaufgaben eine kritische Komponente darstellen.
- Wert von Phaseninformationen: Wenn Audiosignale durch die Kurzzeit-Fourier-Transformation (STFT) in den Frequenzbereich transformiert werden, entsteht eine komplexwertige Ausgabe, wobei die Magnitude die Amplitude darstellt und die Phase wichtige zeitliche und räumliche Informationen enthält
- Anwendungsanforderungen: Bei Aufgaben wie Sprachverbesserung, Schallquellenlokalisation und Audioclassifizierung hat Phaseninformation potenziellen Wert zur Leistungsverbesserung
- Technische Entwicklung: CVCNNs haben in Bereichen wie Fernerkundung, medizinischer Bildgebung und Kommunikationssystemen erhebliche Vorteile gezeigt
- Traditionelle CNNs verarbeiten nur Magnitudenspektren und ignorieren Phaseninformationen vollständig
- Mangel an effektiven Trainingstechniken und theoretischen Rahmen für komplexwertige Netze
- Bestehende komplexwertige Aktivierungsfunktionen weisen Herausforderungen bei der Trainingsstabilität auf
Durch die Erweiterung von CNNs in den komplexwertigen Bereich sollen Netzwerk-Architekturen konstruiert werden, die sowohl Magnitude als auch Phaseninformationen verarbeiten können, um ausdrucksstärkere und effizientere Darstellungsmethoden für die Audiosignalverarbeitung bereitzustellen.
- Theoretischer Rahmen: Systematische Etablierung der mathematischen Grundlagen von CVCNNs, einschließlich eines vollständigen theoretischen Systems für komplexwertige Faltung, Pooling, Aktivierungsfunktionen und Batch-Normalisierung
- Trainingstechnik-Optimierung: Vorschlag von Gewichtsinitialisierungsstrategien und Batch-Normalisierungsmethoden für komplexwertige Netze, um Trainingsstabilität zu gewährleisten
- Verbesserung der Aktivierungsfunktion: Einführung der smooth zReLU-Aktivierungsfunktion zur Behebung der Diskontinuität des ursprünglichen zReLU
- Validierung von Phaseninformationen: Explizite Validierung des Wertes von Phaseninformationen in Audioklassifizierungsaufgaben durch GNN-Experimente
- Umfassende Bewertung: Vollständige experimentelle Validierung in Bild- und Audiobereichen, die empirische Unterstützung für CVCNNs-Anwendungen bietet
Diese Arbeit konzentriert sich hauptsächlich auf Audioklassifizierungsaufgaben, insbesondere auf Musikgenre-Klassifizierung. Die Eingabe ist die MFCC-Merkmaldarstellung des Audiosignals, die Ausgabe ist das Klassifizierungslabel. Die Kernherausforderung besteht darin, wie Phaseninformationen von Audiosignalen in neuronalen Netzen effektiv genutzt werden können.
Für komplexwertige Eingabematrix X=A1+iB1 und komplexwertigen Faltungskern W=A2+iB2 ist die komplexwertige Faltung definiert als:
W∗X=(A1∗A2−B1∗B2)+i(B1∗A2+A1∗B2)
Dies kann in Matrixform ausgedrückt werden als:
W∗X=(A1B1−B1A1)∗(A2B2−B2A2)
- Max-Pooling: Maximale Wertauswahl basierend auf der Magnitude komplexer Zahlen, wobei die entsprechende Phase durch den Index des Magnitudemaximums wiederhergestellt wird
- Durchschnitts-Pooling: Separate Durchschnittsbildung für Real- und Imaginärteil
Das Papier vergleicht detailliert fünf komplexwertige Aktivierungsfunktionen:
- CReLU: CReLU(z)=ReLU(Re(z))+iReLU(Im(z))
- modReLU: modReLU(z)=ReLU(∣z∣+b)⋅∣z∣z
- zReLU: Gibt den ursprünglichen Wert nur zurück, wenn Real- und Imaginärteil beide nicht-negativ sind
- smooth zReLU: z⋅σ(α⋅Re(z))⋅σ(α⋅Im(z))
- cardioid: g(z)=2z(1+cosϕz)
Normalisierungsprozess für komplexwertigen Vektor x:
x~=V−1/2(x−E(x))
wobei die Kovarianzmatrix:
V=(Cov(Re(x),Re(x))Cov(Im(x),Re(x))Cov(Re(x),Im(x))Cov(Im(x),Im(x)))+λI
- Anwendung der Wirtinger-Infinitesimalrechnung: Lösung des Gradientenberechnungsproblems für nicht-analytische komplexwertige Funktionen
- Phasenabhängige Merkmalsextraktion: Gestaltung von zwei phasenbewahrenden MFCC-Extraktionsabläufen
- Integration von Graphenneuronalen Netzen: Innovative Nutzung von GNN-Kantengewichten zur expliziten Modellierung von Phaseninformationen
- Optimierung der Aktivierungsfunktion: Einführung von smooth zReLU zur Behebung von Trainingsinstabilität
- Bilddatensätze: MNIST, Fashion-MNIST, Kuzushiji-MNIST
- Audiodatensätze: GTZAN-Musikgenre-Datensatz (1000 30-Sekunden-Audiofragmente, 10 Genres)
- Trainings- und Test-Genauigkeit
- Trainingszeit-Vergleich
- Konvergenzanalyse
- Standard-Echtzeit-CNN (Baseline)
- Verschiedene CVCNN-Konfigurationen (reellwertige Eingabe, komplexwertige Eingabe usw.)
- CVCNN-Varianten mit verschiedenen Aktivierungsfunktionen
- Verwendung von PyTorch und complexPyTorch-Bibliothek
- CPU-Training auf Apple M2 Pro-Chip
- Gradient Clipping zur Vermeidung von Trainingsinstabilität
- Trainingszyklen von 5-10 Epochen
Bei MNIST, KMNIST und Fashion-MNIST erreichen CVCNNs unter verschiedenen Eingabekonfigurationen eine mit reellwertigen CNNs vergleichbare Leistung:
- MNIST: Test-Genauigkeit etwa 99%
- KMNIST: Test-Genauigkeit etwa 95%
- Fashion-MNIST: Test-Genauigkeit etwa 90%
Bei Binärklassifizierungs-Musikgenre-Aufgaben:
- Reellwertige CNN-Baseline: 92,5% Test-Genauigkeit
- CVCNN (reellwertige MFCC): 95,34% Test-Genauigkeit (cardioid-Aktivierung)
- CVCNN (komplexwertige MFCC): Leistungsabfall, zeigt Einschränkungen der aktuellen Architektur
Die cardioid-Aktivierungsfunktion zeigt in allen Experimenten die beste Leistung:
- Stabilste unter komplexwertigen Eingabestörungen
- Höchste Genauigkeit bei Audioaufgaben
- Stabilster Trainingsprozess
Experimentelle Ergebnisse zeigen:
- cardioid: Ausgezeichnete Leistung unter verschiedenen Einstellungen, besonders unter Phasenstörungen
- modReLU: Instabil unter fester Phase und imaginärer Teileeinstellung, deutlicher Genauigkeitsabfall
- smooth zReLU: Gute Leistung unter Nicht-Transformation und Rausch-Einstellung
- CReLU: Als stabile Baseline-Wahl
GNN-Experimente beweisen explizit den Wert von Phaseninformationen:
- GNN ohne Phaseninformation (Baseline)
- GNN mit phasendifferenz-basierten Kantengewichten: Signifikant besser als Baseline bei Binär- und Zehnklassen-Aufgaben
- Trainingseffizienz: CVCNNs-Trainingszeit ist etwa 4-5 mal länger als reellwertige CNNs
- Stabilität: Die richtige Wahl der Aktivierungsfunktion ist entscheidend für die Trainingsstabilität
- Phasennutzung: Aktuelle Architekturen haben begrenzte Fähigkeiten bei der direkten Nutzung von Phaseninformationen
- Generalisierungsfähigkeit: CVCNNs zeigen gute Robustheit unter komplexwertigen Störungen
- Frühe Arbeiten konzentrierten sich hauptsächlich auf theoretische Grundlagen und grundlegende Architekturen
- In letzter Zeit Durchbrüche in spezifischen Bereichen (wie MRT-Rekonstruktion, SAR-Bildverarbeitung)
- Traditionelle Methoden basieren hauptsächlich auf Magnitudenspektrum-Merkmalen
- Phasenabhängige Methoden erhalten zunehmend Aufmerksamkeit, wie Deep Complex U-Net
Im Vergleich zu bestehenden Arbeiten bietet diese Arbeit einen systematischeren theoretischen Rahmen und umfassendere experimentelle Validierung, besonders bei Aktivierungsfunktionsvergleichen und Validierung des Wertes von Phaseninformationen.
- Machbarkeit der Architektur: CVCNNs können eine mit reellwertigen CNNs vergleichbare Leistung beibehalten und gleichzeitig die Fähigkeit zur Verarbeitung komplexwertiger Informationen bieten
- Wert von Phaseninformationen: GNN-Experimente beweisen explizit den diskriminativen Wert von Phaseninformationen in der Audioklassifizierung
- Wichtigkeit der Aktivierungsfunktion: Phasenabhängige Aktivierungsfunktionen wie cardioid sind traditionellen Wahlmöglichkeiten deutlich überlegen
- Anwendungspotenzial: Mit angemessener Architekturgestaltung haben CVCNNs das Potenzial, Durchbrüche in Audioverarbeitungsaufgaben zu erzielen
- Rechnerischer Aufwand: Signifikante Steigerung der Trainingszeit (4-5fach)
- Architektur-Einschränkungen: Aktuelle Gestaltung hat noch Mängel bei der direkten Nutzung von Phaseninformationen
- Aufgabenspezifität: In einigen Aufgaben kann der Wert von Phaseninformationen begrenzt sein
- Implementierungskomplexität: Erfordert spezialisierte komplexwertige Rechenbibliotheken
- Architektur-Innovation: Gestaltung spezialisierter phasenabhängiger Module und Aufmerksamkeitsmechanismen
- Trainingsoptimierung: Entwicklung effizienterer Trainingsalgorithmen für komplexwertige Netze
- Anwendungserweiterung: Erkundung von Anwendungen in Spracherkennung, Schallquellenlokalisation usw.
- Theoretische Vertiefung: Weitere Verständnis der Ausdruckskraft komplexwertiger Darstellungen und Lernungsdynamik
- Theoretische Vollständigkeit: Bietet einen vollständigen mathematischen Rahmen für CVCNNs, von grundlegenden Operationen bis zu Trainingstechniken
- Experimentelle Umfassendheit: Systemische Bewertung über Bereiche hinweg (Bild + Audio), mehrere Perspektiven (verschiedene Aktivierungsfunktionen, Eingabekonfigurationen)
- Validierung der Innovation: Geschickte Validierung des inneren Wertes von Phaseninformationen durch GNNs
- Praktische Anleitung: Bietet konkrete technische Anleitung für praktische Anwendung von CVCNNs
- Begrenzte Leistungsverbesserung: In einigen Aufgaben ist der Vorteil von CVCNNs gegenüber reellwertigen CNNs nicht deutlich
- Rechnerische Effizienz: Erheblicher Rechenaufwand kann praktische Anwendungen einschränken
- Unzureichende Architektur-Erkundung: Hauptsächlich Verwendung von Standard-CNN-Architektur, Mangel an spezialisierter Gestaltung für komplexwertige Eigenschaften
- Datensatzgröße: Experimente hauptsächlich auf relativ einfachen Datensätzen durchgeführt
- Akademischer Beitrag: Bietet wichtige theoretische und experimentelle Grundlagen für komplexwertige Netzwerk-Forschung
- Praktischer Wert: Führt neue technische Wege für die Audiosignalverarbeitung ein
- Reproduzierbarkeit: Bietet vollständige Code-Implementierung für nachfolgende Forschung
- Inspirationskraft: Zeigt Richtung für die Entwicklung phasenabhängigen tiefen Lernens
- Audiosignalverarbeitung: Musikanalyse, Sprachverbesserung, akustische Szenario-Klassifizierung
- Signalverarbeitung: Radarsignalverarbeitung, Kommunikationssysteme, biomedizinische Signalanalyse
- Wissenschaftliche Berechnung: Physikalische Simulation und numerische Berechnung mit komplexwertigen Daten
- Forschungswerkzeug: Als Grundplattform zur Erkundung des Wertes von Phaseninformationen
Das Papier zitiert 37 wichtige Literaturquellen, die Theorie komplexwertiger neuronaler Netze, Audiosignalverarbeitung, Optimierung tiefen Lernens und andere Bereiche abdecken und eine solide theoretische Grundlage und technische Unterstützung für die Forschung bieten.
Gesamtbewertung: Dies ist ein sehr systematisches Forschungspapier, das eine Brücke zwischen theoretischer Konstruktion und praktischer Anwendung komplexwertiger neuronaler Netze schlägt. Obwohl die Leistungsverbesserungen in einigen Aspekten noch nicht ausreichend signifikant sind, bietet es wichtige Grundlagenarbeit und Forschungsrichtungen für die Entwicklung dieses Feldes.