2025-11-18T05:49:12.501691

Phase-Aware Deep Learning with Complex-Valued CNNs for Audio Signal Applications

Agrawal

This study explores the design and application of Complex-Valued Convolutional Neural Networks (CVCNNs) in audio signal processing, with a focus on preserving and utilizing phase information often neglected in real-valued networks. We begin by presenting the foundational theoretical concepts of CVCNNs, including complex convolutions, pooling layers, Wirtinger-based differentiation, and various complex-valued activation functions. These are complemented by critical adaptations of training techniques, including complex batch normalization and weight initialization schemes, to ensure stability in training dynamics. Empirical evaluations are conducted across three stages. First, CVCNNs are benchmarked on standard image datasets, where they demonstrate competitive performance with real-valued CNNs, even under synthetic complex perturbations. Although our focus is audio signal processing, we first evaluate CVCNNs on image datasets to establish baseline performance and validate training stability before applying them to audio tasks. In the second experiment, we focus on audio classification using Mel-Frequency Cepstral Coefficients (MFCCs). CVCNNs trained on real-valued MFCCs slightly outperform real CNNs, while preserving phase in input workflows highlights challenges in exploiting phase without architectural modifications. Finally, a third experiment introduces GNNs to model phase information via edge weighting, where the inclusion of phase yields measurable gains in both binary and multi-class genre classification. These results underscore the expressive capacity of complex-valued architectures and confirm phase as a meaningful and exploitable feature in audio processing applications. While current methods show promise, especially with activations like cardioid, future advances in phase-aware design will be essential to leverage the potential of complex representations in neural networks.

academic

Apprentissage Profond Conscient de la Phase avec des CNN à Valeurs Complexes pour les Applications de Traitement de Signaux Audio

Informations Fondamentales

ID de l'article: 2510.09926
Titre: Phase-Aware Deep Learning with Complex-Valued CNNs for Audio Signal Applications
Auteur: Agrawal Naman (National University of Singapore)
Classification: cs.LG cs.AI cs.SD
Date de publication: 10 octobre 2025 (prépublication arXiv)
Lien de l'article: https://arxiv.org/abs/2510.09926

Résumé

Cette étude explore la conception et l'application des réseaux de neurones convolutifs à valeurs complexes (CVCNNs) dans le traitement des signaux audio, en mettant l'accent sur la préservation et l'exploitation des informations de phase ignorées par les réseaux à valeurs réelles traditionnels. La recherche établit d'abord les fondations théoriques des CVCNNs, incluant la convolution à valeurs complexes, les couches de pooling, la méthode de différenciation basée sur Wirtinger et diverses fonctions d'activation à valeurs complexes, accompagnées de techniques d'entraînement clés telles que la normalisation par batch à valeurs complexes et l'initialisation des poids. Les expériences se déploient en trois phases : d'abord, la validation des performances fondamentales des CVCNNs sur des ensembles de données d'images standard ; ensuite, l'évaluation sur des tâches de classification audio utilisant les coefficients cepstraux de fréquence Mel (MFCCs) ; enfin, l'introduction de réseaux de neurones graphiques (GNNs) pour modéliser explicitement les informations de phase via les poids des arêtes. Les résultats démontrent que les CVCNNs possèdent une puissance d'expression remarquable et que les informations de phase constituent effectivement des caractéristiques significatives et exploitables dans le traitement audio.

Contexte et Motivation de la Recherche

Définition du Problème

Les réseaux de neurones convolutifs à valeurs réelles traditionnels présentent un défaut fondamental dans le traitement des signaux audio : ils éliminent intrinsèquement ou n'exploitent pas suffisamment les informations de phase, qui constituent une composante cruciale dans de nombreuses tâches de traitement de signaux.

Analyse de l'Importance

Valeur des informations de phase : Lorsque les signaux audio sont transformés dans le domaine fréquentiel via la transformée de Fourier à court terme (STFT), ils produisent des sorties à valeurs complexes, où l'amplitude représente l'amplitude vibratoire et la phase contient des informations temporelles et spatiales essentielles
Besoins applicatifs : Dans des tâches telles que l'amélioration de la parole, la localisation de sources sonores et la classification audio, les informations de phase offrent un potentiel significatif pour améliorer les performances
Développement technologique : Les CVCNNs ont démontré des avantages remarquables dans des domaines tels que la télédétection, l'imagerie médicale et les systèmes de communication

Limitations des Méthodes Existantes

Les CNN traditionnels ne traitent que le spectrogramme d'amplitude, ignorant complètement les informations de phase
Absence de techniques efficaces d'entraînement des réseaux à valeurs complexes et de cadre théorique
Les fonctions d'activation à valeurs complexes existantes présentent des défis en matière de stabilité d'entraînement

Motivation de la Recherche

Étendre les CNN au domaine des valeurs complexes pour construire des architectures de réseaux de neurones capables de traiter simultanément les informations d'amplitude et de phase, fournissant ainsi des méthodes de représentation plus expressives et efficaces pour le traitement des signaux audio.

Contributions Principales

Établissement du cadre théorique : Construction systématique des fondations mathématiques des CVCNNs, incluant un système théorique complet de convolution à valeurs complexes, pooling, fonctions d'activation et normalisation par batch
Optimisation des techniques d'entraînement : Proposition de stratégies d'initialisation des poids et de méthodes de normalisation par batch adaptées aux réseaux à valeurs complexes, assurant la stabilité de l'entraînement
Amélioration des fonctions d'activation : Introduction de la fonction d'activation smooth zReLU, résolvant le problème de discontinuité du zReLU original
Vérification des informations de phase : Validation explicite de la valeur des informations de phase dans les tâches de classification audio par des expériences GNN
Évaluation Complète : Vérification expérimentale exhaustive dans les domaines de l'imagerie et de l'audio, fournissant un soutien empirique pour l'application des CVCNNs

Détails Méthodologiques

Définition de la Tâche

Cet article se concentre principalement sur les tâches de classification des signaux audio, en particulier la classification des genres musicaux. L'entrée est la représentation des caractéristiques MFCC du signal audio, et la sortie est l'étiquette de classification. Le défi fondamental consiste à exploiter efficacement les informations de phase du signal audio dans le réseau de neurones.

Architecture du Modèle

Opération de Convolution à Valeurs Complexes

Pour une matrice d'entrée à valeurs complexes $X = A_1 + iB_1$ et un noyau de convolution à valeurs complexes $W = A_2 + iB_2$ , la convolution à valeurs complexes est définie comme :

$W * X = (A_1 * A_2 - B_1 * B_2) + i(B_1 * A_2 + A_1 * B_2)$

Ceci peut être exprimé sous forme matricielle comme : $W * X = \begin{pmatrix} A_1 & -B_1 \\ B_1 & A_1 \end{pmatrix} * \begin{pmatrix} A_2 & -B_2 \\ B_2 & A_2 \end{pmatrix}$

Couches de Pooling à Valeurs Complexes

Pooling maximal : Sélection de la valeur maximale basée sur l'amplitude du nombre complexe, la phase correspondante étant récupérée via l'indice de l'amplitude maximale
Pooling moyen : Opération de moyenne appliquée séparément aux parties réelle et imaginaire

Fonctions d'Activation à Valeurs Complexes

L'article compare en détail cinq fonctions d'activation à valeurs complexes :

CReLU: $\text{CReLU}(z) = \text{ReLU}(\text{Re}(z)) + i\text{ReLU}(\text{Im}(z))$
modReLU: $\text{modReLU}(z) = \text{ReLU}(|z| + b) \cdot \frac{z}{|z|}$
zReLU: Retourne la valeur originale uniquement lorsque les parties réelle et imaginaire sont toutes deux non-négatives
smooth zReLU: $z \cdot \sigma(\alpha \cdot \text{Re}(z)) \cdot \sigma(\alpha \cdot \text{Im}(z))$
cardioid: $g(z) = \frac{z}{2}(1 + \cos \phi_z)$

Normalisation par Batch à Valeurs Complexes

Processus de normalisation d'un vecteur à valeurs complexes $x$ : $\tilde{x} = V^{-1/2}(x - E(x))$

où la matrice de covariance est : $V = \begin{pmatrix} \text{Cov}(\text{Re}(x), \text{Re}(x)) & \text{Cov}(\text{Re}(x), \text{Im}(x)) \\ \text{Cov}(\text{Im}(x), \text{Re}(x)) & \text{Cov}(\text{Im}(x), \text{Im}(x)) \end{pmatrix} + \lambda I$

Points d'Innovation Technique

Application du Calcul de Wirtinger : Résolution du problème du calcul du gradient pour les fonctions à valeurs complexes non-analytiques
Extraction de caractéristiques consciente de la phase : Conception de deux processus d'extraction MFCC préservant les informations de phase
Intégration de réseaux de neurones graphiques : Utilisation innovante des poids des arêtes des GNN pour modéliser explicitement les informations de phase
Optimisation des fonctions d'activation : Proposition du smooth zReLU pour résoudre les problèmes d'instabilité d'entraînement

Configuration Expérimentale

Ensembles de Données

Ensembles de données d'images : MNIST, Fashion-MNIST, Kuzushiji-MNIST
Ensembles de données audio : Ensemble de données GTZAN de genres musicaux (1000 extraits audio de 30 secondes, 10 genres)

Métriques d'Évaluation

Précision d'entraînement et de test
Comparaison du temps d'entraînement
Analyse de la convergence

Méthodes de Comparaison

CNN à valeurs réelles standard (ligne de base)
CVCNNs avec différentes configurations (entrée à valeurs réelles, entrée à valeurs complexes, etc.)
Variantes CVCNN avec différentes fonctions d'activation

Détails d'Implémentation

Utilisation des bibliothèques PyTorch et complexPyTorch
Entraînement sur CPU avec puce Apple M2 Pro
Écrêtage du gradient pour prévenir l'instabilité d'entraînement
Cycles d'entraînement de 5-10 epochs

Résultats Expérimentaux

Résultats Principaux

Expériences de Classification d'Images

Sur MNIST, KMNIST et Fashion-MNIST, les CVCNNs atteignent des performances comparables aux CNN à valeurs réelles dans diverses configurations d'entrée :

MNIST : précision de test d'environ 99%
KMNIST : précision de test d'environ 95%
Fashion-MNIST : précision de test d'environ 90%

Expériences de Classification Audio

Sur des tâches de classification binaire de genres musicaux :

Ligne de base CNN à valeurs réelles : 92,5% de précision de test
CVCNN (MFCC à valeurs réelles) : 95,34% de précision de test (activation cardioid)
CVCNN (MFCC à valeurs complexes) : performance réduite, révélant les limitations de l'architecture actuelle

Comparaison des Fonctions d'Activation

La fonction d'activation cardioid démontre les meilleures performances dans toutes les expériences :

Stabilité maximale sous perturbations d'entrée à valeurs complexes
Précision la plus élevée dans les tâches audio
Processus d'entraînement le plus stable

Expériences d'Ablation

Impact des Différentes Fonctions d'Activation

Les résultats expérimentaux révèlent :

cardioid : Excellentes performances dans tous les paramètres, particulièrement stable sous perturbations de phase
modReLU : Instabilité sous configurations de phase fixe et partie imaginaire, baisse significative de la précision
smooth zReLU : Bonnes performances sans transformation et avec bruit
CReLU : Choix de base stable

Vérification de la Valeur des Informations de Phase

Les expériences GNN confirment explicitement la valeur des informations de phase :

GNN sans informations de phase (ligne de base)
GNN avec poids d'arêtes basés sur les différences de phase : surpasse significativement la ligne de base dans les tâches de classification binaire et décuple

Découvertes Expérimentales

Efficacité d'entraînement : Le temps d'entraînement des CVCNNs est environ 4-5 fois supérieur à celui des CNN à valeurs réelles
Stabilité : Le choix approprié de la fonction d'activation est crucial pour la stabilité d'entraînement
Utilisation de la phase : L'architecture actuelle présente des limitations dans l'exploitation directe des informations de phase
Capacité de généralisation : Les CVCNNs démontrent une bonne robustesse sous perturbations à valeurs complexes

Travaux Connexes

Développement des Réseaux de Neurones à Valeurs Complexes

Les travaux précoces se concentraient principalement sur les fondations théoriques et les architectures de base
Les percées récentes dans des domaines spécifiques (tels que la reconstruction IRM, le traitement d'images SAR)

Apprentissage Profond dans le Traitement des Signaux Audio

Les méthodes traditionnelles reposent principalement sur les caractéristiques du spectrogramme d'amplitude
Les méthodes conscientes de la phase commencent à attirer l'attention, comme le Deep Complex U-Net

Avantages de Cet Article

Comparé aux travaux existants, cet article fournit un cadre théorique plus systématique et une vérification expérimentale plus complète, particulièrement dans la comparaison des fonctions d'activation et la vérification de la valeur des informations de phase.

Conclusions et Discussion

Conclusions Principales

Faisabilité de l'architecture : Les CVCNNs maintiennent des performances comparables aux CNN à valeurs réelles tout en offrant la capacité de traiter les informations à valeurs complexes
Valeur des informations de phase : Les expériences GNN confirment explicitement la valeur discriminante des informations de phase dans la classification audio
Importance des fonctions d'activation : Les fonctions d'activation conscientes de la phase comme cardioid surpassent significativement les choix traditionnels
Potentiel applicatif : Avec une conception d'architecture appropriée, les CVCNNs promettent des percées dans les tâches de traitement audio

Limitations

Surcharge computationnelle : Augmentation significative du temps d'entraînement (4-5 fois)
Limitations architecturales : La conception actuelle présente des insuffisances dans l'exploitation directe des informations de phase
Spécificité du domaine : La valeur des informations de phase peut être limitée dans certaines tâches
Complexité d'implémentation : Nécessite le support de bibliothèques de calcul à valeurs complexes spécialisées

Directions Futures

Innovation architecturale : Conception de modules conscients de la phase et de mécanismes d'attention spécialisés
Optimisation d'entraînement : Développement d'algorithmes d'entraînement plus efficaces pour les réseaux à valeurs complexes
Extension applicative : Exploration d'applications dans la reconnaissance vocale, la localisation de sources sonores et autres tâches
Approfondissement théorique : Compréhension accrue de la puissance d'expression et de la dynamique d'apprentissage des représentations à valeurs complexes

Évaluation Approfondie

Points Forts

Complétude théorique : Fournit un cadre mathématique complet des CVCNNs, des opérations fondamentales aux techniques d'entraînement
Exhaustivité expérimentale : Évaluation systématique multi-domaines (images + audio) et multi-angles (différentes fonctions d'activation, configurations d'entrée)
Vérification de l'innovation : Validation ingénieuse de la valeur intrinsèque des informations de phase via GNN
Orientation pratique : Fournit des directives techniques concrètes pour l'application pratique des CVCNNs

Insuffisances

Amélioration de performance limitée : Dans certaines tâches, l'avantage des CVCNNs par rapport aux CNN à valeurs réelles n'est pas manifeste
Efficacité computationnelle : La surcharge computationnelle significative peut limiter l'application pratique
Exploration architecturale insuffisante : Utilisation principalement d'architectures CNN standard, manque de conceptions spécialisées pour les caractéristiques à valeurs complexes
Échelle des ensembles de données : Les expériences se concentrent principalement sur des ensembles de données relativement simples

Impact

Contribution académique : Fournit des fondations théoriques et expérimentales importantes pour la recherche sur les réseaux de neurones à valeurs complexes
Valeur pratique : Introduit une nouvelle voie technologique pour le domaine du traitement des signaux audio
Reproductibilité : Fournit une implémentation de code complète, facilitant les recherches ultérieures
Caractère inspirant : Indique la direction du développement de l'apprentissage profond conscient de la phase

Scénarios Applicables

Traitement audio : Analyse musicale, amélioration de la parole, classification de scènes acoustiques
Traitement de signaux : Traitement de signaux radar, systèmes de communication, analyse de signaux biomédicaux
Calcul scientifique : Simulations physiques et calculs numériques impliquant des données à valeurs complexes
Outils de recherche : Plateforme de base pour explorer la valeur des informations de phase

Références Bibliographiques

L'article cite 37 références importantes couvrant la théorie des réseaux de neurones à valeurs complexes, le traitement des signaux audio, l'optimisation de l'apprentissage profond et d'autres domaines, fournissant une base théorique solide et un soutien technique pour la recherche.

Évaluation Globale : Ceci est un article de recherche d'une grande systématicité qui établit un pont entre la construction théorique des réseaux de neurones à valeurs complexes et leur application pratique. Bien que l'amélioration de performance dans certains aspects ne soit pas suffisamment significative, il fournit un travail fondamental important et indique des directions de recherche pour le développement du domaine.