2025-11-18T05:49:12.501691

Phase-Aware Deep Learning with Complex-Valued CNNs for Audio Signal Applications

Agrawal
This study explores the design and application of Complex-Valued Convolutional Neural Networks (CVCNNs) in audio signal processing, with a focus on preserving and utilizing phase information often neglected in real-valued networks. We begin by presenting the foundational theoretical concepts of CVCNNs, including complex convolutions, pooling layers, Wirtinger-based differentiation, and various complex-valued activation functions. These are complemented by critical adaptations of training techniques, including complex batch normalization and weight initialization schemes, to ensure stability in training dynamics. Empirical evaluations are conducted across three stages. First, CVCNNs are benchmarked on standard image datasets, where they demonstrate competitive performance with real-valued CNNs, even under synthetic complex perturbations. Although our focus is audio signal processing, we first evaluate CVCNNs on image datasets to establish baseline performance and validate training stability before applying them to audio tasks. In the second experiment, we focus on audio classification using Mel-Frequency Cepstral Coefficients (MFCCs). CVCNNs trained on real-valued MFCCs slightly outperform real CNNs, while preserving phase in input workflows highlights challenges in exploiting phase without architectural modifications. Finally, a third experiment introduces GNNs to model phase information via edge weighting, where the inclusion of phase yields measurable gains in both binary and multi-class genre classification. These results underscore the expressive capacity of complex-valued architectures and confirm phase as a meaningful and exploitable feature in audio processing applications. While current methods show promise, especially with activations like cardioid, future advances in phase-aware design will be essential to leverage the potential of complex representations in neural networks.
academic

Apprentissage Profond Conscient de la Phase avec des CNN à Valeurs Complexes pour les Applications de Traitement de Signaux Audio

Informations Fondamentales

  • ID de l'article: 2510.09926
  • Titre: Phase-Aware Deep Learning with Complex-Valued CNNs for Audio Signal Applications
  • Auteur: Agrawal Naman (National University of Singapore)
  • Classification: cs.LG cs.AI cs.SD
  • Date de publication: 10 octobre 2025 (prépublication arXiv)
  • Lien de l'article: https://arxiv.org/abs/2510.09926

Résumé

Cette étude explore la conception et l'application des réseaux de neurones convolutifs à valeurs complexes (CVCNNs) dans le traitement des signaux audio, en mettant l'accent sur la préservation et l'exploitation des informations de phase ignorées par les réseaux à valeurs réelles traditionnels. La recherche établit d'abord les fondations théoriques des CVCNNs, incluant la convolution à valeurs complexes, les couches de pooling, la méthode de différenciation basée sur Wirtinger et diverses fonctions d'activation à valeurs complexes, accompagnées de techniques d'entraînement clés telles que la normalisation par batch à valeurs complexes et l'initialisation des poids. Les expériences se déploient en trois phases : d'abord, la validation des performances fondamentales des CVCNNs sur des ensembles de données d'images standard ; ensuite, l'évaluation sur des tâches de classification audio utilisant les coefficients cepstraux de fréquence Mel (MFCCs) ; enfin, l'introduction de réseaux de neurones graphiques (GNNs) pour modéliser explicitement les informations de phase via les poids des arêtes. Les résultats démontrent que les CVCNNs possèdent une puissance d'expression remarquable et que les informations de phase constituent effectivement des caractéristiques significatives et exploitables dans le traitement audio.

Contexte et Motivation de la Recherche

Définition du Problème

Les réseaux de neurones convolutifs à valeurs réelles traditionnels présentent un défaut fondamental dans le traitement des signaux audio : ils éliminent intrinsèquement ou n'exploitent pas suffisamment les informations de phase, qui constituent une composante cruciale dans de nombreuses tâches de traitement de signaux.

Analyse de l'Importance

  1. Valeur des informations de phase : Lorsque les signaux audio sont transformés dans le domaine fréquentiel via la transformée de Fourier à court terme (STFT), ils produisent des sorties à valeurs complexes, où l'amplitude représente l'amplitude vibratoire et la phase contient des informations temporelles et spatiales essentielles
  2. Besoins applicatifs : Dans des tâches telles que l'amélioration de la parole, la localisation de sources sonores et la classification audio, les informations de phase offrent un potentiel significatif pour améliorer les performances
  3. Développement technologique : Les CVCNNs ont démontré des avantages remarquables dans des domaines tels que la télédétection, l'imagerie médicale et les systèmes de communication

Limitations des Méthodes Existantes

  • Les CNN traditionnels ne traitent que le spectrogramme d'amplitude, ignorant complètement les informations de phase
  • Absence de techniques efficaces d'entraînement des réseaux à valeurs complexes et de cadre théorique
  • Les fonctions d'activation à valeurs complexes existantes présentent des défis en matière de stabilité d'entraînement

Motivation de la Recherche

Étendre les CNN au domaine des valeurs complexes pour construire des architectures de réseaux de neurones capables de traiter simultanément les informations d'amplitude et de phase, fournissant ainsi des méthodes de représentation plus expressives et efficaces pour le traitement des signaux audio.

Contributions Principales

  1. Établissement du cadre théorique : Construction systématique des fondations mathématiques des CVCNNs, incluant un système théorique complet de convolution à valeurs complexes, pooling, fonctions d'activation et normalisation par batch
  2. Optimisation des techniques d'entraînement : Proposition de stratégies d'initialisation des poids et de méthodes de normalisation par batch adaptées aux réseaux à valeurs complexes, assurant la stabilité de l'entraînement
  3. Amélioration des fonctions d'activation : Introduction de la fonction d'activation smooth zReLU, résolvant le problème de discontinuité du zReLU original
  4. Vérification des informations de phase : Validation explicite de la valeur des informations de phase dans les tâches de classification audio par des expériences GNN
  5. Évaluation Complète : Vérification expérimentale exhaustive dans les domaines de l'imagerie et de l'audio, fournissant un soutien empirique pour l'application des CVCNNs

Détails Méthodologiques

Définition de la Tâche

Cet article se concentre principalement sur les tâches de classification des signaux audio, en particulier la classification des genres musicaux. L'entrée est la représentation des caractéristiques MFCC du signal audio, et la sortie est l'étiquette de classification. Le défi fondamental consiste à exploiter efficacement les informations de phase du signal audio dans le réseau de neurones.

Architecture du Modèle

Opération de Convolution à Valeurs Complexes

Pour une matrice d'entrée à valeurs complexes X=A1+iB1X = A_1 + iB_1 et un noyau de convolution à valeurs complexes W=A2+iB2W = A_2 + iB_2, la convolution à valeurs complexes est définie comme :

WX=(A1A2B1B2)+i(B1A2+A1B2)W * X = (A_1 * A_2 - B_1 * B_2) + i(B_1 * A_2 + A_1 * B_2)

Ceci peut être exprimé sous forme matricielle comme : WX=(A1B1B1A1)(A2B2B2A2)W * X = \begin{pmatrix} A_1 & -B_1 \\ B_1 & A_1 \end{pmatrix} * \begin{pmatrix} A_2 & -B_2 \\ B_2 & A_2 \end{pmatrix}

Couches de Pooling à Valeurs Complexes

  • Pooling maximal : Sélection de la valeur maximale basée sur l'amplitude du nombre complexe, la phase correspondante étant récupérée via l'indice de l'amplitude maximale
  • Pooling moyen : Opération de moyenne appliquée séparément aux parties réelle et imaginaire

Fonctions d'Activation à Valeurs Complexes

L'article compare en détail cinq fonctions d'activation à valeurs complexes :

  1. CReLU: CReLU(z)=ReLU(Re(z))+iReLU(Im(z))\text{CReLU}(z) = \text{ReLU}(\text{Re}(z)) + i\text{ReLU}(\text{Im}(z))
  2. modReLU: modReLU(z)=ReLU(z+b)zz\text{modReLU}(z) = \text{ReLU}(|z| + b) \cdot \frac{z}{|z|}
  3. zReLU: Retourne la valeur originale uniquement lorsque les parties réelle et imaginaire sont toutes deux non-négatives
  4. smooth zReLU: zσ(αRe(z))σ(αIm(z))z \cdot \sigma(\alpha \cdot \text{Re}(z)) \cdot \sigma(\alpha \cdot \text{Im}(z))
  5. cardioid: g(z)=z2(1+cosϕz)g(z) = \frac{z}{2}(1 + \cos \phi_z)

Normalisation par Batch à Valeurs Complexes

Processus de normalisation d'un vecteur à valeurs complexes xx : x~=V1/2(xE(x))\tilde{x} = V^{-1/2}(x - E(x))

où la matrice de covariance est : V=(Cov(Re(x),Re(x))Cov(Re(x),Im(x))Cov(Im(x),Re(x))Cov(Im(x),Im(x)))+λIV = \begin{pmatrix} \text{Cov}(\text{Re}(x), \text{Re}(x)) & \text{Cov}(\text{Re}(x), \text{Im}(x)) \\ \text{Cov}(\text{Im}(x), \text{Re}(x)) & \text{Cov}(\text{Im}(x), \text{Im}(x)) \end{pmatrix} + \lambda I

Points d'Innovation Technique

  1. Application du Calcul de Wirtinger : Résolution du problème du calcul du gradient pour les fonctions à valeurs complexes non-analytiques
  2. Extraction de caractéristiques consciente de la phase : Conception de deux processus d'extraction MFCC préservant les informations de phase
  3. Intégration de réseaux de neurones graphiques : Utilisation innovante des poids des arêtes des GNN pour modéliser explicitement les informations de phase
  4. Optimisation des fonctions d'activation : Proposition du smooth zReLU pour résoudre les problèmes d'instabilité d'entraînement

Configuration Expérimentale

Ensembles de Données

  1. Ensembles de données d'images : MNIST, Fashion-MNIST, Kuzushiji-MNIST
  2. Ensembles de données audio : Ensemble de données GTZAN de genres musicaux (1000 extraits audio de 30 secondes, 10 genres)

Métriques d'Évaluation

  • Précision d'entraînement et de test
  • Comparaison du temps d'entraînement
  • Analyse de la convergence

Méthodes de Comparaison

  • CNN à valeurs réelles standard (ligne de base)
  • CVCNNs avec différentes configurations (entrée à valeurs réelles, entrée à valeurs complexes, etc.)
  • Variantes CVCNN avec différentes fonctions d'activation

Détails d'Implémentation

  • Utilisation des bibliothèques PyTorch et complexPyTorch
  • Entraînement sur CPU avec puce Apple M2 Pro
  • Écrêtage du gradient pour prévenir l'instabilité d'entraînement
  • Cycles d'entraînement de 5-10 epochs

Résultats Expérimentaux

Résultats Principaux

Expériences de Classification d'Images

Sur MNIST, KMNIST et Fashion-MNIST, les CVCNNs atteignent des performances comparables aux CNN à valeurs réelles dans diverses configurations d'entrée :

  • MNIST : précision de test d'environ 99%
  • KMNIST : précision de test d'environ 95%
  • Fashion-MNIST : précision de test d'environ 90%

Expériences de Classification Audio

Sur des tâches de classification binaire de genres musicaux :

  • Ligne de base CNN à valeurs réelles : 92,5% de précision de test
  • CVCNN (MFCC à valeurs réelles) : 95,34% de précision de test (activation cardioid)
  • CVCNN (MFCC à valeurs complexes) : performance réduite, révélant les limitations de l'architecture actuelle

Comparaison des Fonctions d'Activation

La fonction d'activation cardioid démontre les meilleures performances dans toutes les expériences :

  • Stabilité maximale sous perturbations d'entrée à valeurs complexes
  • Précision la plus élevée dans les tâches audio
  • Processus d'entraînement le plus stable

Expériences d'Ablation

Impact des Différentes Fonctions d'Activation

Les résultats expérimentaux révèlent :

  • cardioid : Excellentes performances dans tous les paramètres, particulièrement stable sous perturbations de phase
  • modReLU : Instabilité sous configurations de phase fixe et partie imaginaire, baisse significative de la précision
  • smooth zReLU : Bonnes performances sans transformation et avec bruit
  • CReLU : Choix de base stable

Vérification de la Valeur des Informations de Phase

Les expériences GNN confirment explicitement la valeur des informations de phase :

  • GNN sans informations de phase (ligne de base)
  • GNN avec poids d'arêtes basés sur les différences de phase : surpasse significativement la ligne de base dans les tâches de classification binaire et décuple

Découvertes Expérimentales

  1. Efficacité d'entraînement : Le temps d'entraînement des CVCNNs est environ 4-5 fois supérieur à celui des CNN à valeurs réelles
  2. Stabilité : Le choix approprié de la fonction d'activation est crucial pour la stabilité d'entraînement
  3. Utilisation de la phase : L'architecture actuelle présente des limitations dans l'exploitation directe des informations de phase
  4. Capacité de généralisation : Les CVCNNs démontrent une bonne robustesse sous perturbations à valeurs complexes

Travaux Connexes

Développement des Réseaux de Neurones à Valeurs Complexes

  • Les travaux précoces se concentraient principalement sur les fondations théoriques et les architectures de base
  • Les percées récentes dans des domaines spécifiques (tels que la reconstruction IRM, le traitement d'images SAR)

Apprentissage Profond dans le Traitement des Signaux Audio

  • Les méthodes traditionnelles reposent principalement sur les caractéristiques du spectrogramme d'amplitude
  • Les méthodes conscientes de la phase commencent à attirer l'attention, comme le Deep Complex U-Net

Avantages de Cet Article

Comparé aux travaux existants, cet article fournit un cadre théorique plus systématique et une vérification expérimentale plus complète, particulièrement dans la comparaison des fonctions d'activation et la vérification de la valeur des informations de phase.

Conclusions et Discussion

Conclusions Principales

  1. Faisabilité de l'architecture : Les CVCNNs maintiennent des performances comparables aux CNN à valeurs réelles tout en offrant la capacité de traiter les informations à valeurs complexes
  2. Valeur des informations de phase : Les expériences GNN confirment explicitement la valeur discriminante des informations de phase dans la classification audio
  3. Importance des fonctions d'activation : Les fonctions d'activation conscientes de la phase comme cardioid surpassent significativement les choix traditionnels
  4. Potentiel applicatif : Avec une conception d'architecture appropriée, les CVCNNs promettent des percées dans les tâches de traitement audio

Limitations

  1. Surcharge computationnelle : Augmentation significative du temps d'entraînement (4-5 fois)
  2. Limitations architecturales : La conception actuelle présente des insuffisances dans l'exploitation directe des informations de phase
  3. Spécificité du domaine : La valeur des informations de phase peut être limitée dans certaines tâches
  4. Complexité d'implémentation : Nécessite le support de bibliothèques de calcul à valeurs complexes spécialisées

Directions Futures

  1. Innovation architecturale : Conception de modules conscients de la phase et de mécanismes d'attention spécialisés
  2. Optimisation d'entraînement : Développement d'algorithmes d'entraînement plus efficaces pour les réseaux à valeurs complexes
  3. Extension applicative : Exploration d'applications dans la reconnaissance vocale, la localisation de sources sonores et autres tâches
  4. Approfondissement théorique : Compréhension accrue de la puissance d'expression et de la dynamique d'apprentissage des représentations à valeurs complexes

Évaluation Approfondie

Points Forts

  1. Complétude théorique : Fournit un cadre mathématique complet des CVCNNs, des opérations fondamentales aux techniques d'entraînement
  2. Exhaustivité expérimentale : Évaluation systématique multi-domaines (images + audio) et multi-angles (différentes fonctions d'activation, configurations d'entrée)
  3. Vérification de l'innovation : Validation ingénieuse de la valeur intrinsèque des informations de phase via GNN
  4. Orientation pratique : Fournit des directives techniques concrètes pour l'application pratique des CVCNNs

Insuffisances

  1. Amélioration de performance limitée : Dans certaines tâches, l'avantage des CVCNNs par rapport aux CNN à valeurs réelles n'est pas manifeste
  2. Efficacité computationnelle : La surcharge computationnelle significative peut limiter l'application pratique
  3. Exploration architecturale insuffisante : Utilisation principalement d'architectures CNN standard, manque de conceptions spécialisées pour les caractéristiques à valeurs complexes
  4. Échelle des ensembles de données : Les expériences se concentrent principalement sur des ensembles de données relativement simples

Impact

  1. Contribution académique : Fournit des fondations théoriques et expérimentales importantes pour la recherche sur les réseaux de neurones à valeurs complexes
  2. Valeur pratique : Introduit une nouvelle voie technologique pour le domaine du traitement des signaux audio
  3. Reproductibilité : Fournit une implémentation de code complète, facilitant les recherches ultérieures
  4. Caractère inspirant : Indique la direction du développement de l'apprentissage profond conscient de la phase

Scénarios Applicables

  1. Traitement audio : Analyse musicale, amélioration de la parole, classification de scènes acoustiques
  2. Traitement de signaux : Traitement de signaux radar, systèmes de communication, analyse de signaux biomédicaux
  3. Calcul scientifique : Simulations physiques et calculs numériques impliquant des données à valeurs complexes
  4. Outils de recherche : Plateforme de base pour explorer la valeur des informations de phase

Références Bibliographiques

L'article cite 37 références importantes couvrant la théorie des réseaux de neurones à valeurs complexes, le traitement des signaux audio, l'optimisation de l'apprentissage profond et d'autres domaines, fournissant une base théorique solide et un soutien technique pour la recherche.


Évaluation Globale : Ceci est un article de recherche d'une grande systématicité qui établit un pont entre la construction théorique des réseaux de neurones à valeurs complexes et leur application pratique. Bien que l'amélioration de performance dans certains aspects ne soit pas suffisamment significative, il fournit un travail fondamental important et indique des directions de recherche pour le développement du domaine.