2025-11-18T05:49:12.501691

Phase-Aware Deep Learning with Complex-Valued CNNs for Audio Signal Applications

Agrawal

This study explores the design and application of Complex-Valued Convolutional Neural Networks (CVCNNs) in audio signal processing, with a focus on preserving and utilizing phase information often neglected in real-valued networks. We begin by presenting the foundational theoretical concepts of CVCNNs, including complex convolutions, pooling layers, Wirtinger-based differentiation, and various complex-valued activation functions. These are complemented by critical adaptations of training techniques, including complex batch normalization and weight initialization schemes, to ensure stability in training dynamics. Empirical evaluations are conducted across three stages. First, CVCNNs are benchmarked on standard image datasets, where they demonstrate competitive performance with real-valued CNNs, even under synthetic complex perturbations. Although our focus is audio signal processing, we first evaluate CVCNNs on image datasets to establish baseline performance and validate training stability before applying them to audio tasks. In the second experiment, we focus on audio classification using Mel-Frequency Cepstral Coefficients (MFCCs). CVCNNs trained on real-valued MFCCs slightly outperform real CNNs, while preserving phase in input workflows highlights challenges in exploiting phase without architectural modifications. Finally, a third experiment introduces GNNs to model phase information via edge weighting, where the inclusion of phase yields measurable gains in both binary and multi-class genre classification. These results underscore the expressive capacity of complex-valued architectures and confirm phase as a meaningful and exploitable feature in audio processing applications. While current methods show promise, especially with activations like cardioid, future advances in phase-aware design will be essential to leverage the potential of complex representations in neural networks.

academic

位相認識型深層学習と複素値CNNの音声信号応用

基本情報

論文ID: 2510.09926
タイトル: Phase-Aware Deep Learning with Complex-Valued CNNs for Audio Signal Applications
著者: Agrawal Naman（シンガポール国立大学）
分類: cs.LG cs.AI cs.SD
発表日時: 2025年10月10日（arXiv プレプリント）
論文リンク: https://arxiv.org/abs/2510.09926

要約

本研究は、音声信号処理における複素値畳み込みニューラルネットワーク（CVCNN）の設計と応用を探索し、従来の実数値ネットワークで見落とされていた位相情報の保持と活用に焦点を当てています。本研究はまず、複素値畳み込み、プーリング層、Wirtinger微分法、および各種複素値活性化関数を含むCVCNNの理論的基礎を確立し、複素値バッチ正規化と重み初期化スキームなどの重要な訓練技術を備えています。実験は3段階に分かれています：まずCVCNNの基本性能を標準画像データセット上で検証し、次にメル周波数ケプストラム係数（MFCC）を使用した音声分類タスクで評価し、最後にグラフニューラルネットワーク（GNN）を導入して辺の重みを通じて位相情報を明示的にモデル化します。結果は、CVCNNが強力な表現能力を持ち、位相情報が音声処理において確かに有意義で活用可能な特徴であることを示しています。

研究背景と動機

問題定義

従来の実数値畳み込みニューラルネットワークは、音声信号処理において根本的な欠陥を有しています：それらは本質的に位相情報を破棄するか、十分に活用していません。一方、位相情報は多くの信号処理タスクにおいて重要な構成要素です。

重要性分析

位相情報の価値：音声信号が短時間フーリエ変換（STFT）により周波数領域に変換されると複素数出力が生成され、そこで振幅は振動を表し、位相は重要な時間的および空間的情報を含みます
応用要件：音声強調、音源定位、音声分類などのタスクにおいて、位相情報は性能向上に潜在的な価値を有しています
技術発展：CVCNNは遠隔センシング、医療画像、通信システムなど複数の分野で顕著な利点を示しています

既存手法の限界

従来のCNNは振幅スペクトルのみを処理し、位相情報を完全に無視します
複素値ネットワーク訓練技術と理論的枠組みが不足しています
既存の複素値活性化関数は訓練の安定性に課題があります

研究動機

CNNを複素数領域に拡張することにより、振幅と位相情報の両方を同時に処理できるニューラルネットワークアーキテクチャを構築し、音声信号処理に対してより表現力豊かで効率的な表現方法を提供します。

核心的貢献

理論的枠組みの確立：複素値畳み込み、プーリング、活性化関数、バッチ正規化を含むCVCNNの数学的基礎を体系的に構築しました
訓練技術の最適化：複素値ネットワークに適用可能な重み初期化戦略とバッチ正規化方法を提案し、訓練の安定性を確保しました
活性化関数の改善：smooth zReLU活性化関数を提案し、元のzReLUの不連続性の問題を解決しました
位相情報の価値検証：GNN実験を通じて、音声分類タスクにおける位相情報の価値を明確に検証しました
包括的評価：画像と音声の両領域で全面的な実験検証を実施し、CVCNNの応用に対して実証的支援を提供しました

方法論の詳細

タスク定義

本論文は主に音声信号分類タスク、特に音楽ジャンル分類を研究しています。入力は音声信号のMFCC特徴表現であり、出力は分類ラベルです。核心的課題は、ニューラルネットワーク内で音声信号の位相情報を効果的に活用する方法です。

モデルアーキテクチャ

複素値畳み込み演算

複素数入力行列 $X = A_1 + iB_1$ と複素値畳み込みカーネル $W = A_2 + iB_2$ に対して、複素値畳み込みは以下のように定義されます：

$W * X = (A_1 * A_2 - B_1 * B_2) + i(B_1 * A_2 + A_1 * B_2)$

これは行列形式で以下のように表現できます： $W * X = \begin{pmatrix} A_1 & -B_1 \\ B_1 & A_1 \end{pmatrix} * \begin{pmatrix} A_2 & -B_2 \\ B_2 & A_2 \end{pmatrix}$

複素値プーリング層

最大プーリング：複素数の振幅に基づいて最大値を選択し、対応する位相は振幅最大値のインデックスを通じて復元されます
平均プーリング：実部と虚部に対して個別に平均演算を実行します

複素値活性化関数

論文は5種類の複素値活性化関数を詳細に比較しています：

CReLU: $\text{CReLU}(z) = \text{ReLU}(\text{Re}(z)) + i\text{ReLU}(\text{Im}(z))$
modReLU: $\text{modReLU}(z) = \text{ReLU}(|z| + b) \cdot \frac{z}{|z|}$
zReLU: 実部と虚部の両方が非負の場合のみ元の値を返します
smooth zReLU: $z \cdot \sigma(\alpha \cdot \text{Re}(z)) \cdot \sigma(\alpha \cdot \text{Im}(z))$
cardioid: $g(z) = \frac{z}{2}(1 + \cos \phi_z)$

複素値バッチ正規化

複素数ベクトル $x$ の標準化プロセス： $\tilde{x} = V^{-1/2}(x - E(x))$

ここで共分散行列は： $V = \begin{pmatrix} \text{Cov}(\text{Re}(x), \text{Re}(x)) & \text{Cov}(\text{Re}(x), \text{Im}(x)) \\ \text{Cov}(\text{Im}(x), \text{Re}(x)) & \text{Cov}(\text{Im}(x), \text{Im}(x)) \end{pmatrix} + \lambda I$