This study explores the design and application of Complex-Valued Convolutional Neural Networks (CVCNNs) in audio signal processing, with a focus on preserving and utilizing phase information often neglected in real-valued networks. We begin by presenting the foundational theoretical concepts of CVCNNs, including complex convolutions, pooling layers, Wirtinger-based differentiation, and various complex-valued activation functions. These are complemented by critical adaptations of training techniques, including complex batch normalization and weight initialization schemes, to ensure stability in training dynamics. Empirical evaluations are conducted across three stages. First, CVCNNs are benchmarked on standard image datasets, where they demonstrate competitive performance with real-valued CNNs, even under synthetic complex perturbations. Although our focus is audio signal processing, we first evaluate CVCNNs on image datasets to establish baseline performance and validate training stability before applying them to audio tasks. In the second experiment, we focus on audio classification using Mel-Frequency Cepstral Coefficients (MFCCs). CVCNNs trained on real-valued MFCCs slightly outperform real CNNs, while preserving phase in input workflows highlights challenges in exploiting phase without architectural modifications. Finally, a third experiment introduces GNNs to model phase information via edge weighting, where the inclusion of phase yields measurable gains in both binary and multi-class genre classification. These results underscore the expressive capacity of complex-valued architectures and confirm phase as a meaningful and exploitable feature in audio processing applications. While current methods show promise, especially with activations like cardioid, future advances in phase-aware design will be essential to leverage the potential of complex representations in neural networks.
- 论文ID: 2510.09926
- 标题: Phase-Aware Deep Learning with Complex-Valued CNNs for Audio Signal Applications
- 作者: Agrawal Naman (National University of Singapore)
- 分类: cs.LG cs.AI cs.SD
- 发表时间: 2025年10月10日 (arXiv预印本)
- 论文链接: https://arxiv.org/abs/2510.09926
本研究探索了复值卷积神经网络(CVCNNs)在音频信号处理中的设计与应用,重点关注保留和利用传统实值网络中被忽略的相位信息。研究首先建立了CVCNNs的理论基础,包括复值卷积、池化层、基于Wirtinger的微分法和各种复值激活函数,并配套了复值批量归一化和权重初始化方案等关键训练技术。实验分为三个阶段:首先在标准图像数据集上验证CVCNNs的基础性能;其次在音频分类任务中使用梅尔频率倒谱系数(MFCCs)进行评估;最后引入图神经网络(GNNs)通过边权重显式建模相位信息。结果表明CVCNNs具有强大的表达能力,相位信息在音频处理中确实是有意义且可利用的特征。
传统的实值卷积神经网络在音频信号处理中存在一个根本性缺陷:它们固有地丢弃或未充分利用相位信息,而相位信息在许多信号处理任务中是至关重要的组成部分。
- 相位信息的价值:音频信号通过短时傅里叶变换(STFT)转换到频域时会产生复值输出,其中幅度代表振幅,相位包含重要的时序和空间信息
- 应用需求:在语音增强、声源定位、音频分类等任务中,相位信息对提升性能具有潜在价值
- 技术发展:CVCNNs在遥感、医学成像、通信系统等领域已显示出显著优势
- 传统CNN只处理幅度谱,完全忽略相位信息
- 缺乏有效的复值网络训练技术和理论框架
- 现有复值激活函数在训练稳定性方面存在挑战
通过扩展CNN到复值域,构建能够同时处理幅度和相位信息的神经网络架构,为音频信号处理提供更表达性和高效的表示方法。
- 理论框架建立:系统性地建立了CVCNNs的数学基础,包括复值卷积、池化、激活函数和批量归一化的完整理论体系
- 训练技术优化:提出了适用于复值网络的权重初始化策略和批量归一化方法,确保训练稳定性
- 激活函数改进:提出了smooth zReLU激活函数,解决了原始zReLU的不连续性问题
- 相位信息验证:通过GNN实验明确验证了相位信息在音频分类任务中的价值
- 综合性评估:在图像和音频两个领域进行了全面的实验验证,为CVCNNs的应用提供了实证支持
本文主要研究音频信号分类任务,特别是音乐流派分类。输入为音频信号的MFCC特征表示,输出为分类标签。核心挑战是如何在神经网络中有效利用音频信号的相位信息。
对于复值输入矩阵 X=A1+iB1 和复值卷积核 W=A2+iB2,复值卷积定义为:
W∗X=(A1∗A2−B1∗B2)+i(B1∗A2+A1∗B2)
这可以用矩阵形式表示为:
W∗X=(A1B1−B1A1)∗(A2B2−B2A2)
- 最大池化:基于复数幅度进行最大值选择,相应的相位通过幅度最大值的索引恢复
- 平均池化:分别对实部和虚部进行平均操作
论文详细比较了五种复值激活函数:
- CReLU: CReLU(z)=ReLU(Re(z))+iReLU(Im(z))
- modReLU: modReLU(z)=ReLU(∣z∣+b)⋅∣z∣z
- zReLU: 仅当实部和虚部都非负时返回原值
- smooth zReLU: z⋅σ(α⋅Re(z))⋅σ(α⋅Im(z))
- cardioid: g(z)=2z(1+cosϕz)
对复值向量 x 的标准化过程:
x~=V−1/2(x−E(x))
其中协方差矩阵:
V=(Cov(Re(x),Re(x))Cov(Im(x),Re(x))Cov(Re(x),Im(x))Cov(Im(x),Im(x)))+λI
- Wirtinger微积分应用:解决了非解析复值函数的梯度计算问题
- 相位感知的特征提取:设计了两种保留相位信息的MFCC提取流程
- 图神经网络集成:创新性地使用GNN的边权重来显式建模相位信息
- 激活函数优化:提出smooth zReLU解决训练不稳定问题
- 图像数据集:MNIST、Fashion-MNIST、Kuzushiji-MNIST
- 音频数据集:GTZAN音乐流派数据集(1000个30秒音频片段,10个流派)
- 标准实值CNN(基线)
- 不同配置的CVCNN(实值输入、复值输入等)
- 不同激活函数的CVCNN变体
- 使用PyTorch和complexPyTorch库
- Apple M2 Pro芯片上的CPU训练
- 梯度裁剪防止训练不稳定
- 5-10个epoch的训练周期
在MNIST、KMNIST和Fashion-MNIST上,CVCNNs在各种输入配置下都能达到与实值CNN相当的性能:
- MNIST: 测试准确率约99%
- KMNIST: 测试准确率约95%
- Fashion-MNIST: 测试准确率约90%
在二分类音乐流派任务上:
- 实值CNN基线:92.5%测试准确率
- CVCNN(实值MFCC):95.34%测试准确率(cardioid激活)
- CVCNN(复值MFCC):性能有所下降,显示当前架构的局限性
cardioid激活函数在所有实验中表现最佳:
- 在复值输入扰动下最稳定
- 在音频任务中达到最高准确率
- 训练过程最稳定
实验结果显示:
- cardioid:各种设置下都表现优秀,特别是在相位扰动下
- modReLU:在固定相位和虚部设置下不稳定,准确率大幅下降
- smooth zReLU:在无变换和噪声设置下表现良好
- CReLU:作为稳定的基线选择
通过GNN实验明确证明了相位信息的价值:
- 无相位信息的GNN(基线)
- 基于相位差的边权重GNN:在二分类和十分类任务中都显著优于基线
- 训练效率:CVCNNs的训练时间约为实值CNN的4-5倍
- 稳定性:适当的激活函数选择对训练稳定性至关重要
- 相位利用:当前架构在直接利用相位信息方面仍有限制
- 泛化能力:CVCNNs在复值扰动下展现出良好的鲁棒性
- 早期工作主要关注理论基础和基本架构
- 近年来在特定领域(如MRI重建、SAR图像处理)取得突破
- 传统方法主要基于幅度谱特征
- 相位感知方法开始受到关注,如Deep Complex U-Net
相比现有工作,本文提供了更系统的理论框架和更全面的实验验证,特别是在激活函数比较和相位信息价值验证方面。
- 架构可行性:CVCNNs在保持与实值CNN相当性能的同时,提供了处理复值信息的能力
- 相位信息价值:通过GNN实验明确证明了相位信息在音频分类中的判别价值
- 激活函数重要性:cardioid等相位感知激活函数显著优于传统选择
- 应用潜力:在适当的架构设计下,CVCNNs有望在音频处理任务中取得突破
- 计算开销:训练时间显著增加(4-5倍)
- 架构限制:当前设计在直接利用相位信息方面仍有不足
- 领域特异性:在某些任务中相位信息的价值可能有限
- 实现复杂性:需要专门的复值运算库支持
- 架构创新:设计专门的相位感知模块和注意力机制
- 训练优化:开发更高效的复值网络训练算法
- 应用扩展:探索在语音识别、声源定位等任务中的应用
- 理论深化:进一步理解复值表示的表达能力和学习动力学
- 理论完整性:提供了CVCNNs的完整数学框架,从基础运算到训练技术
- 实验全面性:跨领域(图像+音频)、多角度(不同激活函数、输入配置)的系统性评估
- 创新性验证:通过GNN巧妙地验证了相位信息的内在价值
- 实用指导:为CVCNNs的实际应用提供了具体的技术指导
- 性能提升有限:在某些任务中CVCNNs相比实值CNN的优势并不明显
- 计算效率:显著的计算开销可能限制实际应用
- 架构探索不足:主要使用标准CNN架构,缺乏针对复值特性的专门设计
- 数据集规模:实验主要在相对简单的数据集上进行
- 学术贡献:为复值神经网络研究提供了重要的理论和实验基础
- 实用价值:为音频信号处理领域引入了新的技术路径
- 可复现性:提供了完整的代码实现,便于后续研究
- 启发性:为相位感知深度学习的发展指明了方向
- 音频处理:音乐分析、语音增强、声学场景分类
- 信号处理:雷达信号处理、通信系统、生物医学信号分析
- 科学计算:涉及复值数据的物理仿真和数值计算
- 研究工具:作为探索相位信息价值的基础平台
论文引用了37篇重要文献,涵盖了复值神经网络理论、音频信号处理、深度学习优化等多个方面,为研究提供了坚实的理论基础和技术支撑。
总体评价:这是一篇系统性很强的研究论文,在复值神经网络的理论建构和实际应用之间架起了桥梁。虽然在某些方面的性能提升还不够显著,但为该领域的发展提供了重要的基础工作和研究方向。