2025-11-18T05:49:12.501691

Phase-Aware Deep Learning with Complex-Valued CNNs for Audio Signal Applications

Agrawal

This study explores the design and application of Complex-Valued Convolutional Neural Networks (CVCNNs) in audio signal processing, with a focus on preserving and utilizing phase information often neglected in real-valued networks. We begin by presenting the foundational theoretical concepts of CVCNNs, including complex convolutions, pooling layers, Wirtinger-based differentiation, and various complex-valued activation functions. These are complemented by critical adaptations of training techniques, including complex batch normalization and weight initialization schemes, to ensure stability in training dynamics. Empirical evaluations are conducted across three stages. First, CVCNNs are benchmarked on standard image datasets, where they demonstrate competitive performance with real-valued CNNs, even under synthetic complex perturbations. Although our focus is audio signal processing, we first evaluate CVCNNs on image datasets to establish baseline performance and validate training stability before applying them to audio tasks. In the second experiment, we focus on audio classification using Mel-Frequency Cepstral Coefficients (MFCCs). CVCNNs trained on real-valued MFCCs slightly outperform real CNNs, while preserving phase in input workflows highlights challenges in exploiting phase without architectural modifications. Finally, a third experiment introduces GNNs to model phase information via edge weighting, where the inclusion of phase yields measurable gains in both binary and multi-class genre classification. These results underscore the expressive capacity of complex-valued architectures and confirm phase as a meaningful and exploitable feature in audio processing applications. While current methods show promise, especially with activations like cardioid, future advances in phase-aware design will be essential to leverage the potential of complex representations in neural networks.

academic

음성 신호 응용을 위한 위상 인식 심층학습과 복소값 CNN

기본 정보

논문 ID: 2510.09926
제목: Phase-Aware Deep Learning with Complex-Valued CNNs for Audio Signal Applications
저자: Agrawal Naman (National University of Singapore)
분류: cs.LG cs.AI cs.SD
발표 시간: 2025년 10월 10일 (arXiv 사전인쇄본)
논문 링크: https://arxiv.org/abs/2510.09926

초록

본 연구는 음성 신호 처리에서 복소값 합성곱 신경망(CVCNN)의 설계 및 응용을 탐색하며, 전통적인 실수값 네트워크에서 간과된 위상 정보를 보존하고 활용하는 데 중점을 둡니다. 본 연구는 먼저 복소값 합성곱, 풀링 계층, Wirtinger 기반 미분법 및 다양한 복소값 활성화 함수를 포함한 CVCNN의 이론적 기초를 확립하며, 복소값 배치 정규화 및 가중치 초기화 방안 등 핵심 훈련 기술을 제공합니다. 실험은 세 단계로 구성됩니다: 먼저 표준 이미지 데이터셋에서 CVCNN의 기본 성능을 검증하고, 다음으로 멜 주파수 켑스트럼 계수(MFCC)를 사용한 음성 분류 작업에서 평가하며, 마지막으로 그래프 신경망(GNN)을 도입하여 간선 가중치를 통해 위상 정보를 명시적으로 모델링합니다. 결과는 CVCNN이 강력한 표현 능력을 가지며, 위상 정보가 음성 처리에서 실제로 의미 있고 활용 가능한 특징임을 보여줍니다.

연구 배경 및 동기

문제 정의

전통적인 실수값 합성곱 신경망은 음성 신호 처리에서 근본적인 결함을 가지고 있습니다: 이들은 본질적으로 위상 정보를 버리거나 충분히 활용하지 못하는데, 위상 정보는 많은 신호 처리 작업에서 매우 중요한 구성 요소입니다.

중요성 분석

위상 정보의 가치: 음성 신호가 단시간 푸리에 변환(STFT)을 통해 주파수 영역으로 변환될 때 복소값 출력이 생성되며, 여기서 진폭은 크기를 나타내고 위상은 중요한 시간 및 공간 정보를 포함합니다
응용 요구사항: 음성 향상, 음원 위치 결정, 음성 분류 등의 작업에서 위상 정보는 성능 향상에 잠재적 가치를 가집니다
기술 발전: CVCNN은 원격 감지, 의료 영상, 통신 시스템 등의 분야에서 이미 현저한 장점을 보여주었습니다

기존 방법의 한계

전통적인 CNN은 진폭 스펙트럼만 처리하며 위상 정보를 완전히 무시합니다
효과적인 복소값 네트워크 훈련 기술 및 이론적 프레임워크가 부족합니다
기존 복소값 활성화 함수는 훈련 안정성 측면에서 문제가 있습니다

연구 동기

CNN을 복소값 영역으로 확장하여 진폭과 위상 정보를 동시에 처리할 수 있는 신경망 아키텍처를 구축함으로써 음성 신호 처리를 위한 더욱 표현력 있고 효율적인 표현 방법을 제공합니다.

핵심 기여

이론적 프레임워크 수립: 복소값 합성곱, 풀링, 활성화 함수 및 배치 정규화의 완전한 이론 체계를 포함한 CVCNN의 수학적 기초를 체계적으로 수립합니다
훈련 기술 최적화: 복소값 네트워크에 적용 가능한 가중치 초기화 전략 및 배치 정규화 방법을 제안하여 훈련 안정성을 보장합니다
활성화 함수 개선: 원래 zReLU의 불연속성 문제를 해결하는 smooth zReLU 활성화 함수를 제안합니다
위상 정보 검증: GNN 실험을 통해 음성 분류 작업에서 위상 정보의 가치를 명확히 검증합니다
종합적 평가: 이미지 및 음성 두 영역에서 포괄적인 실험 검증을 수행하여 CVCNN의 응용에 실증적 지원을 제공합니다

방법 상세 설명

작업 정의

본 논문은 주로 음성 신호 분류 작업, 특히 음악 장르 분류를 연구합니다. 입력은 음성 신호의 MFCC 특징 표현이고, 출력은 분류 레이블입니다. 핵심 과제는 신경망에서 음성 신호의 위상 정보를 효과적으로 활용하는 방법입니다.

모델 아키텍처

복소값 합성곱 연산

복소값 입력 행렬 $X = A_1 + iB_1$ 과 복소값 합성곱 커널 $W = A_2 + iB_2$ 에 대해, 복소값 합성곱은 다음과 같이 정의됩니다:

$W * X = (A_1 * A_2 - B_1 * B_2) + i(B_1 * A_2 + A_1 * B_2)$

이는 행렬 형식으로 다음과 같이 표현될 수 있습니다: $W * X = \begin{pmatrix} A_1 & -B_1 \\ B_1 & A_1 \end{pmatrix} * \begin{pmatrix} A_2 & -B_2 \\ B_2 & A_2 \end{pmatrix}$

복소값 풀링 계층

최대 풀링: 복소수 크기에 기반한 최대값 선택, 해당 위상은 크기 최대값의 인덱스를 통해 복구됩니다
평균 풀링: 실부와 허부에 대해 각각 평균 연산을 수행합니다

복소값 활성화 함수

논문은 다섯 가지 복소값 활성화 함수를 자세히 비교합니다:

CReLU: $\text{CReLU}(z) = \text{ReLU}(\text{Re}(z)) + i\text{ReLU}(\text{Im}(z))$
modReLU: $\text{modReLU}(z) = \text{ReLU}(|z| + b) \cdot \frac{z}{|z|}$
zReLU: 실부와 허부가 모두 음이 아닐 때만 원래 값을 반환합니다
smooth zReLU: $z \cdot \sigma(\alpha \cdot \text{Re}(z)) \cdot \sigma(\alpha \cdot \text{Im}(z))$
cardioid: $g(z) = \frac{z}{2}(1 + \cos \phi_z)$

복소값 배치 정규화

복소값 벡터 $x$ 의 정규화 과정: $\tilde{x} = V^{-1/2}(x - E(x))$

여기서 공분산 행렬: $V = \begin{pmatrix} \text{Cov}(\text{Re}(x), \text{Re}(x)) & \text{Cov}(\text{Re}(x), \text{Im}(x)) \\ \text{Cov}(\text{Im}(x), \text{Re}(x)) & \text{Cov}(\text{Im}(x), \text{Im}(x)) \end{pmatrix} + \lambda I$