2025-11-18T05:49:12.501691

Phase-Aware Deep Learning with Complex-Valued CNNs for Audio Signal Applications

Agrawal

This study explores the design and application of Complex-Valued Convolutional Neural Networks (CVCNNs) in audio signal processing, with a focus on preserving and utilizing phase information often neglected in real-valued networks. We begin by presenting the foundational theoretical concepts of CVCNNs, including complex convolutions, pooling layers, Wirtinger-based differentiation, and various complex-valued activation functions. These are complemented by critical adaptations of training techniques, including complex batch normalization and weight initialization schemes, to ensure stability in training dynamics. Empirical evaluations are conducted across three stages. First, CVCNNs are benchmarked on standard image datasets, where they demonstrate competitive performance with real-valued CNNs, even under synthetic complex perturbations. Although our focus is audio signal processing, we first evaluate CVCNNs on image datasets to establish baseline performance and validate training stability before applying them to audio tasks. In the second experiment, we focus on audio classification using Mel-Frequency Cepstral Coefficients (MFCCs). CVCNNs trained on real-valued MFCCs slightly outperform real CNNs, while preserving phase in input workflows highlights challenges in exploiting phase without architectural modifications. Finally, a third experiment introduces GNNs to model phase information via edge weighting, where the inclusion of phase yields measurable gains in both binary and multi-class genre classification. These results underscore the expressive capacity of complex-valued architectures and confirm phase as a meaningful and exploitable feature in audio processing applications. While current methods show promise, especially with activations like cardioid, future advances in phase-aware design will be essential to leverage the potential of complex representations in neural networks.

academic

जटिल-मूल्यवान CNNs के साथ चरण-जागरूक गहन शिक्षा: ऑडियो सिग्नल अनुप्रयोग

मूल जानकारी

पेपर ID: 2510.09926
शीर्षक: Phase-Aware Deep Learning with Complex-Valued CNNs for Audio Signal Applications
लेखक: Agrawal Naman (National University of Singapore)
वर्गीकरण: cs.LG cs.AI cs.SD
प्रकाशन तिथि: 25 अक्टूबर 10 (arXiv प्रीप्रिंट)
पेपर लिंक: https://arxiv.org/abs/2510.09926

सारांश

यह अनुसंधान ऑडियो सिग्नल प्रसंस्करण में जटिल-मूल्यवान कनवोल्यूशनल न्यूरल नेटवर्क (CVCNNs) के डिजाइन और अनुप्रयोग की खोज करता है, जिसमें पारंपरिक वास्तविक-मूल्यवान नेटवर्क में अनदेखे किए गए चरण (फेज) सूचना को संरक्षित और उपयोग करने पर ध्यान केंद्रित किया गया है। अनुसंधान पहले CVCNNs की सैद्धांतिक नींव स्थापित करता है, जिसमें जटिल-मूल्यवान कनवोल्यूशन, पूलिंग परतें, Wirtinger-आधारित अवकलन विधि और विभिन्न जटिल-मूल्यवान सक्रियण कार्य शामिल हैं, साथ ही जटिल-मूल्यवान बैच सामान्यीकरण और भार आरंभीकरण योजनाएं। प्रयोग तीन चरणों में विभाजित हैं: पहले मानक छवि डेटासेट पर CVCNNs के मूल प्रदर्शन को सत्यापित करना; दूसरा, मेल-फ्रीक्वेंसी सेप्स्ट्रल गुणांक (MFCCs) का उपयोग करके ऑडियो वर्गीकरण कार्यों में मूल्यांकन; अंत में, ग्राफ न्यूरल नेटवर्क (GNNs) को किनारे के भार के माध्यम से स्पष्ट रूप से चरण सूचना को मॉडल करने के लिए पेश करना। परिणाम दर्शाते हैं कि CVCNNs में मजबूत अभिव्यक्ति क्षमता है, और चरण सूचना वास्तव में ऑडियो प्रसंस्करण में एक सार्थक और उपयोगी विशेषता है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

पारंपरिक वास्तविक-मूल्यवान कनवोल्यूशनल न्यूरल नेटवर्क ऑडियो सिग्नल प्रसंस्करण में एक मौलिक दोष रखते हैं: वे स्वाभाविक रूप से चरण सूचना को त्याग देते हैं या अपर्याप्त रूप से उपयोग करते हैं, जबकि चरण सूचना कई सिग्नल प्रसंस्करण कार्यों में एक महत्वपूर्ण घटक है।

महत्व विश्लेषण

चरण सूचना का मूल्य: ऑडियो सिग्नल को अल्पकालीन फूरियर रूपांतरण (STFT) के माध्यम से आवृत्ति डोमेन में परिवर्तित करने पर जटिल-मूल्यवान आउटपुट उत्पन्न होता है, जहां परिमाण आयाम का प्रतिनिधित्व करता है और चरण महत्वपूर्ण अस्थायी और स्थानिक सूचना रखता है
अनुप्रयोग आवश्यकताएं: भाषण वृद्धि, ध्वनि स्रोत स्थानीयकरण, ऑडियो वर्गीकरण जैसे कार्यों में, चरण सूचना प्रदर्शन में सुधार के लिए संभावित मूल्य रखती है
तकनीकी विकास: CVCNNs ने दूरसंवेदन, चिकित्सा इमेजिंग, संचार प्रणाली जैसे क्षेत्रों में उल्लेखनीय लाभ प्रदर्शित किया है

मौजूदा विधियों की सीमाएं

पारंपरिक CNN केवल परिमाण स्पेक्ट्रम को संभालते हैं, चरण सूचना को पूरी तरह से अनदेखा करते हैं
प्रभावी जटिल-मूल्यवान नेटवर्क प्रशिक्षण तकनीकों और सैद्धांतिक ढांचे की कमी है
मौजूदा जटिल-मूल्यवान सक्रियण कार्य प्रशिक्षण स्थिरता के संदर्भ में चुनौतियां प्रस्तुत करते हैं

अनुसंधान प्रेरणा

CNN को जटिल-मूल्यवान डोमेन तक विस्तारित करके, परिमाण और चरण सूचना दोनों को संभालने में सक्षम न्यूरल नेटवर्क आर्किटेक्चर का निर्माण, ऑडियो सिग्नल प्रसंस्करण के लिए अधिक अभिव्यक्तिपूर्ण और कुशल प्रतिनिधित्व विधि प्रदान करना।

मुख्य योगदान

सैद्धांतिक ढांचा स्थापना: CVCNNs की गणितीय नींव को व्यवस्थित रूप से स्थापित करना, जिसमें जटिल-मूल्यवान कनवोल्यूशन, पूलिंग, सक्रियण कार्य और बैच सामान्यीकरण का संपूर्ण सैद्धांतिक प्रणाली शामिल है
प्रशिक्षण तकनीक अनुकूलन: जटिल-मूल्यवान नेटवर्क के लिए भार आरंभीकरण रणनीति और बैच सामान्यीकरण विधि प्रस्तावित करना, प्रशिक्षण स्थिरता सुनिश्चित करना
सक्रियण कार्य सुधार: smooth zReLU सक्रियण कार्य प्रस्तावित करना, मूल zReLU की असंतुलितता समस्या को हल करना
चरण सूचना सत्यापन: GNN प्रयोगों के माध्यम से ऑडियो वर्गीकरण कार्यों में चरण सूचना के मूल्य को स्पष्ट रूप से सत्यापित करना
व्यापक मूल्यांकन: छवि और ऑडियो दोनों क्षेत्रों में व्यापक प्रायोगिक सत्यापन, CVCNNs के अनुप्रयोग के लिए अनुभवजन्य समर्थन प्रदान करना

विधि विवरण

कार्य परिभाषा

यह पेपर मुख्य रूप से ऑडियो सिग्नल वर्गीकरण कार्य, विशेष रूप से संगीत शैली वर्गीकरण का अध्ययन करता है। इनपुट ऑडियो सिग्नल का MFCC विशेषता प्रतिनिधित्व है, आउटपुट वर्गीकरण लेबल है। मुख्य चुनौती यह है कि न्यूरल नेटवर्क में ऑडियो सिग्नल की चरण सूचना को प्रभावी ढंग से कैसे उपयोग किया जाए।

मॉडल आर्किटेक्चर

जटिल-मूल्यवान कनवोल्यूशन ऑपरेशन

जटिल-मूल्यवान इनपुट मैट्रिक्स $X = A_1 + iB_1$ और जटिल-मूल्यवान कनवोल्यूशन कर्नल $W = A_2 + iB_2$ के लिए, जटिल-मूल्यवान कनवोल्यूशन को इस प्रकार परिभाषित किया गया है:

$W * X = (A_1 * A_2 - B_1 * B_2) + i(B_1 * A_2 + A_1 * B_2)$

इसे मैट्रिक्स रूप में व्यक्त किया जा सकता है: $W * X = \begin{pmatrix} A_1 & -B_1 \\ B_1 & A_1 \end{pmatrix} * \begin{pmatrix} A_2 & -B_2 \\ B_2 & A_2 \end{pmatrix}$

जटिल-मूल्यवान पूलिंग परत

अधिकतम पूलिंग: जटिल संख्या के परिमाण के आधार पर अधिकतम मान का चयन, परिमाण अधिकतम मान के सूचकांक के माध्यम से संबंधित चरण को पुनः प्राप्त किया जाता है
औसत पूलिंग: वास्तविक और काल्पनिक भागों पर अलग से औसत ऑपरेशन

जटिल-मूल्यवान सक्रियण कार्य

पेपर पाँच जटिल-मूल्यवान सक्रियण कार्यों की विस्तार से तुलना करता है:

CReLU: $\text{CReLU}(z) = \text{ReLU}(\text{Re}(z)) + i\text{ReLU}(\text{Im}(z))$
modReLU: $\text{modReLU}(z) = \text{ReLU}(|z| + b) \cdot \frac{z}{|z|}$
zReLU: केवल तब मूल मान लौटाता है जब वास्तविक और काल्पनिक भाग दोनों गैर-नकारात्मक हों
smooth zReLU: $z \cdot \sigma(\alpha \cdot \text{Re}(z)) \cdot \sigma(\alpha \cdot \text{Im}(z))$
cardioid: $g(z) = \frac{z}{2}(1 + \cos \phi_z)$

जटिल-मूल्यवान बैच सामान्यीकरण

जटिल-मूल्यवान वेक्टर $x$ की मानकीकरण प्रक्रिया: $\tilde{x} = V^{-1/2}(x - E(x))$

जहां सहप्रसरण मैट्रिक्स: $V = \begin{pmatrix} \text{Cov}(\text{Re}(x), \text{Re}(x)) & \text{Cov}(\text{Re}(x), \text{Im}(x)) \\ \text{Cov}(\text{Im}(x), \text{Re}(x)) & \text{Cov}(\text{Im}(x), \text{Im}(x)) \end{pmatrix} + \lambda I$

तकनीकी नवाचार बिंदु

Wirtinger कलन का अनुप्रयोग: गैर-विश्लेषणात्मक जटिल-मूल्यवान कार्यों की ढाल गणना समस्या को हल करना
चरण-जागरूक विशेषता निष्कर्षण: चरण सूचना को संरक्षित करने वाली दो MFCC निष्कर्षण प्रक्रियाओं को डिजाइन करना
ग्राफ न्यूरल नेटवर्क एकीकरण: GNN के किनारे भार का उपयोग करके चरण सूचना को स्पष्ट रूप से मॉडल करने के लिए नवाचारी तरीका
सक्रियण कार्य अनुकूलन: प्रशिक्षण अस्थिरता समस्या को हल करने के लिए smooth zReLU प्रस्तावित करना

प्रायोगिक सेटअप

डेटासेट

छवि डेटासेट: MNIST, Fashion-MNIST, Kuzushiji-MNIST
ऑडियो डेटासेट: GTZAN संगीत शैली डेटासेट (1000 30-सेकंड ऑडियो क्लिप, 10 शैलियां)

मूल्यांकन मेट्रिक्स

प्रशिक्षण और परीक्षण सटीकता
प्रशिक्षण समय तुलना
अभिसरण विश्लेषण

तुलनात्मक विधियां

मानक वास्तविक-मूल्यवान CNN (आधारभूत)
विभिन्न कॉन्फ़िगरेशन के साथ CVCNN (वास्तविक-मूल्यवान इनपुट, जटिल-मूल्यवान इनपुट, आदि)
विभिन्न सक्रियण कार्यों के साथ CVCNN वेरिएंट

कार्यान्वयन विवरण

PyTorch और complexPyTorch लाइब्रेरी का उपयोग
Apple M2 Pro चिप पर CPU प्रशिक्षण
प्रशिक्षण अस्थिरता को रोकने के लिए ढाल क्लिपिंग
5-10 epoch की प्रशिक्षण अवधि

प्रायोगिक परिणाम

मुख्य परिणाम

छवि वर्गीकरण प्रयोग

MNIST, KMNIST और Fashion-MNIST पर, CVCNNs विभिन्न इनपुट कॉन्फ़िगरेशन के तहत वास्तविक-मूल्यवान CNN के समान प्रदर्शन प्राप्त कर सकते हैं:

MNIST: परीक्षण सटीकता लगभग 99%
KMNIST: परीक्षण सटीकता लगभग 95%
Fashion-MNIST: परीक्षण सटीकता लगभग 90%

ऑडियो वर्गीकरण प्रयोग

द्विआधारी संगीत शैली कार्य पर:

वास्तविक-मूल्यवान CNN आधारभूत: 92.5% परीक्षण सटीकता
CVCNN (वास्तविक-मूल्यवान MFCC): 95.34% परीक्षण सटीकता (cardioid सक्रियण)
CVCNN (जटिल-मूल्यवान MFCC): प्रदर्शन में कमी, वर्तमान आर्किटेक्चर की सीमाओं को दर्शाता है

सक्रियण कार्य तुलना

Cardioid सक्रियण कार्य सभी प्रयोगों में सर्वश्रेष्ठ प्रदर्शन करता है:

जटिल-मूल्यवान इनपुट विक्षोभ के तहत सबसे स्थिर
ऑडियो कार्यों में उच्चतम सटीकता प्राप्त करता है
सबसे स्थिर प्रशिक्षण प्रक्रिया

विलोपन प्रयोग

विभिन्न सक्रियण कार्यों का प्रभाव

प्रायोगिक परिणाम दर्शाते हैं:

cardioid: विभिन्न सेटिंग्स में उत्कृष्ट प्रदर्शन, विशेष रूप से चरण विक्षोभ के तहत
modReLU: निश्चित चरण और काल्पनिक भाग सेटिंग्स के तहत अस्थिर, सटीकता में भारी गिरावट
smooth zReLU: बिना परिवर्तन और शोर सेटिंग्स के तहत अच्छा प्रदर्शन
CReLU: स्थिर आधारभूत विकल्प के रूप में

चरण सूचना के मूल्य का सत्यापन

GNN प्रयोगों के माध्यम से स्पष्ट रूप से चरण सूचना के मूल्य को प्रमाणित किया गया:

चरण सूचना के बिना GNN (आधारभूत)
चरण अंतर पर आधारित किनारे भार GNN: द्विआधारी और दशआधारी वर्गीकरण कार्यों में आधारभूत से काफी बेहतर

प्रायोगिक निष्कर्ष

प्रशिक्षण दक्षता: CVCNNs का प्रशिक्षण समय वास्तविक-मूल्यवान CNN का लगभग 4-5 गुना है
स्थिरता: उपयुक्त सक्रियण कार्य का चयन प्रशिक्षण स्थिरता के लिए महत्वपूर्ण है
चरण उपयोग: वर्तमान आर्किटेक्चर चरण सूचना को सीधे उपयोग करने में अभी भी सीमित है
सामान्यीकरण क्षमता: CVCNNs जटिल-मूल्यवान विक्षोभ के तहत अच्छी मजबूती प्रदर्शित करते हैं

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

आर्किटेक्चर व्यवहार्यता: CVCNNs वास्तविक-मूल्यवान CNN के समान प्रदर्शन बनाए रखते हुए जटिल-मूल्यवान सूचना को संभालने की क्षमता प्रदान करते हैं
चरण सूचना मूल्य: GNN प्रयोगों के माध्यम से स्पष्ट रूप से प्रमाणित किया गया कि चरण सूचना ऑडियो वर्गीकरण में विभेदकारी मूल्य रखती है
सक्रियण कार्य महत्व: Cardioid जैसे चरण-जागरूक सक्रियण कार्य पारंपरिक विकल्पों से काफी बेहतर हैं
अनुप्रयोग क्षमता: उपयुक्त आर्किटेक्चर डिजाइन के तहत, CVCNNs ऑडियो प्रसंस्करण कार्यों में सफलता की संभावना रखते हैं

सीमाएं

कम्प्यूटेशनल ओवरहेड: प्रशिक्षण समय में उल्लेखनीय वृद्धि (4-5 गुना)
आर्किटेक्चर सीमाएं: वर्तमान डिजाइन चरण सूचना को सीधे उपयोग करने में अभी भी अपर्याप्त है
क्षेत्र विशिष्टता: कुछ कार्यों में चरण सूचना का मूल्य सीमित हो सकता है
कार्यान्वयन जटिलता: विशेष जटिल-मूल्यवान संचालन लाइब्रेरी समर्थन की आवश्यकता है

भविष्य की दिशाएं

आर्किटेक्चर नवाचार: विशेष चरण-जागरूक मॉड्यूल और ध्यान तंत्र डिजाइन करना
प्रशिक्षण अनुकूलन: अधिक कुशल जटिल-मूल्यवान नेटवर्क प्रशिक्षण एल्गोरिदम विकसित करना
अनुप्रयोग विस्तार: भाषण पहचान, ध्वनि स्रोत स्थानीयकरण जैसे कार्यों में अनुप्रयोग की खोज
सैद्धांतिक गहराई: जटिल-मूल्यवान प्रतिनिधित्व की अभिव्यक्ति क्षमता और शिक्षण गतिविज्ञान को आगे समझना

गहन मूल्यांकन

शक्तियां

सैद्धांतिक पूर्णता: CVCNNs के लिए संपूर्ण गणितीय ढांचा प्रदान करता है, मूल संचालन से प्रशिक्षण तकनीकों तक
प्रायोगिक व्यापकता: क्षेत्रों में (छवि + ऑडियो), कई कोणों से (विभिन्न सक्रियण कार्य, इनपुट कॉन्फ़िगरेशन) व्यवस्थित मूल्यांकन
नवाचार सत्यापन: GNN के माध्यम से चरण सूचना के आंतरिक मूल्य को सुंदरता से सत्यापित करना
व्यावहारिक मार्गदर्शन: CVCNNs के व्यावहारिक अनुप्रयोग के लिए विशिष्ट तकनीकी मार्गदर्शन प्रदान करता है

कमियां

सीमित प्रदर्शन सुधार: कुछ कार्यों में CVCNNs वास्तविक-मूल्यवान CNN की तुलना में स्पष्ट लाभ नहीं दिखाते हैं
कम्प्यूटेशनल दक्षता: महत्वपूर्ण कम्प्यूटेशनल ओवरहेड व्यावहारिक अनुप्रयोग को सीमित कर सकता है
अपर्याप्त आर्किटेक्चर अन्वेषण: मुख्य रूप से मानक CNN आर्किटेक्चर का उपयोग, जटिल-मूल्यवान विशेषताओं के लिए विशेष डिजाइन की कमी
डेटासेट स्केल: प्रयोग मुख्य रूप से अपेक्षाकृत सरल डेटासेट पर किए गए हैं

प्रभाव

शैक्षणिक योगदान: जटिल-मूल्यवान न्यूरल नेटवर्क अनुसंधान के लिए महत्वपूर्ण सैद्धांतिक और प्रायोगिक आधार प्रदान करता है
व्यावहारिक मूल्य: ऑडियो सिग्नल प्रसंस्करण क्षेत्र के लिए नई तकनीकी पथ प्रस्तुत करता है
पुनरुत्पादनीयता: संपूर्ण कोड कार्यान्वयन प्रदान करता है, बाद के अनुसंधान को सुविधाजनक बनाता है
प्रेरणा: चरण-जागरूक गहन शिक्षा के विकास के लिए दिशा निर्दिष्ट करता है

लागू परिदृश्य

ऑडियो प्रसंस्करण: संगीत विश्लेषण, भाषण वृद्धि, ध्वनिक दृश्य वर्गीकरण
सिग्नल प्रसंस्करण: रडार सिग्नल प्रसंस्करण, संचार प्रणाली, जैव-चिकित्सा सिग्नल विश्लेषण
वैज्ञानिक कम्प्यूटिंग: जटिल-मूल्यवान डेटा से संबंधित भौतिकी सिमुलेशन और संख्यात्मक गणना
अनुसंधान उपकरण: चरण सूचना मूल्य की खोज के लिए मूल मंच के रूप में

संदर्भ

पेपर 37 महत्वपूर्ण संदर्भों का हवाला देता है, जिसमें जटिल-मूल्यवान न्यूरल नेटवर्क सिद्धांत, ऑडियो सिग्नल प्रसंस्करण, गहन शिक्षा अनुकूलन जैसे कई पहलू शामिल हैं, जो अनुसंधान के लिए एक मजबूत सैद्धांतिक आधार और तकनीकी समर्थन प्रदान करते हैं।

समग्र मूल्यांकन: यह एक बहुत ही व्यवस्थित अनुसंधान पेपर है जो जटिल-मूल्यवान न्यूरल नेटवर्क के सिद्धांत निर्माण और व्यावहारिक अनुप्रयोग के बीच एक पुल बनाता है। हालांकि कुछ पहलुओं में प्रदर्शन सुधार पर्याप्त रूप से उल्लेखनीय नहीं है, लेकिन यह इस क्षेत्र के विकास के लिए महत्वपूर्ण मूल आधार कार्य और अनुसंधान दिशा प्रदान करता है।