2025-11-18T05:49:12.501691

Phase-Aware Deep Learning with Complex-Valued CNNs for Audio Signal Applications

Agrawal

This study explores the design and application of Complex-Valued Convolutional Neural Networks (CVCNNs) in audio signal processing, with a focus on preserving and utilizing phase information often neglected in real-valued networks. We begin by presenting the foundational theoretical concepts of CVCNNs, including complex convolutions, pooling layers, Wirtinger-based differentiation, and various complex-valued activation functions. These are complemented by critical adaptations of training techniques, including complex batch normalization and weight initialization schemes, to ensure stability in training dynamics. Empirical evaluations are conducted across three stages. First, CVCNNs are benchmarked on standard image datasets, where they demonstrate competitive performance with real-valued CNNs, even under synthetic complex perturbations. Although our focus is audio signal processing, we first evaluate CVCNNs on image datasets to establish baseline performance and validate training stability before applying them to audio tasks. In the second experiment, we focus on audio classification using Mel-Frequency Cepstral Coefficients (MFCCs). CVCNNs trained on real-valued MFCCs slightly outperform real CNNs, while preserving phase in input workflows highlights challenges in exploiting phase without architectural modifications. Finally, a third experiment introduces GNNs to model phase information via edge weighting, where the inclusion of phase yields measurable gains in both binary and multi-class genre classification. These results underscore the expressive capacity of complex-valued architectures and confirm phase as a meaningful and exploitable feature in audio processing applications. While current methods show promise, especially with activations like cardioid, future advances in phase-aware design will be essential to leverage the potential of complex representations in neural networks.

academic

التعلم العميق الحساس للطور باستخدام شبكات CNN ذات القيم المعقدة لتطبيقات معالجة الإشارات الصوتية

المعلومات الأساسية

معرّف الورقة: 2510.09926
العنوان: Phase-Aware Deep Learning with Complex-Valued CNNs for Audio Signal Applications
المؤلف: Agrawal Naman (جامعة سنغافورة الوطنية)
التصنيف: cs.LG cs.AI cs.SD
تاريخ النشر: 10 أكتوبر 2025 (نسخة arXiv المسبقة)
رابط الورقة: https://arxiv.org/abs/2510.09926

الملخص

تستكشف هذه الدراسة تصميم وتطبيق الشبكات العصبية الالتفافية ذات القيم المعقدة (CVCNNs) في معالجة الإشارات الصوتية، مع التركيز على الحفاظ على واستخدام معلومات الطور التي يتم تجاهلها في الشبكات التقليدية ذات القيم الحقيقية. تؤسس الدراسة أولاً الأساس النظري للشبكات CVCNNs، بما في ذلك الالتفاف ذو القيم المعقدة، وطبقات التجميع، والتفاضل القائم على Wirtinger، ومختلف دوال التفعيل ذات القيم المعقدة، مع تقديم تقنيات تدريب رئيسية مثل تطبيع الدفعات ذو القيم المعقدة وتهيئة الأوزان. تنقسم التجارب إلى ثلاث مراحل: أولاً، التحقق من الأداء الأساسي للشبكات CVCNNs على مجموعات بيانات الصور القياسية؛ ثانياً، التقييم في مهام تصنيف الصوت باستخدام معاملات تردد ميل الطيفي (MFCCs)؛ وأخيراً، إدخال شبكات الرسم البياني العصبية (GNNs) لنمذجة معلومات الطور بشكل صريح من خلال أوزان الحواف. تُظهر النتائج أن الشبكات CVCNNs تتمتع بقدرة تعبيرية قوية، وأن معلومات الطور هي بالفعل ميزة ذات مغزى وقابلة للاستخدام في معالجة الصوت.

خلفية البحث والدافع

تعريف المشكلة

تعاني الشبكات العصبية الالتفافية التقليدية ذات القيم الحقيقية من عيب أساسي في معالجة الإشارات الصوتية: فهي تتجاهل بطبيعتها أو لا تستخدم معلومات الطور بشكل كافٍ، وهي جزء حاسم في العديد من مهام معالجة الإشارات.

تحليل الأهمية

قيمة معلومات الطور: عندما يتم تحويل الإشارات الصوتية إلى المجال الترددي باستخدام تحويل فورييه قصير الأجل (STFT)، ينتج عنه مخرجات ذات قيم معقدة، حيث يمثل الحجم السعة، وتحتوي الطور على معلومات زمنية وفضائية مهمة
احتياجات التطبيق: في مهام مثل تحسين الكلام، وتحديد موقع مصدر الصوت، وتصنيف الصوت، فإن معلومات الطور لها قيمة محتملة في تحسين الأداء
التطور التكنولوجي: أظهرت الشبكات CVCNNs مزايا كبيرة في مجالات مثل الاستشعار عن بعد والتصوير الطبي وأنظمة الاتصالات

قيود الطرق الموجودة

تعالج شبكات CNN التقليدية فقط طيف الحجم، وتتجاهل معلومات الطور تماماً
نقص الإطار النظري الفعال وتقنيات تدريب الشبكات ذات القيم المعقدة
تواجه دوال التفعيل ذات القيم المعقدة الحالية تحديات في استقرار التدريب

دافع البحث

من خلال توسيع شبكات CNN إلى المجال ذي القيم المعقدة، بناء معمارية شبكات عصبية قادرة على معالجة معلومات الحجم والطور معاً، وتوفير طرق تمثيل أكثر تعبيراً وكفاءة لمعالجة الإشارات الصوتية.

المساهمات الأساسية

بناء الإطار النظري: إنشاء الأساس الرياضي لشبكات CVCNNs بشكل منهجي، بما في ذلك نظام نظري كامل للالتفاف ذو القيم المعقدة والتجميع ودوال التفعيل وتطبيع الدفعات
تحسين تقنيات التدريب: اقتراح استراتيجيات تهيئة الأوزان وطرق تطبيع الدفعات المناسبة للشبكات ذات القيم المعقدة، مما يضمن استقرار التدريب
تحسين دوال التفعيل: اقتراح دالة التفعيل smooth zReLU، التي تحل مشكلة عدم الاستمرارية في zReLU الأصلي
التحقق من قيمة معلومات الطور: التحقق الصريح من قيمة معلومات الطور في مهام تصنيف الصوت من خلال تجارب GNN
التقييم الشامل: إجراء تقييم تجريبي شامل عبر مجالات الصور والصوت، مما يوفر دعماً تجريبياً لتطبيقات CVCNNs

شرح الطريقة

تعريف المهمة

يركز هذا البحث بشكل أساسي على مهام تصنيف الإشارات الصوتية، خاصة تصنيف أنواع الموسيقى. يكون الإدخال تمثيل ميزات MFCC لإشارة صوتية، والمخرجات هي تسميات التصنيف. التحدي الأساسي هو كيفية استخدام معلومات الطور في الإشارة الصوتية بشكل فعال في الشبكة العصبية.

معمارية النموذج

عملية الالتفاف ذات القيم المعقدة

بالنسبة لمصفوفة الإدخال ذات القيم المعقدة $X = A_1 + iB_1$ وقلب الالتفاف ذي القيم المعقدة $W = A_2 + iB_2$ ، يُعرّف الالتفاف ذو القيم المعقدة على النحو التالي:

$W * X = (A_1 * A_2 - B_1 * B_2) + i(B_1 * A_2 + A_1 * B_2)$

يمكن التعبير عن هذا في شكل مصفوفة على النحو التالي: $W * X = \begin{pmatrix} A_1 & -B_1 \\ B_1 & A_1 \end{pmatrix} * \begin{pmatrix} A_2 & -B_2 \\ B_2 & A_2 \end{pmatrix}$

طبقات التجميع ذات القيم المعقدة

التجميع الأقصى: اختيار القيمة القصوى بناءً على حجم العدد المعقد، واستعادة الطور المقابل من خلال فهرس الحجم الأقصى
التجميع المتوسط: إجراء عمليات متوسطة منفصلة على الأجزاء الحقيقية والخيالية

دوال التفعيل ذات القيم المعقدة

تقارن الورقة بالتفصيل خمس دوال تفعيل ذات قيم معقدة:

CReLU: $\text{CReLU}(z) = \text{ReLU}(\text{Re}(z)) + i\text{ReLU}(\text{Im}(z))$
modReLU: $\text{modReLU}(z) = \text{ReLU}(|z| + b) \cdot \frac{z}{|z|}$
zReLU: إرجاع القيمة الأصلية فقط عندما تكون الأجزاء الحقيقية والخيالية موجبة
smooth zReLU: $z \cdot \sigma(\alpha \cdot \text{Re}(z)) \cdot \sigma(\alpha \cdot \text{Im}(z))$
cardioid: $g(z) = \frac{z}{2}(1 + \cos \phi_z)$

تطبيع الدفعات ذات القيم المعقدة

عملية التطبيع للمتجه ذي القيم المعقدة $x$ : $\tilde{x} = V^{-1/2}(x - E(x))$

حيث مصفوفة التغاير: $V = \begin{pmatrix} \text{Cov}(\text{Re}(x), \text{Re}(x)) & \text{Cov}(\text{Re}(x), \text{Im}(x)) \\ \text{Cov}(\text{Im}(x), \text{Re}(x)) & \text{Cov}(\text{Im}(x), \text{Im}(x)) \end{pmatrix} + \lambda I$

نقاط الابتكار التقني

تطبيق حساب Wirtinger: حل مشكلة حساب التدرج للدوال ذات القيم المعقدة غير التحليلية
استخراج الميزات الحساسة للطور: تصميم عمليتي استخراج MFCC تحافظان على معلومات الطور
دمج شبكات الرسم البياني العصبية: استخدام مبتكر لأوزان حواف GNN لنمذجة معلومات الطور بشكل صريح
تحسين دوال التفعيل: اقتراح smooth zReLU لحل مشاكل عدم استقرار التدريب

إعداد التجارب

مجموعات البيانات

مجموعات بيانات الصور: MNIST و Fashion-MNIST و Kuzushiji-MNIST
مجموعات بيانات الصوت: مجموعة بيانات GTZAN لأنواع الموسيقى (1000 مقطع صوتي مدة 30 ثانية، 10 أنواع)

مؤشرات التقييم

دقة التدريب والاختبار
مقارنة وقت التدريب
تحليل التقارب

طرق المقارنة

شبكة CNN قياسية ذات قيم حقيقية (الخط الأساسي)
شبكات CVCNN بتكوينات مختلفة (إدخال ذو قيم حقيقية، إدخال ذو قيم معقدة، إلخ)
متغيرات CVCNN بدوال تفعيل مختلفة

تفاصيل التنفيذ

استخدام مكتبات PyTorch و complexPyTorch
تدريب وحدة المعالجة المركزية على شريحة Apple M2 Pro
قص التدرج لمنع عدم استقرار التدريب
دورات تدريب من 5 إلى 10 حقب

نتائج التجارب

النتائج الرئيسية

تجارب تصنيف الصور

على مجموعات بيانات MNIST و KMNIST و Fashion-MNIST، تحقق الشبكات CVCNNs أداءً مماثلاً لشبكات CNN ذات القيم الحقيقية في مختلف تكوينات الإدخال:

MNIST: دقة اختبار حوالي 99%
KMNIST: دقة اختبار حوالي 95%
Fashion-MNIST: دقة اختبار حوالي 90%

تجارب تصنيف الصوت

في مهمة التصنيف الثنائي لأنواع الموسيقى:

خط أساس CNN ذو قيم حقيقية: دقة اختبار 92.5%
CVCNN (MFCC ذو قيم حقيقية): دقة اختبار 95.34% (تفعيل cardioid)
CVCNN (MFCC ذو قيم معقدة): انخفاض في الأداء، يظهر قيود المعمارية الحالية

مقارنة دوال التفعيل

أظهرت دالة التفعيل cardioid أفضل أداء في جميع التجارب:

الأكثر استقراراً تحت الاضطرابات ذات القيم المعقدة
تحقق أعلى دقة في مهام الصوت
عملية التدريب الأكثر استقراراً

تجارب الاستئصال

تأثير دوال التفعيل المختلفة

تُظهر نتائج التجارب:

cardioid: أداء ممتازة في جميع الإعدادات، خاصة تحت اضطرابات الطور
modReLU: عدم استقرار في الإعدادات ذات الطور الثابت والجزء الخيالي، انخفاض كبير في الدقة
smooth zReLU: أداء جيدة في الإعدادات بدون تحويل والإعدادات الضوضائية
CReLU: كخيار خط أساسي مستقر

التحقق من قيمة معلومات الطور

أثبتت تجارب GNN بوضوح قيمة معلومات الطور:

GNN بدون معلومات الطور (الخط الأساسي)
GNN بأوزان حواف قائمة على فرق الطور: تفوق كبير على الخط الأساسي في مهام التصنيف الثنائي والعشري

اكتشافات التجارب

كفاءة التدريب: وقت تدريب الشبكات CVCNNs حوالي 4-5 مرات أطول من شبكات CNN ذات القيم الحقيقية
الاستقرار: اختيار دالة التفعيل المناسبة حاسم لاستقرار التدريب
استخدام الطور: المعمارية الحالية لا تزال محدودة في الاستفادة المباشرة من معلومات الطور
القدرة على التعميم: تُظهر الشبكات CVCNNs قوة جيدة تحت الاضطرابات ذات القيم المعقدة

الأعمال ذات الصلة

تطور الشبكات العصبية ذات القيم المعقدة

ركزت الأعمال المبكرة بشكل أساسي على الأساس النظري والمعمارية الأساسية
حققت الأعمال الحديثة اختراقات في مجالات محددة (مثل إعادة بناء التصوير بالرنين المغناطيسي ومعالجة صور الفتحة الاصطناعية)

التعلم العميق في معالجة الإشارات الصوتية

تركزت الطرق التقليدية بشكل أساسي على ميزات طيف الحجم
بدأت الطرق الحساسة للطور تحظى باهتمام، مثل Deep Complex U-Net

مزايا هذا البحث

بالمقارنة مع الأعمال الموجودة، يوفر هذا البحث إطاراً نظرياً أكثر منهجية وتحققاً تجريبياً أكثر شمولاً، خاصة في مقارنة دوال التفعيل والتحقق من قيمة معلومات الطور.

الخلاصة والمناقشة

الاستنتاجات الرئيسية

جدوى المعمارية: تحافظ الشبكات CVCNNs على أداء مماثلة لشبكات CNN ذات القيم الحقيقية مع توفير القدرة على معالجة المعلومات ذات القيم المعقدة
قيمة معلومات الطور: أثبتت تجارب GNN بوضوح القيمة التمييزية لمعلومات الطور في تصنيف الصوت
أهمية دوال التفعيل: تتفوق دوال التفعيل الحساسة للطور مثل cardioid بشكل كبير على الخيارات التقليدية
الإمكانات التطبيقية: مع التصميم المعماري المناسب، من المتوقع أن تحقق الشبكات CVCNNs اختراقات في مهام معالجة الصوت

القيود

التكلفة الحسابية: زيادة كبيرة في وقت التدريب (4-5 مرات)
قيود المعمارية: التصميم الحالي لا يزال غير كافٍ في الاستفادة المباشرة من معلومات الطور
الخصوصية المجالية: قد تكون قيمة معلومات الطور محدودة في بعض المهام
تعقيد التنفيذ: يتطلب مكتبات حسابية معقدة متخصصة

الاتجاهات المستقبلية

الابتكار المعماري: تصميم وحدات حساسة للطور متخصصة وآليات الانتباه
تحسين التدريب: تطوير خوارزميات تدريب أكثر كفاءة للشبكات ذات القيم المعقدة
توسيع التطبيقات: استكشاف التطبيقات في مهام مثل التعرف على الكلام وتحديد موقع مصدر الصوت
تعميق النظرية: فهم أعمق لقدرة التعبير والديناميكيات التعليمية للتمثيل ذي القيم المعقدة

التقييم المتعمق

المزايا

اكتمال النظرية: توفير إطار رياضي كامل للشبكات CVCNNs، من العمليات الأساسية إلى تقنيات التدريب
شمول التجارب: تقييم منهجي عبر المجالات (الصور + الصوت) ومن زوايا متعددة (دوال تفعيل مختلفة وتكوينات إدخال)
التحقق من الابتكار: التحقق الذكي من القيمة الجوهرية لمعلومات الطور من خلال تجارب GNN
التوجيه العملي: توفير إرشادات تقنية محددة لتطبيقات CVCNNs العملية

أوجه القصور

تحسن الأداء المحدود: في بعض المهام، لا تتفوق الشبكات CVCNNs بشكل واضح على شبكات CNN ذات القيم الحقيقية
كفاءة الحساب: قد تحد التكلفة الحسابية الكبيرة من التطبيقات العملية
استكشاف المعمارية غير الكافي: استخدام معمارية CNN قياسية بشكل أساسي، مع نقص التصاميم المتخصصة للخصائص ذات القيم المعقدة
حجم مجموعة البيانات: تركز التجارب بشكل أساسي على مجموعات بيانات نسبياً بسيطة

التأثير

المساهمة الأكاديمية: توفير أساس نظري وتجريبي مهم لأبحاث الشبكات العصبية ذات القيم المعقدة
القيمة العملية: إدخال مسار تقني جديد لمجال معالجة الإشارات الصوتية
قابلية التكرار: توفير تنفيذ كود كامل، مما يسهل الأبحاث اللاحقة
الإلهام: توجيه تطور التعلم العميق الحساس للطور

السيناريوهات المناسبة

معالجة الصوت: تحليل الموسيقى وتحسين الكلام وتصنيف المشهد الصوتي
معالجة الإشارات: معالجة إشارات الرادار وأنظمة الاتصالات وتحليل الإشارات الحيوية الطبية
الحسابات العلمية: المحاكاة الفيزيائية والحسابات العددية التي تتضمن بيانات ذات قيم معقدة
أدوات البحث: منصة أساسية لاستكشاف قيمة معلومات الطور

المراجع

تستشهد الورقة بـ 37 مرجعاً مهماً، تغطي نظرية الشبكات العصبية ذات القيم المعقدة ومعالجة الإشارات الصوتية وتحسين التعلم العميق وغيرها من المجالات، مما يوفر أساساً نظرياً وتقنياً متيناً للبحث.

التقييم الإجمالي: هذه ورقة بحثية قوية جداً من حيث المنهجية، حيث تربط بين النظرية والتطبيق العملي للشبكات العصبية ذات القيم المعقدة. على الرغم من أن تحسن الأداء في بعض الجوانب لا يزال غير كافٍ، إلا أنها توفر عملاً أساسياً مهماً واتجاهات بحثية لتطور هذا المجال.