This study explores the design and application of Complex-Valued Convolutional Neural Networks (CVCNNs) in audio signal processing, with a focus on preserving and utilizing phase information often neglected in real-valued networks. We begin by presenting the foundational theoretical concepts of CVCNNs, including complex convolutions, pooling layers, Wirtinger-based differentiation, and various complex-valued activation functions. These are complemented by critical adaptations of training techniques, including complex batch normalization and weight initialization schemes, to ensure stability in training dynamics. Empirical evaluations are conducted across three stages. First, CVCNNs are benchmarked on standard image datasets, where they demonstrate competitive performance with real-valued CNNs, even under synthetic complex perturbations. Although our focus is audio signal processing, we first evaluate CVCNNs on image datasets to establish baseline performance and validate training stability before applying them to audio tasks. In the second experiment, we focus on audio classification using Mel-Frequency Cepstral Coefficients (MFCCs). CVCNNs trained on real-valued MFCCs slightly outperform real CNNs, while preserving phase in input workflows highlights challenges in exploiting phase without architectural modifications. Finally, a third experiment introduces GNNs to model phase information via edge weighting, where the inclusion of phase yields measurable gains in both binary and multi-class genre classification. These results underscore the expressive capacity of complex-valued architectures and confirm phase as a meaningful and exploitable feature in audio processing applications. While current methods show promise, especially with activations like cardioid, future advances in phase-aware design will be essential to leverage the potential of complex representations in neural networks.
- পেপার আইডি: 2510.09926
- শিরোনাম: Phase-Aware Deep Learning with Complex-Valued CNNs for Audio Signal Applications
- লেখক: Agrawal Naman (National University of Singapore)
- শ্রেণীবিভাগ: cs.LG cs.AI cs.SD
- প্রকাশনার সময়: ২০২৫ সালের ১০ অক্টোবর (arXiv প্রি-প্রিন্ট)
- পেপার লিংক: https://arxiv.org/abs/2510.09926
এই গবেষণা অডিও সিগন্যাল প্রক্রিয়াকরণে জটিল-মূল্যবান কনভোলিউশনাল নিউরাল নেটওয়ার্ক (CVCNN) এর ডিজাইন এবং প্রয়োগ অন্বেষণ করে, যা ঐতিহ্যবাহী বাস্তব-মূল্যবান নেটওয়ার্কে উপেক্ষা করা ফেজ তথ্য সংরক্ষণ এবং ব্যবহারের উপর দৃষ্টি নিবদ্ধ করে। গবেষণা প্রথমে CVCNN এর তাত্ত্বিক ভিত্তি স্থাপন করে, যার মধ্যে রয়েছে জটিল-মূল্যবান কনভোলিউশন, পুলিং স্তর, Wirtinger-ভিত্তিক পার্থক্য এবং বিভিন্ন জটিল-মূল্যবান সক্রিয়করণ ফাংশন, সাথে জটিল-মূল্যবান ব্যাচ নর্মালাইজেশন এবং ওজন আরম্ভকরণ স্কিম। পরীক্ষা তিনটি পর্যায়ে বিভক্ত: প্রথমে মান চিত্র ডেটাসেটে CVCNN এর মৌলিক কর্মক্ষমতা যাচাই; দ্বিতীয়ত মেল ফ্রিকোয়েন্সি সেপস্ট্রাল কোএফিশিয়েন্ট (MFCC) ব্যবহার করে অডিও শ্রেণীবিভাগ কাজে মূল্যায়ন; অবশেষে গ্রাফ নিউরাল নেটওয়ার্ক (GNN) প্রবর্তন করে প্রান্ত ওজনের মাধ্যমে স্পষ্টভাবে ফেজ তথ্য মডেল করা। ফলাফল দেখায় যে CVCNN শক্তিশালী প্রকাশনীয় ক্ষমতা রাখে এবং ফেজ তথ্য অডিও প্রক্রিয়াকরণে অর্থপূর্ণ এবং ব্যবহারযোগ্য বৈশিষ্ট্য।
ঐতিহ্যবাহী বাস্তব-মূল্যবান কনভোলিউশনাল নিউরাল নেটওয়ার্ক অডিও সিগন্যাল প্রক্রিয়াকরণে একটি মৌলিক ত্রুটি রয়েছে: তারা স্বাভাবিকভাবেই ফেজ তথ্য বর্জন করে বা অপর্যাপ্তভাবে ব্যবহার করে, যখন ফেজ তথ্য অনেক সিগন্যাল প্রক্রিয়াকরণ কাজে অত্যন্ত গুরুত্বপূর্ণ।
- ফেজ তথ্যের মূল্য: অডিও সিগন্যাল স্বল্পমেয়াদী ফুরিয়ার রূপান্তর (STFT) এর মাধ্যমে ফ্রিকোয়েন্সি ডোমেনে রূপান্তরিত হলে জটিল-মূল্যবান আউটপুট তৈরি হয়, যেখানে প্রশস্ততা কম্পন প্রতিনিধিত্ব করে এবং ফেজ গুরুত্বপূর্ণ সময়গত এবং স্থানিক তথ্য ধারণ করে
- প্রয়োগের চাহিদা: বক্তৃতা উন্নতি, শব্দ উৎস স্থানীয়করণ, অডিও শ্রেণীবিভাগ ইত্যাদি কাজে ফেজ তথ্য কর্মক্ষমতা উন্নত করার সম্ভাবনা রয়েছে
- প্রযুক্তিগত উন্নয়ন: CVCNN দূরসংবেদন, চিকিৎসা চিত্র, যোগাযোগ ব্যবস্থা এবং অন্যান্য ক্ষেত্রে উল্লেখযোগ্য সুবিধা প্রদর্শন করেছে
- ঐতিহ্যবাহী CNN শুধুমাত্র প্রশস্ততা বর্ণালী প্রক্রিয়া করে, সম্পূর্ণভাবে ফেজ তথ্য উপেক্ষা করে
- কার্যকর জটিল-মূল্যবান নেটওয়ার্ক প্রশিক্ষণ কৌশল এবং তাত্ত্বিক কাঠামোর অভাব
- বিদ্যমান জটিল-মূল্যবান সক্রিয়করণ ফাংশন প্রশিক্ষণ স্থিতিশীলতার দিক থেকে চ্যালেঞ্জ মোকাবেলা করে
CNN কে জটিল-মূল্যবান ডোমেনে প্রসারিত করে, প্রশস্ততা এবং ফেজ তথ্য উভয়ই একযোগে প্রক্রিয়া করতে পারে এমন নিউরাল নেটওয়ার্ক আর্কিটেকচার তৈরি করা, অডিও সিগন্যাল প্রক্রিয়াকরণের জন্য আরও প্রকাশনীয় এবং দক্ষ প্রতিনিধিত্ব পদ্ধতি প্রদান করা।
- তাত্ত্বিক কাঠামো প্রতিষ্ঠা: CVCNN এর গণিত ভিত্তি সিস্টেমেটিকভাবে প্রতিষ্ঠা করা, যার মধ্যে জটিল-মূল্যবান কনভোলিউশন, পুলিং, সক্রিয়করণ ফাংশন এবং ব্যাচ নর্মালাইজেশনের সম্পূর্ণ তাত্ত্বিক ব্যবস্থা অন্তর্ভুক্ত
- প্রশিক্ষণ কৌশল অপ্টিমাইজেশন: জটিল-মূল্যবান নেটওয়ার্কের জন্য প্রযোজ্য ওজন আরম্ভকরণ কৌশল এবং ব্যাচ নর্মালাইজেশন পদ্ধতি প্রস্তাব করা, প্রশিক্ষণ স্থিতিশীলতা নিশ্চিত করা
- সক্রিয়করণ ফাংশন উন্নতি: মসৃণ zReLU সক্রিয়করণ ফাংশন প্রস্তাব করা, মূল zReLU এর অসংযুক্ততা সমস্যা সমাধান করা
- ফেজ তথ্য যাচাইকরণ: GNN পরীক্ষার মাধ্যমে স্পষ্টভাবে অডিও শ্রেণীবিভাগ কাজে ফেজ তথ্যের মূল্য যাচাই করা
- ব্যাপক মূল্যায়ন: চিত্র এবং অডিও উভয় ক্ষেত্রে সম্পূর্ণ পরীক্ষামূলক যাচাইকরণ পরিচালনা করা, CVCNN এর প্রয়োগের জন্য অভিজ্ঞতামূলক সমর্থন প্রদান করা
এই পেপার প্রধানত অডিও সিগন্যাল শ্রেণীবিভাগ কাজ, বিশেষত সঙ্গীত ঘরানা শ্রেণীবিভাগ অধ্যয়ন করে। ইনপুট হল অডিও সিগন্যালের MFCC বৈশিষ্ট্য প্রতিনিধিত্ব, আউটপুট হল শ্রেণীবিভাগ লেবেল। মূল চ্যালেঞ্জ হল নিউরাল নেটওয়ার্কে অডিও সিগন্যালের ফেজ তথ্য কার্যকরভাবে কীভাবে ব্যবহার করা যায়।
জটিল-মূল্যবান ইনপুট ম্যাট্রিক্স X=A1+iB1 এবং জটিল-মূল্যবান কনভোলিউশন কার্নেল W=A2+iB2 এর জন্য, জটিল-মূল্যবান কনভোলিউশন সংজ্ঞায়িত করা হয়:
W∗X=(A1∗A2−B1∗B2)+i(B1∗A2+A1∗B2)
এটি ম্যাট্রিক্স ফর্মে প্রকাশ করা যায়:
W∗X=(A1B1−B1A1)∗(A2B2−B2A2)
- সর্বোচ্চ পুলিং: জটিল সংখ্যার প্রশস্ততার উপর ভিত্তি করে সর্বোচ্চ মান নির্বাচন, সংশ্লিষ্ট ফেজ প্রশস্ততা সর্বোচ্চ মানের সূচক দ্বারা পুনরুদ্ধার করা হয়
- গড় পুলিং: বাস্তব এবং কল্পনা অংশে আলাদাভাবে গড় অপারেশন সম্পাদন করা
পেপার পাঁচটি জটিল-মূল্যবান সক্রিয়করণ ফাংশন বিস্তারিতভাবে তুলনা করে:
- CReLU: CReLU(z)=ReLU(Re(z))+iReLU(Im(z))
- modReLU: modReLU(z)=ReLU(∣z∣+b)⋅∣z∣z
- zReLU: শুধুমাত্র যখন বাস্তব এবং কল্পনা অংশ উভয়ই অ-নেতিবাচক হয় তখন মূল মান ফেরত দেয়
- মসৃণ zReLU: z⋅σ(α⋅Re(z))⋅σ(α⋅Im(z))
- cardioid: g(z)=2z(1+cosϕz)
জটিল-মূল্যবান ভেক্টর x এর স্ট্যান্ডার্ডাইজেশন প্রক্রিয়া:
x~=V−1/2(x−E(x))
যেখানে সহভেদ ম্যাট্রিক্স:
V=(Cov(Re(x),Re(x))Cov(Im(x),Re(x))Cov(Re(x),Im(x))Cov(Im(x),Im(x)))+λI
- Wirtinger ক্যালকুলাস প্রয়োগ: অ-বিশ্লেষণাত্মক জটিল-মূল্যবান ফাংশনের গ্রেডিয়েন্ট গণনা সমস্যা সমাধান করা
- ফেজ-সচেতন বৈশিষ্ট্য নিষ্কাশন: ফেজ তথ্য সংরক্ষণকারী দুটি MFCC নিষ্কাশন প্রবাহ ডিজাইন করা
- গ্রাফ নিউরাল নেটওয়ার্ক একীকরণ: GNN এর প্রান্ত ওজন ব্যবহার করে স্পষ্টভাবে ফেজ তথ্য মডেল করার জন্য উদ্ভাবনী পদ্ধতি
- সক্রিয়করণ ফাংশন অপ্টিমাইজেশন: প্রশিক্ষণ অস্থিরতা সমস্যা সমাধানের জন্য মসৃণ zReLU প্রস্তাব করা
- চিত্র ডেটাসেট: MNIST, Fashion-MNIST, Kuzushiji-MNIST
- অডিও ডেটাসেট: GTZAN সঙ্গীত ঘরানা ডেটাসেট (১০০০টি ৩০ সেকেন্ডের অডিও ক্লিপ, ১০টি ঘরানা)
- প্রশিক্ষণ এবং পরীক্ষার নির্ভুলতা
- প্রশিক্ষণ সময় তুলনা
- সংযোগ বিশ্লেষণ
- মান বাস্তব-মূল্যবান CNN (বেসলাইন)
- বিভিন্ন কনফিগারেশনের CVCNN (বাস্তব-মূল্যবান ইনপুট, জটিল-মূল্যবান ইনপুট ইত্যাদি)
- বিভিন্ন সক্রিয়করণ ফাংশনের CVCNN ভেরিয়েন্ট
- PyTorch এবং complexPyTorch লাইব্রেরি ব্যবহার করা
- Apple M2 Pro চিপে CPU প্রশিক্ষণ
- প্রশিক্ষণ অস্থিরতা প্রতিরোধের জন্য গ্রেডিয়েন্ট ক্লিপিং
- ৫-১০টি epoch এর প্রশিক্ষণ চক্র
MNIST, KMNIST এবং Fashion-MNIST এ, CVCNN বিভিন্ন ইনপুট কনফিগারেশনে বাস্তব-মূল্যবান CNN এর সমতুল্য কর্মক্ষমতা অর্জন করে:
- MNIST: পরীক্ষার নির্ভুলতা প্রায় ৯৯%
- KMNIST: পরীক্ষার নির্ভুলতা প্রায় ৯৫%
- Fashion-MNIST: পরীক্ষার নির্ভুলতা প্রায় ৯০%
দ্বিমুখী সঙ্গীত ঘরানা কাজে:
- বাস্তব-মূল্যবান CNN বেসলাইন: ৯২.৫% পরীক্ষার নির্ভুলতা
- CVCNN (বাস্তব-মূল্যবান MFCC): ৯৫.৩৪% পরীক্ষার নির্ভুলতা (cardioid সক্রিয়করণ)
- CVCNN (জটিল-মূল্যবান MFCC): কর্মক্ষমতা হ্রাস, বর্তমান আর্কিটেকচারের সীমাবদ্ধতা প্রদর্শন করে
Cardioid সক্রিয়করণ ফাংশন সমস্ত পরীক্ষায় সেরা কর্মক্ষমতা প্রদর্শন করে:
- সমস্ত বাস্তব-মূল্যবান ইনপুট বিঘ্নে সবচেয়ে স্থিতিশীল
- অডিও কাজে সর্বোচ্চ নির্ভুলতা অর্জন করে
- সবচেয়ে স্থিতিশীল প্রশিক্ষণ প্রক্রিয়া
পরীক্ষার ফলাফল দেখায়:
- Cardioid: সমস্ত সেটিংসে চমৎকার কর্মক্ষমতা, বিশেষত ফেজ বিঘ্নে
- modReLU: স্থির ফেজ এবং কল্পনা অংশ সেটিংসে অস্থিতিশীল, নির্ভুলতা উল্লেখযোগ্যভাবে হ্রাস পায়
- মসৃণ zReLU: কোন রূপান্তর এবং শব্দ সেটিংসে ভাল কর্মক্ষমতা
- CReLU: স্থিতিশীল বেসলাইন পছন্দ হিসাবে
GNN পরীক্ষার মাধ্যমে স্পষ্টভাবে ফেজ তথ্যের মূল্য প্রমাণিত হয়েছে:
- ফেজ তথ্য ছাড়া GNN (বেসলাইন)
- ফেজ পার্থক্য-ভিত্তিক প্রান্ত ওজন GNN: দ্বিমুখী এবং দশমুখী শ্রেণীবিভাগ কাজ উভয়েই বেসলাইনকে উল্লেখযোগ্যভাবে অতিক্রম করে
- প্রশিক্ষণ দক্ষতা: CVCNN এর প্রশিক্ষণ সময় বাস্তব-মূল্যবান CNN এর ৪-৫ গুণ
- স্থিতিশীলতা: উপযুক্ত সক্রিয়করণ ফাংশন নির্বাচন প্রশিক্ষণ স্থিতিশীলতার জন্য অত্যন্ত গুরুত্বপূর্ণ
- ফেজ ব্যবহার: বর্তমান আর্কিটেকচার সরাসরি ফেজ তথ্য ব্যবহারে এখনও সীমিত
- সাধারণীকরণ ক্ষমতা: CVCNN জটিল-মূল্যবান বিঘ্নে ভাল শক্তিশালীতা প্রদর্শন করে
- প্রাথমিক কাজ প্রধানত তাত্ত্বিক ভিত্তি এবং মৌলিক আর্কিটেকচারে মনোনিবেশ করে
- সাম্প্রতিক বছরগুলিতে নির্দিষ্ট ক্ষেত্রে (যেমন MRI পুনর্নির্মাণ, SAR চিত্র প্রক্রিয়াকরণ) অগ্রগতি অর্জন করেছে
- ঐতিহ্যবাহী পদ্ধতি প্রধানত প্রশস্ততা বর্ণালী বৈশিষ্ট্যের উপর ভিত্তি করে
- ফেজ-সচেতন পদ্ধতি মনোযোগ আকর্ষণ করতে শুরু করেছে, যেমন Deep Complex U-Net
বিদ্যমান কাজের তুলনায়, এই পেপার আরও সিস্টেমেটিক তাত্ত্বিক কাঠামো এবং আরও ব্যাপক পরীক্ষামূলক যাচাইকরণ প্রদান করে, বিশেষত সক্রিয়করণ ফাংশন তুলনা এবং ফেজ তথ্য মূল্য যাচাইকরণের দিক থেকে।
- আর্কিটেকচার সম্ভাব্যতা: CVCNN বাস্তব-মূল্যবান CNN এর সাথে সমতুল্য কর্মক্ষমতা বজায় রেখে জটিল-মূল্যবান তথ্য প্রক্রিয়া করার ক্ষমতা প্রদান করে
- ফেজ তথ্য মূল্য: GNN পরীক্ষার মাধ্যমে স্পষ্টভাবে অডিও শ্রেণীবিভাগে ফেজ তথ্যের বৈষম্যমূলক মূল্য প্রমাণিত হয়েছে
- সক্রিয়করণ ফাংশন গুরুত্ব: Cardioid এর মতো ফেজ-সচেতন সক্রিয়করণ ফাংশন ঐতিহ্যবাহী পছন্দের চেয়ে উল্লেখযোগ্যভাবে ভাল
- প্রয়োগের সম্ভাবনা: উপযুক্ত আর্কিটেকচার ডিজাইনে, CVCNN অডিও প্রক্রিয়াকরণ কাজে অগ্রগতি অর্জনের জন্য প্রস্তুত
- গণনামূলক ওভারহেড: প্রশিক্ষণ সময় উল্লেখযোগ্যভাবে বৃদ্ধি পায় (৪-৫ গুণ)
- আর্কিটেকচার সীমাবদ্ধতা: বর্তমান ডিজাইন সরাসরি ফেজ তথ্য ব্যবহারে এখনও অপর্যাপ্ত
- ডোমেইন বিশেষত্ব: কিছু কাজে ফেজ তথ্যের মূল্য সীমিত হতে পারে
- বাস্তবায়ন জটিলতা: বিশেষায়িত জটিল-মূল্যবান গণনা লাইব্রেরি সমর্থন প্রয়োজন
- আর্কিটেকচার উদ্ভাবন: বিশেষায়িত ফেজ-সচেতন মডিউল এবং মনোযোগ প্রক্রিয়া ডিজাইন করা
- প্রশিক্ষণ অপ্টিমাইজেশন: আরও দক্ষ জটিল-মূল্যবান নেটওয়ার্ক প্রশিক্ষণ অ্যালগরিদম উন্নয়ন করা
- প্রয়োগ সম্প্রসারণ: বক্তৃতা স্বীকৃতি, শব্দ উৎস স্থানীয়করণ ইত্যাদি কাজে প্রয়োগ অন্বেষণ করা
- তাত্ত্বিক গভীরকরণ: জটিল-মূল্যবান প্রতিনিধিত্বের প্রকাশনীয় ক্ষমতা এবং শিক্ষার গতিশীলতা আরও বোঝা
- তাত্ত্বিক সম্পূর্ণতা: CVCNN এর সম্পূর্ণ গণিত কাঠামো প্রদান করে, মৌলিক অপারেশন থেকে প্রশিক্ষণ কৌশল পর্যন্ত
- পরীক্ষামূলক ব্যাপকতা: ক্রস-ডোমেইন (চিত্র + অডিও), বহু-কোণ (বিভিন্ন সক্রিয়করণ ফাংশন, ইনপুট কনফিগারেশন) সিস্টেমেটিক মূল্যায়ন
- উদ্ভাবনী যাচাইকরণ: GNN এর মাধ্যমে চতুরভাবে ফেজ তথ্যের অন্তর্নিহিত মূল্য যাচাই করা
- ব্যবহারিক নির্দেশনা: CVCNN এর বাস্তব প্রয়োগের জন্য নির্দিষ্ট প্রযুক্তিগত নির্দেশনা প্রদান করা
- সীমিত কর্মক্ষমতা উন্নতি: কিছু কাজে CVCNN বাস্তব-মূল্যবান CNN এর তুলনায় স্পষ্ট সুবিধা প্রদর্শন করে না
- গণনামূলক দক্ষতা: উল্লেখযোগ্য গণনামূলক ওভারহেড বাস্তব প্রয়োগ সীমিত করতে পারে
- আর্কিটেকচার অন্বেষণ অপর্যাপ্ত: প্রধানত মান CNN আর্কিটেকচার ব্যবহার করে, জটিল-মূল্যবান বৈশিষ্ট্যের জন্য বিশেষায়িত ডিজাইনের অভাব
- ডেটাসেট স্কেল: পরীক্ষা প্রধানত তুলনামূলকভাবে সহজ ডেটাসেটে পরিচালিত হয়
- একাডেমিক অবদান: জটিল-মূল্যবান নিউরাল নেটওয়ার্ক গবেষণার জন্য গুরুত্বপূর্ণ তাত্ত্বিক এবং পরীক্ষামূলক ভিত্তি প্রদান করা
- ব্যবহারিক মূল্য: অডিও সিগন্যাল প্রক্রিয়াকরণ ক্ষেত্রে নতুন প্রযুক্তিগত পথ প্রবর্তন করা
- পুনরুৎপাদনযোগ্যতা: সম্পূর্ণ কোড বাস্তবায়ন প্রদান করে, পরবর্তী গবেষণা সহজতর করা
- অনুপ্রেরণামূলক: ফেজ-সচেতন গভীর শিক্ষার উন্নয়নের জন্য দিকনির্দেশনা প্রদান করা
- অডিও প্রক্রিয়াকরণ: সঙ্গীত বিশ্লেষণ, বক্তৃতা উন্নতি, শব্দ দৃশ্য শ্রেণীবিভাগ
- সিগন্যাল প্রক্রিয়াকরণ: রাডার সিগন্যাল প্রক্রিয়াকরণ, যোগাযোগ ব্যবস্থা, জৈব-চিকিৎসা সিগন্যাল বিশ্লেষণ
- বৈজ্ঞানিক গণনা: জটিল-মূল্যবান ডেটা জড়িত পদার্থবিজ্ঞান সিমুলেশন এবং সংখ্যাগত গণনা
- গবেষণা সরঞ্জাম: ফেজ তথ্যের মূল্য অন্বেষণের জন্য মৌলিক প্ল্যাটফর্ম হিসাবে
পেপার জটিল-মূল্যবান নিউরাল নেটওয়ার্ক তত্ত্ব, অডিও সিগন্যাল প্রক্রিয়াকরণ, গভীর শিক্ষা অপ্টিমাইজেশন এবং অন্যান্য ক্ষেত্র জুড়ে ৩৭টি গুরুত্বপূর্ণ সাহিত্য উদ্ধৃত করে, গবেষণার জন্য দৃঢ় তাত্ত্বিক ভিত্তি এবং প্রযুক্তিগত সমর্থন প্রদান করে।
সামগ্রিক মূল্যায়ন: এটি একটি অত্যন্ত সিস্টেমেটিক গবেষণা পেপার যা জটিল-মূল্যবান নিউরাল নেটওয়ার্কের তাত্ত্বিক নির্মাণ এবং ব্যবহারিক প্রয়োগের মধ্যে একটি সেতু তৈরি করে। যদিও কর্মক্ষমতা উন্নতি কিছু দিক থেকে যথেষ্ট উল্লেখযোগ্য নয়, তবে এটি এই ক্ষেত্রের উন্নয়নের জন্য গুরুত্বপূর্ণ ভিত্তি কাজ এবং গবেষণা দিকনির্দেশনা প্রদান করে।