This paper introduces a new training strategy to improve speech dereverberation systems in an unsupervised manner using only reverberant speech. Most existing algorithms rely on paired dry/reverberant data, which is difficult to obtain. Our approach uses limited acoustic information, like the reverberation time (RT60), to train a dereverberation system. Experimental results demonstrate that our method achieves more consistent performance across various objective metrics than the state-of-the-art.
এই পেপারটি একটি নতুন প্রশিক্ষণ কৌশল প্রস্তাব করে যা শুধুমাত্র অনুরণিত বাণী ব্যবহার করে অপর্যবেক্ষিত পদ্ধতিতে বাণী বিপরীতকরণ ব্যবস্থা উন্নত করে। বিদ্যমান অ্যালগরিদমগুলি বেশিরভাগই পরিষ্কার/অনুরণিত ডেটার জোড়া উপর নির্ভর করে, যা অর্জন করা কঠিন। এই পদ্ধতিটি সীমিত শ্রবণ তথ্য (যেমন অনুরণন সময় RT60) ব্যবহার করে বিপরীতকরণ ব্যবস্থা প্রশিক্ষণ দেয়। পরীক্ষামূলক ফলাফলগুলি দেখায় যে এই পদ্ধতিটি বিভিন্ন উদ্দেশ্যমূলক মেট্রিক্সে অত্যাধুনিক পদ্ধতির চেয়ে আরও সামঞ্জস্যপূর্ণ কর্মক্ষমতা প্রদান করে।
মূল সমস্যা: ঘরের ভিতরের পরিবেশে, বাণী সংকেত দেয়ালের প্রতিফলন এবং বাধার বিচ্ছুরণ দ্বারা প্রভাবিত হয়, যা অনুরণন ঘটনা তৈরি করে এবং বাণী রেকর্ডিংয়ের বোধগম্যতা হ্রাস করে। এই প্রভাব হ্রাস করার জন্য বিপরীতকরণ পদ্ধতি বিকাশ করা প্রয়োজন।
সমস্যার গুরুত্ব: অনুরণন বাণীর গুণমান এবং বোধগম্যতাকে গুরুতরভাবে প্রভাবিত করে এবং বাণী স্বীকৃতি, যোগাযোগ ব্যবস্থা এবং অন্যান্য প্রয়োগে কার্যকর বিপরীতকরণ প্রযুক্তির প্রয়োজন।
বিদ্যমান পদ্ধতির সীমাবদ্ধতা:
বিচক্ষণ পদ্ধতিগুলির জন্য বৃহৎ পরিমাণে (পরিষ্কার, অনুরণিত) ডেটার জোড়া প্রয়োজন যা অর্জন করা কঠিন
উৎপাদনশীল পদ্ধতিগুলি কম তত্ত্বাবধান করা হলেও তবুও পরিষ্কার বাণী ডেটা প্রয়োজন, যা অনুরণিত ডেটার চেয়ে অর্জন করা আরও কঠিন
MetricGAN-U এর মতো পদ্ধতিগুলি যদিও শুধুমাত্র অনুরণিত সংকেত ব্যবহার করে, তবে একক মেট্রিক অপ্টিমাইজেশনের উপর ভিত্তি করে এবং সম্পূর্ণ কর্মক্ষমতা অপর্যাপ্ত
গবেষণা প্রেরণা: অনুরণিত বাণী ব্যবহার করে একটি অপর্যবেক্ষিত বিপরীতকরণ পদ্ধতি বিকাশ করা, অনুরণন সময়ের মতো সীমিত শ্রবণ তথ্য ব্যবহার করে প্রশিক্ষণ দেওয়া।
ইনপুট: অনুরণিত বাণী সংকেত Y
আউটপুট: অনুমানিত পরিষ্কার বাণী সংকেত Ŝ
সীমাবদ্ধতা: প্রশিক্ষণের সময় শুধুমাত্র অনুরণিত সংকেত ব্যবহার করা, পরিষ্কার/অনুরণিত ডেটার জোড়ার প্রয়োজন নেই
সামঞ্জস্যতা সুবিধা: প্রস্তাবিত পদ্ধতি SISDR, ESTOI, WB-PESQ তিনটি মেট্রিক্সে SRMR ভিত্তির চেয়ে উন্নত
ভিত্তি সীমাবদ্ধতা: MetricGAN-U ভিত্তি SRMR মেট্রিকে সর্বোত্তম কর্মক্ষমতা প্রদর্শন করে, কিন্তু অন্যান্য মেট্রিক্সে কর্মক্ষমতা হ্রাস পায়, এমনকি মূল অনুরণিত সংকেতের চেয়েও কম
অনুমান শক্তিশালীতা: অন্ধ তত্ত্বাবধান সংস্করণ দুর্বল তত্ত্বাবধান সংস্করণের সাথে প্রায় একই কর্মক্ষমতা প্রদর্শন করে, যা পদ্ধতি RT60 অনুমান ত্রুটির প্রতি শক্তিশালী
মডেল অভিযোজনযোগ্যতা: BiLSTM শক্তিশালী থেকে দুর্বল তত্ত্বাবধানে কর্মক্ষমতা হ্রাস কম, সম্ভবত কারণ এটি শুধুমাত্র প্রশস্ততা মুখোশ প্রক্রিয়া করে, পর্যায় বিঘ্নের প্রতি অসংবেদনশীল
পেপারটি সম্পর্কিত ক্ষেত্রের গুরুত্বপূর্ণ কাজ উদ্ধৃত করে, যার মধ্যে রয়েছে:
Polack অনুরণন মডেলের ক্লাসিক তাত্ত্বিক ভিত্তি
WPE এর মতো ঐতিহ্যবাহী বিপরীতকরণ পদ্ধতি
MetricGAN-U এর মতো সর্বশেষ অপর্যবেক্ষিত পদ্ধতি
FullSubNet এর মতো উন্নত বাণী বৃদ্ধি মডেল
অনুরণন পরামিতি অন্ধ অনুমানের সম্পর্কিত অ্যালগরিদম
এই পেপারটি একটি উদ্ভাবনী অপর্যবেক্ষিত বাণী বিপরীতকরণ কাঠামো প্রস্তাব করে, শ্রবণ মডেলিং এবং গভীর শিক্ষা চতুরভাবে একত্রিত করে, ব্যবহারিকতা এবং কর্মক্ষমতার মধ্যে একটি ভাল ভারসাম্য খুঁজে পায়। যদিও শক্তিশালী তত্ত্বাবধান পদ্ধতির সাথে এখনও পার্থক্য রয়েছে, তবে এটি বাস্তব প্রয়োগে ডেটা অর্জনের অসুবিধার সমস্যা সমাধানের জন্য একটি মূল্যবান সমাধান প্রদান করে।