2025-11-16T04:37:12.332621

DÃ©rÃ©verbÃ©ration non-supervisÃ©e de la parole par modÃ¨le hybride

Bahrman, Fontaine, Richard

This paper introduces a new training strategy to improve speech dereverberation systems in an unsupervised manner using only reverberant speech. Most existing algorithms rely on paired dry/reverberant data, which is difficult to obtain. Our approach uses limited acoustic information, like the reverberation time (RT60), to train a dereverberation system. Experimental results demonstrate that our method achieves more consistent performance across various objective metrics than the state-of-the-art.

academic

হাইব্রিড মডেল দ্বারা অপর্যবেক্ষিত বাণী বিপরীতকরণ

মৌলিক তথ্য

পেপার আইডি: 2510.09025
শিরোনাম: Déréverbération non-supervisée de la parole par modèle hybride (হাইব্রিড মডেল দ্বারা অপর্যবেক্ষিত বাণী বিপরীতকরণ)
লেখক: লুই বাহরম্যান, ম্যাথিউ ফন্টেইন, গ্যাল রিচার্ড (LTCI, টেলিকম প্যারিস, ইনস্টিটিউট পলিটেকনিক ডি প্যারিস)
শ্রেণীবিভাগ: cs.SD cs.AI eess.AS
প্রকাশনার সময়: ২০২৫ সালের ১০ অক্টোবর
পেপার লিঙ্ক: https://arxiv.org/abs/2510.09025

সারসংক্ষেপ

এই পেপারটি একটি নতুন প্রশিক্ষণ কৌশল প্রস্তাব করে যা শুধুমাত্র অনুরণিত বাণী ব্যবহার করে অপর্যবেক্ষিত পদ্ধতিতে বাণী বিপরীতকরণ ব্যবস্থা উন্নত করে। বিদ্যমান অ্যালগরিদমগুলি বেশিরভাগই পরিষ্কার/অনুরণিত ডেটার জোড়া উপর নির্ভর করে, যা অর্জন করা কঠিন। এই পদ্ধতিটি সীমিত শ্রবণ তথ্য (যেমন অনুরণন সময় RT60) ব্যবহার করে বিপরীতকরণ ব্যবস্থা প্রশিক্ষণ দেয়। পরীক্ষামূলক ফলাফলগুলি দেখায় যে এই পদ্ধতিটি বিভিন্ন উদ্দেশ্যমূলক মেট্রিক্সে অত্যাধুনিক পদ্ধতির চেয়ে আরও সামঞ্জস্যপূর্ণ কর্মক্ষমতা প্রদান করে।

গবেষণা পটভূমি এবং প্রেরণা

মূল সমস্যা: ঘরের ভিতরের পরিবেশে, বাণী সংকেত দেয়ালের প্রতিফলন এবং বাধার বিচ্ছুরণ দ্বারা প্রভাবিত হয়, যা অনুরণন ঘটনা তৈরি করে এবং বাণী রেকর্ডিংয়ের বোধগম্যতা হ্রাস করে। এই প্রভাব হ্রাস করার জন্য বিপরীতকরণ পদ্ধতি বিকাশ করা প্রয়োজন।
সমস্যার গুরুত্ব: অনুরণন বাণীর গুণমান এবং বোধগম্যতাকে গুরুতরভাবে প্রভাবিত করে এবং বাণী স্বীকৃতি, যোগাযোগ ব্যবস্থা এবং অন্যান্য প্রয়োগে কার্যকর বিপরীতকরণ প্রযুক্তির প্রয়োজন।
বিদ্যমান পদ্ধতির সীমাবদ্ধতা:
- বিচক্ষণ পদ্ধতিগুলির জন্য বৃহৎ পরিমাণে (পরিষ্কার, অনুরণিত) ডেটার জোড়া প্রয়োজন যা অর্জন করা কঠিন
- উৎপাদনশীল পদ্ধতিগুলি কম তত্ত্বাবধান করা হলেও তবুও পরিষ্কার বাণী ডেটা প্রয়োজন, যা অনুরণিত ডেটার চেয়ে অর্জন করা আরও কঠিন
- MetricGAN-U এর মতো পদ্ধতিগুলি যদিও শুধুমাত্র অনুরণিত সংকেত ব্যবহার করে, তবে একক মেট্রিক অপ্টিমাইজেশনের উপর ভিত্তি করে এবং সম্পূর্ণ কর্মক্ষমতা অপর্যাপ্ত
গবেষণা প্রেরণা: অনুরণিত বাণী ব্যবহার করে একটি অপর্যবেক্ষিত বিপরীতকরণ পদ্ধতি বিকাশ করা, অনুরণন সময়ের মতো সীমিত শ্রবণ তথ্য ব্যবহার করে প্রশিক্ষণ দেওয়া।

মূল অবদান

অনুরণন স্ব-তত্ত্বাবধান প্রশিক্ষণ কাঠামো প্রস্তাব: উদ্ভাবনীভাবে অনুরণন মডেল ব্যবহার করে গভীর স্নায়ু নেটওয়ার্ক প্রশিক্ষণ তত্ত্বাবধান করা, ঐতিহ্যবাহী মেট্রিক তত্ত্বাবধানের পরিবর্তে
অনুরণন সময় সচেতন প্রশিক্ষণ কৌশল ডিজাইন: শ্রবণ মডেল এবং গভীর শিক্ষা একত্রিত করা, RT60 এর মতো পরামিতি ব্যবহার করে প্রশিক্ষণ পরিচালনা করা
আরও সামঞ্জস্যপূর্ণ কর্মক্ষমতা উন্নতি অর্জন: একাধিক উদ্দেশ্যমূলক মেট্রিক্সে মেট্রিক-ভিত্তিক তত্ত্বাবধান পদ্ধতির চেয়ে উন্নত
খোলা উৎস বাস্তবায়ন প্রদান: কোড, প্রাক-প্রশিক্ষিত মডেল এবং উদাহরণ প্রকাশ করা, গবেষণা পুনরুৎপাদন সহজতর করা

পদ্ধতির বিস্তারিত ব্যাখ্যা

কাজের সংজ্ঞা

ইনপুট: অনুরণিত বাণী সংকেত Y আউটপুট: অনুমানিত পরিষ্কার বাণী সংকেত Ŝ সীমাবদ্ধতা: প্রশিক্ষণের সময় শুধুমাত্র অনুরণিত সংকেত ব্যবহার করা, পরিষ্কার/অনুরণিত ডেটার জোড়ার প্রয়োজন নেই

মডেল স্থাপত্য

১. সামগ্রিক কাঠামো

পদ্ধতিতে তিনটি প্রধান উপাদান রয়েছে:

অনুরণন বিশ্লেষক A: অনুরণিত সংকেত থেকে শ্রবণ পরামিতি (প্রধানত RT60) অনুমান করা
RIS সংশ্লেষক S: শ্রবণ পরামিতির উপর ভিত্তি করে কক্ষ আবেগ প্রতিক্রিয়া সংশ্লেষণ করা
কনভোলিউশন মডেল C: সময়-ফ্রিকোয়েন্সি ডোমেনে ক্রস-ব্যান্ড কনভোলিউশন সম্পাদন করা

২. অনুরণন মডেল

সংকেত মডেল:

y(n) = (s ⋆ h)(n)

যেখানে y অনুরণিত সংকেত, s পরিষ্কার সংকেত, h কক্ষ আবেগ প্রতিক্রিয়া (RIS)।

Polack অনুরণন মডেল:

h_l(n) = b(n)e^(-3ln(10)n/(RT60·f_s))

যেখানে b(n)~N(0,σ²) সাদা শব্দ, RT60 অনুরণন সময়।

৩. সময়-ফ্রিকোয়েন্সি ডোমেন কনভোলিউশন

স্বল্পমেয়াদী ফুরিয়ার রূপান্তর (STFT) ডোমেনে, কনভোলিউশন প্রকাশ করা হয়:

Y_{f,t} = ∑∑ H_{f,f',t'} S_{f',t-t'}

৪. RIS সংশ্লেষক

সংশ্লেষিত RIS সংজ্ঞায়িত করা হয়:

S(Θ)(n) = {
  |b(n)|e^(-3ln(10)n/(RT60·f_s)), n > n_m
  1,                               n = 0  
  0,                               অন্যথায়
}

প্রযুক্তিগত উদ্ভাবন পয়েন্ট

অনুরণন স্ব-তত্ত্বাবধান কৌশল: ঐতিহ্যবাহী মেট্রিক তত্ত্বাবধানের বিপরীতে, সরাসরি শারীরিক অনুরণন মডেল ব্যবহার করে তত্ত্বাবধান করা
ক্রস-ব্যান্ড সময়-ফ্রিকোয়েন্সি কনভোলিউশন: পার্থক্যযোগ্য সময়-ফ্রিকোয়েন্সি ডোমেন কনভোলিউশন অপারেশন বাস্তবায়ন করা, গ্রেডিয়েন্ট ব্যাকপ্রপাগেশন সুবিধা দেওয়া
অনুরণন ম্যাচিং ক্ষতি ফাংশন:

L = ∑|Ŷ_{f,t} - Y_{f,t}|² + λ|log((1+γ|Ŷ_{f,t}|)/(1+γ|Y_{f,t}|))|²

পরীক্ষামূলক সেটআপ

ডেটাসেট

প্রশিক্ষণ ডেটা: WSJ1 ডেটাসেটের হেডসেট মাইক্রোফোন রেকর্ডিং, ৭৩ ঘন্টা অডিও, ৬০,৩০৭টি খণ্ড
RIS ডেটা: pyroomacoustics ব্যবহার করে উৎপন্ন ৩২,০০০ RIS, ২,০০০টি অনুকরণ কক্ষ থেকে
কক্ষ পরামিতি:
- আকার: ৫,১০×৫,১০×২.৫,৪ m³
- RT60: ০.२,१.० s
- উৎস-মাইক্রোফোন দূরত্ব: ०.७५,२.५ m

মূল্যায়ন মেট্রিক্স

SISDR: স্কেল-অপরিবর্তনীয় সংকেত বিকৃতি অনুপাত
ESTOI: সম্প্রসারিত স্বল্পমেয়াদী উদ্দেশ্যমূলক বোধগম্যতা
WB-PESQ: প্রশস্ত-ব্যান্ড উপলব্ধি বাণী গুণমান মূল্যায়ন
SRMR: বাণী থেকে অনুরণন শক্তি অনুপাত

তুলনামূলক পদ্ধতি

শক্তিশালী তত্ত্বাবধান পদ্ধতি: জোড়া ডেটা ব্যবহার করে প্রশিক্ষিত FullSubNet এবং BiLSTM
দুর্বল তত্ত্বাবধান পদ্ধতি: ওরাকল RT60 ব্যবহার করার সংস্করণ
অন্ধ তত্ত্বাবধান পদ্ধতি: অনুমানিত RT60 ব্যবহার করে সম্পূর্ণ অপর্যবেক্ষিত সংস্করণ
ভিত্তি পদ্ধতি: MetricGAN-U (BiLSTM+SRMR)

বাস্তবায়ন বিবরণ

অডিও প্রক্রিয়াকরণ: ১৬ kHz নমুনা, ৫१२-পয়েন্ট Hann উইন্ডো, ५०% ওভারল্যাপ
অপ্টিমাইজার: Adam অপ্টিমাইজার
থামার মানদণ্ড: যাচাইকরণ সেট SISDR মেট্রিকের উপর ভিত্তি করে
মডেল: FullSubNet (FSN) এবং BiLSTM দুটি স্নায়ু নেটওয়ার্ক স্থাপত্য

পরীক্ষামূলক ফলাফল

প্রধান ফলাফল

মডেল	তত্ত্বাবধান পদ্ধতি	SISDR	ESTOI	WB-PESQ	SRMR
FSN	শক্তিশালী	५.६±३.९	०.८४±०.१०	२.५५±०.६७	८.२±३.५
FSN	দুর্বল	२.९±३.५	०.७१±०.१५	१.७८±०.७०	६.९±२.८
FSN	অন্ধ (প্রস্তাবিত)	२.८±३.४	०.७१±०.१५	१.७८±०.७०	६.९±२.८
BiLSTM	শক্তিশালী	१.३±४.३	०.७८±०.१२	२.२५±०.७८	७.९±३.०
BiLSTM	দুর্বল	१.६±३.७	०.७१±०.१५	१.८४±०.७४	६.९±२.८
BiLSTM	অন্ধ (প্রস্তাবিত)	१.५±३.७	०.७१±०.१५	१.८४±०.७४	६.९±२.८
BiLSTM	SRMR ভিত্তি	-१.५±३.५	०.६४±०.१८	१.७८±०.७२	१०.९±४.३
-	অনুরণিত সংকেত	-१.३±३.५	०.६९±०.१६	१.७५±०.७४	६.९±२.९

মূল আবিষ্কার

সামঞ্জস্যতা সুবিধা: প্রস্তাবিত পদ্ধতি SISDR, ESTOI, WB-PESQ তিনটি মেট্রিক্সে SRMR ভিত্তির চেয়ে উন্নত
ভিত্তি সীমাবদ্ধতা: MetricGAN-U ভিত্তি SRMR মেট্রিকে সর্বোত্তম কর্মক্ষমতা প্রদর্শন করে, কিন্তু অন্যান্য মেট্রিক্সে কর্মক্ষমতা হ্রাস পায়, এমনকি মূল অনুরণিত সংকেতের চেয়েও কম
অনুমান শক্তিশালীতা: অন্ধ তত্ত্বাবধান সংস্করণ দুর্বল তত্ত্বাবধান সংস্করণের সাথে প্রায় একই কর্মক্ষমতা প্রদর্শন করে, যা পদ্ধতি RT60 অনুমান ত্রুটির প্রতি শক্তিশালী
মডেল অভিযোজনযোগ্যতা: BiLSTM শক্তিশালী থেকে দুর্বল তত্ত্বাবধানে কর্মক্ষমতা হ্রাস কম, সম্ভবত কারণ এটি শুধুমাত্র প্রশস্ততা মুখোশ প্রক্রিয়া করে, পর্যায় বিঘ্নের প্রতি অসংবেদনশীল

উপসংহার এবং আলোচনা

প্রধান উপসংহার

অনুরণন স্ব-তত্ত্বাবধান মেট্রিক স্ব-তত্ত্বাবধানের চেয়ে আরও সামঞ্জস্যপূর্ণ কর্মক্ষমতা উন্নতি অর্জন করতে পারে
পদ্ধতিটি একাধিক উদ্দেশ্যমূলক মেট্রিক্সে উন্নতি প্রদান করে, একক মেট্রিক অপ্টিমাইজেশনের সীমাবদ্ধতা এড়ায়
অন্ধ RT60 অনুমান কর্মক্ষমতাকে উল্লেখযোগ্যভাবে প্রভাবিত করে না, পদ্ধতির ব্যবহারিকতা বৃদ্ধি করে

সীমাবদ্ধতা

মডেল জটিলতা: বিশুদ্ধ ডেটা-চালিত পদ্ধতির তুলনায়, অতিরিক্ত অনুরণন মডেলিং উপাদান প্রয়োজন
পরামিতি নির্ভরতা: যদিও অন্ধ অনুমান করা যায়, তবুও RT60 এর মতো শ্রবণ পরামিতির নির্ভুলতার উপর নির্ভর করে
অনুরণন মডেল সরলীকরণ: ব্যবহৃত Polack মডেল একটি সরলীকৃত অনুরণন মডেল, বাস্তব পরিবেশের সাথে সম্পূর্ণভাবে সামঞ্জস্যপূর্ণ নাও হতে পারে
পর্যায় সংবেদনশীলতা: জটিল বর্ণালী পদ্ধতি (যেমন FSN) অনুরণন মডেলের পর্যায় বিঘ্নের প্রতি আরও সংবেদনশীল

ভবিষ্যত দিকনির্দেশনা

উৎপাদনশীল সম্প্রসারণ: সম্ভাব্যতামূলক RIS মডেল আরও ভালভাবে বিবেচনা করার জন্য উৎপাদনশীল মডেলে পদ্ধতি প্রয়োগ করা
আরও জটিল অনুরণন মডেল: আরও নির্ভুল অনুরণন শারীরিক মডেল বিবেচনা করা
বহু-চ্যানেল সম্প্রসারণ: বহু-মাইক্রোফোন পরিস্থিতিতে সম্প্রসারণ করা
বাস্তব-সময় প্রয়োগ: বাস্তব-সময় প্রক্রিয়াকরণ সমর্থন করার জন্য গণনামূলক দক্ষতা অপ্টিমাইজ করা

গভীর মূল্যায়ন

শক্তি

শক্তিশালী উদ্ভাবনী: প্রথমবারের মতো অনুরণন স্ব-তত্ত্বাবধান প্রশিক্ষণ কৌশল প্রস্তাব করা, প্রযুক্তিগত পথ উপন্যাস
উচ্চ ব্যবহারিক মূল্য: জোড়া প্রশিক্ষণ ডেটা অর্জনের অসুবিধার ব্যবহারিক সমস্যা সমাধান করা
ব্যাপক পরীক্ষা: একাধিক মেট্রিক্স এবং মডেল স্থাপত্যে ব্যাপক মূল্যায়ন পরিচালনা করা
খোলা উৎস অবদান: সম্পূর্ণ কোড এবং মডেল প্রদান করা, গবেষণা পুনরুৎপাদন সহজতর করা
দৃঢ় তাত্ত্বিক ভিত্তি: পরিপক্ক শ্রবণ অনুরণন তত্ত্বের উপর ভিত্তি করে

অপূর্ণতা

কর্মক্ষমতা ব্যবধান: শক্তিশালী তত্ত্বাবধান পদ্ধতির সাথে এখনও স্পষ্ট কর্মক্ষমতা পার্থক্য রয়েছে
মূল্যায়ন সীমাবদ্ধতা: শুধুমাত্র অনুকরণ ডেটায় মূল্যায়ন করা, বাস্তব পরিবেশ যাচাইকরণের অভাব
পরামিতি সংবেদনশীলতা বিশ্লেষণ অপর্যাপ্ত: অনুরণন মডেল পরামিতির সংবেদনশীলতা বিশ্লেষণ সীমিত
গণনামূলক খরচ: প্রশিক্ষণের সময় অতিরিক্ত অনুরণন মডেলিং গণনা প্রয়োজন

প্রভাব

একাডেমিক অবদান: বাণী বিপরীতকরণের জন্য নতুন অপর্যবেক্ষিত প্রশিক্ষণ প্যারাডাইম প্রদান করা
ব্যবহারিক মূল্য: উচ্চ-মানের বিপরীতকরণ ব্যবস্থার ডেটা প্রয়োজনীয়তা হ্রাস করা
পুনরুৎপাদনযোগ্যতা: খোলা উৎস কোড এবং বিস্তারিত পরীক্ষামূলক সেটআপ পুনরুৎপাদনযোগ্যতা নিশ্চিত করা
অনুপ্রেরণামূলক তাৎপর্য: অন্যান্য বাণী বৃদ্ধি কাজের জন্য শারীরিক মডেল তত্ত্বাবধানের ধারণা প্রদান করা

প্রযোজ্য পরিস্থিতি

ডেটা-স্বল্প পরিস্থিতি: জোড়া প্রশিক্ষণ ডেটার অভাব থাকা প্রয়োগ পরিবেশ
নির্দিষ্ট শ্রবণ পরিবেশ: মৌলিক শ্রবণ পরামিতি পরিচিত থাকা স্থির পরিবেশ
দ্রুত স্থাপনা: নতুন পরিবেশে দ্রুত অভিযোজনের প্রয়োজন এমন ব্যবস্থা
গবেষণা প্রোটোটাইপ: আরও জটিল ব্যবস্থার ভিত্তি উপাদান হিসাবে

তথ্যসূত্র

পেপারটি সম্পর্কিত ক্ষেত্রের গুরুত্বপূর্ণ কাজ উদ্ধৃত করে, যার মধ্যে রয়েছে:

Polack অনুরণন মডেলের ক্লাসিক তাত্ত্বিক ভিত্তি
WPE এর মতো ঐতিহ্যবাহী বিপরীতকরণ পদ্ধতি
MetricGAN-U এর মতো সর্বশেষ অপর্যবেক্ষিত পদ্ধতি
FullSubNet এর মতো উন্নত বাণী বৃদ্ধি মডেল
অনুরণন পরামিতি অন্ধ অনুমানের সম্পর্কিত অ্যালগরিদম

এই পেপারটি একটি উদ্ভাবনী অপর্যবেক্ষিত বাণী বিপরীতকরণ কাঠামো প্রস্তাব করে, শ্রবণ মডেলিং এবং গভীর শিক্ষা চতুরভাবে একত্রিত করে, ব্যবহারিকতা এবং কর্মক্ষমতার মধ্যে একটি ভাল ভারসাম্য খুঁজে পায়। যদিও শক্তিশালী তত্ত্বাবধান পদ্ধতির সাথে এখনও পার্থক্য রয়েছে, তবে এটি বাস্তব প্রয়োগে ডেটা অর্জনের অসুবিধার সমস্যা সমাধানের জন্য একটি মূল্যবান সমাধান প্রদান করে।