এই পেপারটি একটি স্থানিকভাবে-বর্ধিত ক্রম-থেকে-ক্রম স্নায়ু কণ্ঠস্বর বিভাজন (SA-S2SND) কাঠামো প্রস্তাব করে, যা SRP-DNN দ্বারা অনুমানকৃত আগমনের দিক (DOA) সংকেত S2SND মূল নেটওয়ার্কে একীভূত করে। দুই-পর্যায়ের প্রশিক্ষণ কৌশল গ্রহণ করা হয়েছে: মডেলটি প্রথমে একক-চ্যানেল অডিও এবং DOA বৈশিষ্ট্য দিয়ে প্রশিক্ষিত হয়, তারপর DOA নির্দেশনায় বহু-চ্যানেল ইনপুট ব্যবহার করে আরও অপ্টিমাইজ করা হয়। উপরন্তু, মিলিত বহু-চ্যানেল কর্পাসের উপর নির্ভরতা হ্রাস করতে একটি অনুকরণীয় DOA উৎপাদন পরিকল্পনা প্রবর্তন করা হয়েছে। AliMeeting ডেটাসেটে, SA-S2SND ধারাবাহিকভাবে S2SND ভিত্তিরেখা অতিক্রম করে, অফলাইন মোডে ৭.৪% আপেক্ষিক DER হ্রাস অর্জন করে এবং চ্যানেল মনোযোগের সাথে সংমিশ্রণে ১৯% এর বেশি উন্নতি করে। এই ফলাফলগুলি নির্দেশ করে যে স্থানিক সংকেত এবং ক্রস-চ্যানেল মডেলিং অত্যন্ত পরিপূরক, অনলাইন এবং অফলাইন উভয় সেটিংয়ে ভাল কর্মক্ষমতা প্রদান করে।
কণ্ঠস্বর বিভাজন "কে কখন কথা বলছে" প্রশ্নের উত্তর দেওয়ার লক্ষ্য রাখে, এটি ডাউনস্ট্রিম কাজগুলির (যেমন বক্তৃতা স্বীকৃতি) একটি মৌলিক প্রাক-প্রক্রিয়াকরণ পদক্ষেপ। এই ক্ষেত্রে উল্লেখযোগ্য অগ্রগতি সত্ত্বেও, সভার দৃশ্যে কণ্ঠস্বর বিভাজন এখনও চ্যালেঞ্জিং, প্রধান কারণগুলি অন্তর্ভুক্ত করে: ১. ওভারল্যাপিং বক্তৃতা: একাধিক বক্তা একযোগে কথা বলছেন ২. অবিশ্বাস্য কণ্ঠস্বর এম্বেডিং: শোরগোল পরিবেশে কণ্ঠস্বর বৈশিষ্ট্য নিষ্কাশন কঠিন ३. অনুরণন: ইনডোর পরিবেশ দ্বারা সৃষ্ট শ্রবণ বিকৃতি
१. প্রাথমিক মডুলার পদ্ধতি: অডিওকে সংক্ষিপ্ত উচ্চারণে বিভক্ত করা এবং কণ্ঠস্বর এম্বেডিং সাদৃশ্য দ্বারা ক্লাস্টারিং, প্রতিটি খণ্ডে শুধুমাত্র একজন বক্তা রয়েছে এই অনুমান, ওভারল্যাপিং বক্তৃতায় দুর্বল কর্মক্ষমতা २. শেষ-থেকে-শেষ স্নায়ু বিভাজন (EEND): ওভারল্যাপিং সমস্যা সমাধান করলেও, এখনও প্রধানত শ্রবণ এম্বেডিংয়ের উপর নির্ভর করে ३. ক্রম-থেকে-ক্রম বিভাজন (S2SND): অনলাইন বিভাজনে অগ্রগতি করেছে, কিন্তু স্পষ্ট স্থানিক তথ্যের অভাব রয়েছে
বেশিরভাগ বিদ্যমান পদ্ধতি শুধুমাত্র শ্রবণ এম্বেডিংয়ের উপর নির্ভর করে, যা বাস্তব সভায় প্রায়শই অবিশ্বাস্য। মূল প্রশ্ন হল: বহু-চ্যানেল রেকর্ডিংয়ের স্থানিক সংকেত কীভাবে কণ্ঠস্বর বিভাজন উন্নত করতে ব্যবহার করা যায়?
१. SA-S2SND কাঠামো প্রস্তাব: DNN-উদ্ভূত DOA কে অনলাইন এবং অফলাইন কণ্ঠস্বর বিভাজনের জন্য S2SND-এ স্পষ্ট স্থানিক ইনপুট হিসাবে একীভূত করা २. অনুকরণীয় DOA পদ্ধতি ডিজাইন: স্থানিক সংকেত এবং অ্যারে ডিজাইনকে আলাদা করা, বড় বহু-চ্যানেল কর্পাস ছাড়াই স্থানিক তথ্য কার্যকরভাবে ব্যবহার করা ३. কার্যকারিতা যাচাই: AliMeeting ডেটাসেটে SA-S2SND যাচাই করা, উভয় মোডে S2SND ভিত্তিরেখার তুলনায় সামঞ্জস্যপূর্ণ DER উন্নতি প্রদর্শন করা ४. দুই-পর্যায়ের প্রশিক্ষণ কৌশল: প্রথমে একক-চ্যানেল অডিও দিয়ে প্রশিক্ষণ, তারপর বহু-চ্যানেলে সম্প্রসারণ, বিশুদ্ধ শ্রবণ থেকে স্থানিক-বর্ধিত মডেলিংয়ের একটি সামঞ্জস্যপূর্ণ পথ নিশ্চিত করা
কণ্ঠস্বর বিভাজন কাজের লক্ষ্য হল বহু-বক্তা অডিও থেকে প্রতিটি সময়ের সেগমেন্টে সক্রিয় কণ্ঠস্বর পরিচয় নির্ধারণ করা। ইনপুট হল বহু-চ্যানেল অডিও সংকেত, আউটপুট হল প্রতিটি সময় ফ্রেমের কণ্ঠস্বর কার্যকলাপ লেবেল এবং কণ্ঠস্বর প্রতিনিধিত্ব।
শক্তিশালী বহু-উৎস DOA অনুমানের জন্য SRP-DNN ব্যবহার করা হয়:
মূল ধারণা: সরাসরি পথ পর্যায় পার্থক্য (DP-IPDs) শিখুন, k-তম উৎসের জন্য, DOA প্রকাশ করা হয়:
প্রশিক্ষণ উদ্দেশ্য: ওজনযুক্ত সরাসরি পথ IPD ভেক্টর যোগফল:
স্থানিক বর্ণালী নির্মাণ:
বহু-উৎস স্থানীয়করণ: পুনরাবৃত্তিমূলক সনাক্তকরণ-অপসারণ (IDL) কৌশল বহু-বক্তা দৃশ্যপট পরিচালনা করতে ব্যবহৃত হয়।
S2SND মূল নেটওয়ার্কের উপর ভিত্তি করে, চারটি মূল মডিউল অন্তর্ভুক্ত করে:
१. নিষ্কাশক: ResNet + বিভাজিত পরিসংখ্যান পুলিং (SSP) २. এনকোডার: দীর্ঘ-পরিসর নির্ভরতা মডেলিংয়ের জন্য Conformer ३. প্রতিনিধিত্ব ডিকোডার: লক্ষ্য এম্বেডিং উৎপন্ন করে Ê ४. সনাক্তকরণ ডিকোডার: কার্যকলাপ পূর্বাভাস দেয় Ŷ
DOA একীকরণ পদ্ধতি:
যেখানে O ∈ R^{T''×A} হল DOA সম্ভাব্যতা ম্যাট্রিক্স, নিকটতম প্রতিবেশী ইন্টারপোলেশন এবং রৈখিক প্রজেকশনের মাধ্যমে এনকোডার প্রতিনিধিত্বে একীভূত।
१. স্পষ্ট স্থানিক সংকেত ইনজেকশন: অন্ধ সংমিশ্রণের বিপরীতে, সরাসরি DOA অনুমান ব্যবহার করে দিকনির্দেশনা প্রমাণ প্রদান করা २. অনুকরণীয় DOA কৌশল:
१. অনুকরণীয় ডেটা: VoxCeleb2 (১M উচ্চারণ, ६,११२ বক্তা) অনলাইন মিশ্রণ উৎপাদনের জন্য २. বাস্তব ডেটা: AliMeeting (প্রশিক্ষণ সেট १०४.७५h, মূল্যায়ন সেট ४h, পরীক্ষা সেট १०h)
| মডেল | চ্যানেল | DOA | মোট DER (অনলাইন%) | মোট DER (অফলাইন%) |
|---|---|---|---|---|
| S2SND | १ | ✗ | १६.०३ | १३.५९ |
| SA-S2SND | १ | ✓ | १५.३५ | १२.५९ |
| S2SND | ८ | ✗ | १४.८५ | १२.७९ |
| SA-S2SND | ८ | ✓ | १२.९३ | १०.८४ |
१. সামঞ্জস্যপূর্ণ উন্নতি: সমস্ত কনফিগারেশনে DOA যোগ করা উন্নতি নিয়ে আসে
२. বহু-বক্তা দৃশ্যপট সুবিধা: २+ বক্তা দৃশ্যপটে আরও উল্লেখযোগ্য উন্নতি, জটিল কথোপকথন অবস্থায় শক্তিশালীতা প্রদর্শন করে
३. পরিপূরকতা: চ্যানেল মনোযোগ এবং DOA অত্যন্ত পরিপূরক
४. প্যারামিটার দক্ষতা: সর্বোত্তম মডেল (E4) ভিত্তিরেখা (E1) এর তুলনায় १९.३%/२०.३% আপেক্ষিক লাভ অর্জন করে, একই সাথে প্যারামিটার পরিমাণ SOTA এর সাথে তুলনীয়
१. মডুলার পদ্ধতি: ক্লাস্টারিং-ভিত্তিক ঐতিহ্যবাহী পদ্ধতি २. শেষ-থেকে-শেষ স্নায়ু বিভাজন (EEND): বহু-লেবেল পূর্বাভাস কাজ ३. লক্ষ্য বক্তা বক্তৃতা কার্যকলাপ সনাক্তকরণ (TSVAD): মডুলার এবং স্নায়ু পদ্ধতি সংমিশ্রণ ४. ক্রম-থেকে-ক্রম বিভাজন (S2SND): অনলাইন বিভাজন সমর্থন করে
१. বক্তৃতা উন্নতি: বীমফর্মিং ইত্যাদি, কিন্তু বিকৃতি প্রবর্তন করতে পারে २. চ্যানেল সংমিশ্রণ: মনোযোগ মডিউল সংকেত সমষ্টি করে, কিন্তু সাধারণত অন্ধ সংমিশ্রণ ३. স্পষ্ট বৈশিষ্ট্য: DOA অনুমান ইত্যাদি, সরাসরি দিকনির্দেশনা প্রমাণ প্রদান করে
বিদ্যমান কাজের তুলনায়, এই পেপারটি প্রথমবারের মতো স্পষ্ট DOA সংকেত কার্যকরভাবে ক্রম-থেকে-ক্রম কণ্ঠস্বর বিভাজন কাঠামোতে একীভূত করে, এবং বহু-চ্যানেল কর্পাসের উপর নির্ভরতা হ্রাস করার জন্য একটি অনুকরণীয় কৌশল প্রস্তাব করে।
१. স্থানিক সংকেত কার্যকারিতা: DOA সংকেত উল্লেখযোগ্যভাবে কণ্ঠস্বর বিভাজন কর্মক্ষমতা উন্নত করে २. পরিপূরকতা: স্থানিক তথ্য এবং ক্রস-চ্যানেল মডেলিং অত্যন্ত পরিপূরক ३. ব্যবহারিকতা: অনলাইন এবং অফলাইন উভয় সেটিংয়ে ভাল কর্মক্ষমতা প্রদর্শন করে ४. সাধারণীকরণ ক্ষমতা: অনুকরণীয় DOA কৌশল নির্দিষ্ট অ্যারে কনফিগারেশনের উপর নির্ভরতা হ্রাস করে
१. বহু-বক্তা সীমাবদ্ধতা: SRP-DNN এর IDL কৌশল সর্বাধিক দুটি বক্তা ট্র্যাক করতে পারে २. অ্যারে নির্ভরতা: বিভিন্ন অ্যারে কনফিগারেশনের সাথে খাপ খাওয়ানোর জন্য SRP-DNN পুনরায় প্রশিক্ষণ প্রয়োজন ३. গণনামূলক জটিলতা: DOA অনুমানের গণনামূলক ওভারহেড যোগ করে
१. বহু-বক্তা DOA শক্তিশালীতা: দুটিরও বেশি একযোগে বক্তা প্রক্রিয়াকরণ উন্নত করা २. যৌথ প্রশিক্ষণ কৌশল: DOA অনুমান এবং কণ্ঠস্বর বিভাজনের শেষ-থেকে-শেষ প্রশিক্ষণ অন্বেষণ করা ३. সিস্টেম কর্মক্ষমতা উন্নতি: সামগ্রিক সিস্টেম কর্মক্ষমতা আরও অপ্টিমাইজ করা
१. শক্তিশালী উদ্ভাবনী:
२. পরীক্ষা ব্যাপক:
३. প্রযুক্তি দৃঢ়:
४. ব্যবহারিক মূল্য উচ্চ:
१. পদ্ধতি সীমাবদ্ধতা:
२. পরীক্ষা পরিসীমা:
३. তাত্ত্বিক বিশ্লেষণ অপর্যাপ্ত:
१. একাডেমিক অবদান: কণ্ঠস্বর বিভাজন ক্ষেত্রে স্থানিক তথ্য ব্যবহারের নতুন চিন্তাভাবনা প্রদান করে २. ব্যবহারিক মূল্য: সভা প্রতিলিপি সিস্টেমে সরাসরি প্রয়োগ করা যায় ३. পুনরুৎপাদনযোগ্যতা: বিস্তারিত বাস্তবায়ন বিবরণ প্রদান করে, পুনরুৎপাদন সুবিধা প্রদান করে
१. সভা প্রতিলিপি: বহু-ব্যক্তি সভার রিয়েল-টাইম এবং অফলাইন কণ্ঠস্বর বিভাজন २. বুদ্ধিমান সভা সিস্টেম: বক্তৃতা স্বীকৃতির সাথে সংমিশ্রণে সভা বোঝা শেষ-থেকে-শেষ ३. বহু-চ্যানেল বক্তৃতা প্রক্রিয়াকরণ: স্থানিক তথ্য ব্যবহার প্রয়োজনীয় যেকোনো বক্তৃতা বিভাজন কাজ
পেপারটি ३६টি সম্পর্কিত সাহিত্য উদ্ধৃত করে, যা কণ্ঠস্বর বিভাজন, বহু-চ্যানেল সংকেত প্রক্রিয়াকরণ, গভীর শিক্ষা ইত্যাদি মূল ক্ষেত্রের গুরুত্বপূর্ণ কাজ অন্তর্ভুক্ত করে, গবেষণার জন্য একটি দৃঢ় তাত্ত্বিক ভিত্তি প্রদান করে।
সামগ্রিক মূল্যায়ন: এটি একটি উচ্চ-মানের গবেষণা পেপার, যা কণ্ঠস্বর বিভাজন ক্ষেত্রে স্থানিক তথ্য ব্যবহারের একটি উদ্ভাবনী পদ্ধতি প্রস্তাব করে। পরীক্ষা ডিজাইন কঠোর, ফলাফল প্রভাবশালী, এবং ব্যবহারিক মূল্য চমৎকার। প্রধান উদ্ভাবন স্পষ্ট DOA সংকেত কার্যকরভাবে ক্রম-থেকে-ক্রম কাঠামোতে একীভূত করা এবং চতুর প্রশিক্ষণ কৌশলের মাধ্যমে বহু-চ্যানেল ডেটা স্বল্পতা সমস্যা সমাধান করা।