2025-11-14T05:22:11.004755

Spatially-Augmented Sequence-to-Sequence Neural Diarization for Meetings

Li, Cheng, Zhang et al.

This paper proposes a Spatially-Augmented Sequence-to-Sequence Neural Diarization (SA-S2SND) framework, which integrates direction-of-arrival (DOA) cues estimated by SRP-DNN into the S2SND backbone. A two-stage training strategy is adopted: the model is first trained with single-channel audio and DOA features, and then further optimized with multi-channel inputs under DOA guidance. In addition, a simulated DOA generation scheme is introduced to alleviate dependence on matched multi-channel corpora. On the AliMeeting dataset, SA-S2SND consistently outperform the S2SND baseline, achieving a 7.4% relative DER reduction in the offline mode and over 19% improvement when combined with channel attention. These results demonstrate that spatial cues are highly complementary to cross-channel modeling, yielding good performance in both online and offline settings.

academic

স্থানিকভাবে-বর্ধিত ক্রম-থেকে-ক্রম স্নায়ু কণ্ঠস্বর বিভাজন সভার জন্য

মৌলিক তথ্য

পেপার আইডি: 2510.09505
শিরোনাম: স্থানিকভাবে-বর্ধিত ক্রম-থেকে-ক্রম স্নায়ু কণ্ঠস্বর বিভাজন সভার জন্য
লেখক: লি লি, মিং চেং, হংইউ ঝাং, জুয়ান লিউ, মিং লি
শ্রেণীবিভাগ: eess.AS (অডিও এবং বক্তৃতা প্রক্রিয়াকরণ)
প্রকাশনার সময়: ২০২৫ সালের অক্টোবর ১০ তারিখ
পেপার লিঙ্ক: https://arxiv.org/abs/2510.09505v1

সারসংক্ষেপ

এই পেপারটি একটি স্থানিকভাবে-বর্ধিত ক্রম-থেকে-ক্রম স্নায়ু কণ্ঠস্বর বিভাজন (SA-S2SND) কাঠামো প্রস্তাব করে, যা SRP-DNN দ্বারা অনুমানকৃত আগমনের দিক (DOA) সংকেত S2SND মূল নেটওয়ার্কে একীভূত করে। দুই-পর্যায়ের প্রশিক্ষণ কৌশল গ্রহণ করা হয়েছে: মডেলটি প্রথমে একক-চ্যানেল অডিও এবং DOA বৈশিষ্ট্য দিয়ে প্রশিক্ষিত হয়, তারপর DOA নির্দেশনায় বহু-চ্যানেল ইনপুট ব্যবহার করে আরও অপ্টিমাইজ করা হয়। উপরন্তু, মিলিত বহু-চ্যানেল কর্পাসের উপর নির্ভরতা হ্রাস করতে একটি অনুকরণীয় DOA উৎপাদন পরিকল্পনা প্রবর্তন করা হয়েছে। AliMeeting ডেটাসেটে, SA-S2SND ধারাবাহিকভাবে S2SND ভিত্তিরেখা অতিক্রম করে, অফলাইন মোডে ৭.৪% আপেক্ষিক DER হ্রাস অর্জন করে এবং চ্যানেল মনোযোগের সাথে সংমিশ্রণে ১৯% এর বেশি উন্নতি করে। এই ফলাফলগুলি নির্দেশ করে যে স্থানিক সংকেত এবং ক্রস-চ্যানেল মডেলিং অত্যন্ত পরিপূরক, অনলাইন এবং অফলাইন উভয় সেটিংয়ে ভাল কর্মক্ষমতা প্রদান করে।

গবেষণা পটভূমি এবং প্রেরণা

মূল সমস্যা

কণ্ঠস্বর বিভাজন "কে কখন কথা বলছে" প্রশ্নের উত্তর দেওয়ার লক্ষ্য রাখে, এটি ডাউনস্ট্রিম কাজগুলির (যেমন বক্তৃতা স্বীকৃতি) একটি মৌলিক প্রাক-প্রক্রিয়াকরণ পদক্ষেপ। এই ক্ষেত্রে উল্লেখযোগ্য অগ্রগতি সত্ত্বেও, সভার দৃশ্যে কণ্ঠস্বর বিভাজন এখনও চ্যালেঞ্জিং, প্রধান কারণগুলি অন্তর্ভুক্ত করে: ১. ওভারল্যাপিং বক্তৃতা: একাধিক বক্তা একযোগে কথা বলছেন ২. অবিশ্বাস্য কণ্ঠস্বর এম্বেডিং: শোরগোল পরিবেশে কণ্ঠস্বর বৈশিষ্ট্য নিষ্কাশন কঠিন ३. অনুরণন: ইনডোর পরিবেশ দ্বারা সৃষ্ট শ্রবণ বিকৃতি

বিদ্যমান পদ্ধতির সীমাবদ্ধতা

१. প্রাথমিক মডুলার পদ্ধতি: অডিওকে সংক্ষিপ্ত উচ্চারণে বিভক্ত করা এবং কণ্ঠস্বর এম্বেডিং সাদৃশ্য দ্বারা ক্লাস্টারিং, প্রতিটি খণ্ডে শুধুমাত্র একজন বক্তা রয়েছে এই অনুমান, ওভারল্যাপিং বক্তৃতায় দুর্বল কর্মক্ষমতা २. শেষ-থেকে-শেষ স্নায়ু বিভাজন (EEND): ওভারল্যাপিং সমস্যা সমাধান করলেও, এখনও প্রধানত শ্রবণ এম্বেডিংয়ের উপর নির্ভর করে ३. ক্রম-থেকে-ক্রম বিভাজন (S2SND): অনলাইন বিভাজনে অগ্রগতি করেছে, কিন্তু স্পষ্ট স্থানিক তথ্যের অভাব রয়েছে

গবেষণা প্রেরণা

বেশিরভাগ বিদ্যমান পদ্ধতি শুধুমাত্র শ্রবণ এম্বেডিংয়ের উপর নির্ভর করে, যা বাস্তব সভায় প্রায়শই অবিশ্বাস্য। মূল প্রশ্ন হল: বহু-চ্যানেল রেকর্ডিংয়ের স্থানিক সংকেত কীভাবে কণ্ঠস্বর বিভাজন উন্নত করতে ব্যবহার করা যায়?

মূল অবদান

१. SA-S2SND কাঠামো প্রস্তাব: DNN-উদ্ভূত DOA কে অনলাইন এবং অফলাইন কণ্ঠস্বর বিভাজনের জন্য S2SND-এ স্পষ্ট স্থানিক ইনপুট হিসাবে একীভূত করা २. অনুকরণীয় DOA পদ্ধতি ডিজাইন: স্থানিক সংকেত এবং অ্যারে ডিজাইনকে আলাদা করা, বড় বহু-চ্যানেল কর্পাস ছাড়াই স্থানিক তথ্য কার্যকরভাবে ব্যবহার করা ३. কার্যকারিতা যাচাই: AliMeeting ডেটাসেটে SA-S2SND যাচাই করা, উভয় মোডে S2SND ভিত্তিরেখার তুলনায় সামঞ্জস্যপূর্ণ DER উন্নতি প্রদর্শন করা ४. দুই-পর্যায়ের প্রশিক্ষণ কৌশল: প্রথমে একক-চ্যানেল অডিও দিয়ে প্রশিক্ষণ, তারপর বহু-চ্যানেলে সম্প্রসারণ, বিশুদ্ধ শ্রবণ থেকে স্থানিক-বর্ধিত মডেলিংয়ের একটি সামঞ্জস্যপূর্ণ পথ নিশ্চিত করা

পদ্ধতি বিস্তারিত

কাজের সংজ্ঞা

কণ্ঠস্বর বিভাজন কাজের লক্ষ্য হল বহু-বক্তা অডিও থেকে প্রতিটি সময়ের সেগমেন্টে সক্রিয় কণ্ঠস্বর পরিচয় নির্ধারণ করা। ইনপুট হল বহু-চ্যানেল অডিও সংকেত, আউটপুট হল প্রতিটি সময় ফ্রেমের কণ্ঠস্বর কার্যকলাপ লেবেল এবং কণ্ঠস্বর প্রতিনিধিত্ব।

মডেল আর্কিটেকচার

१. DOA অনুমান মডিউল (SRP-DNN)

শক্তিশালী বহু-উৎস DOA অনুমানের জন্য SRP-DNN ব্যবহার করা হয়:

মূল ধারণা: সরাসরি পথ পর্যায় পার্থক্য (DP-IPDs) শিখুন, k-তম উৎসের জন্য, DOA প্রকাশ করা হয়: $\theta_k = [\theta_{ele}^k, \theta_{azi}^k]^T$

প্রশিক্ষণ উদ্দেশ্য: ওজনযুক্ত সরাসরি পথ IPD ভেক্টর যোগফল: $R_{mm'}(n) = \sum_{k=1}^K \beta_k(n) r_{mm'}(\theta_k(n))$

স্থানিক বর্ণালী নির্মাণ: $P'(\theta;n) = \frac{2}{M(M-1)F} \sum_{m=1}^{M-1} \sum_{m'=m+1}^M \Re\{R̂_{mm'}(n)^H r_{mm'}(\theta)\}$

বহু-উৎস স্থানীয়করণ: পুনরাবৃত্তিমূলক সনাক্তকরণ-অপসারণ (IDL) কৌশল বহু-বক্তা দৃশ্যপট পরিচালনা করতে ব্যবহৃত হয়।

२. SA-S2SND আর্কিটেকচার

S2SND মূল নেটওয়ার্কের উপর ভিত্তি করে, চারটি মূল মডিউল অন্তর্ভুক্ত করে:

१. নিষ্কাশক: ResNet + বিভাজিত পরিসংখ্যান পুলিং (SSP) २. এনকোডার: দীর্ঘ-পরিসর নির্ভরতা মডেলিংয়ের জন্য Conformer ३. প্রতিনিধিত্ব ডিকোডার: লক্ষ্য এম্বেডিং উৎপন্ন করে Ê ४. সনাক্তকরণ ডিকোডার: কার্যকলাপ পূর্বাভাস দেয় Ŷ

DOA একীকরণ পদ্ধতি: $X = X + \text{Linear}_{R^A \rightarrow R^D}(\text{interpolate}(O))/\sqrt{D}$

যেখানে O ∈ R^{T''×A} হল DOA সম্ভাব্যতা ম্যাট্রিক্স, নিকটতম প্রতিবেশী ইন্টারপোলেশন এবং রৈখিক প্রজেকশনের মাধ্যমে এনকোডার প্রতিনিধিত্বে একীভূত।

প্রযুক্তিগত উদ্ভাবন পয়েন্ট

१. স্পষ্ট স্থানিক সংকেত ইনজেকশন: অন্ধ সংমিশ্রণের বিপরীতে, সরাসরি DOA অনুমান ব্যবহার করে দিকনির্দেশনা প্রমাণ প্রদান করা २. অনুকরণীয় DOA কৌশল:

বাস্তব বহু-চ্যানেল বক্তৃতা + SRP-DNN অনুমানকৃত DOA
অনুকরণীয় বহু-চ্যানেল বক্তৃতা + র্যান্ডমভাবে উৎপন্ন ছদ্ম-DOA ३. দুই-পর্যায়ের প্রশিক্ষণ:
অংশ A: একক-চ্যানেল মডেল + বহু-চ্যানেল DOA (পর্যায় ১-३)
অংশ B: বহু-চ্যানেল মডেল + বহু-চ্যানেল DOA (পর্যায় ४-५)

পরীক্ষামূলক সেটআপ

ডেটাসেট

१. অনুকরণীয় ডেটা: VoxCeleb2 (১M উচ্চারণ, ६,११२ বক্তা) অনলাইন মিশ্রণ উৎপাদনের জন্য २. বাস্তব ডেটা: AliMeeting (প্রশিক্ষণ সেট १०४.७५h, মূল্যায়ন সেট ४h, পরীক্ষা সেট १०h)

८-চ্যানেল দূরক্ষেত্র অ্যারে এবং মাথা-পরিধানযোগ্য রেকর্ডিং
NARA-WPE ডি-রিভার্বারেশনের পরে দূরক্ষেত্র অ্যারে সংকেত ব্যবহার করা

মূল্যায়ন মেট্রিক্স

DER (কণ্ঠস্বর বিভাজন ত্রুটির হার): Oracle VAD এবং সহনশীলতা ছাড়াই ব্যবহার করা
১-२ বক্তা এবং २+ বক্তা দৃশ্যপটে আলাদাভাবে কর্মক্ষমতা রিপোর্ট করা
অনলাইন এবং অফলাইন মোডের কর্মক্ষমতা তুলনা

তুলনামূলক পদ্ধতি

S2SND ভিত্তিরেখা (একক-চ্যানেল এবং বহু-চ্যানেল সংস্করণ)
BUT সিস্টেম (অত্যাধুনিক প্রযুক্তি)
বিভিন্ন মডেল আকার: ছোট (१६.५६M প্যারামিটার) এবং মাঝারি (४५.९६M প্যারামিটার)

বাস্তবায়ন বিবরণ

অডিও প্রক্রিয়াকরণ: ८s উইন্ডো, २s ওভারল্যাপ, ८० মাত্রার log-Mel ফিল্টার ব্যাংক
প্রশিক্ষণ: AdamW অপ্টিমাইজার, BCE + ArcFace ক্ষতি
অনুমান: ব্লক-স্তরের স্লাইডিং উইন্ডো, অনলাইন বিলম্ব ०.८s
হার্ডওয়্যার: দুটি RTX-A6000 GPU

পরীক্ষামূলক ফলাফল

প্রধান ফলাফল

মডেল	চ্যানেল	DOA	মোট DER (অনলাইন%)	মোট DER (অফলাইন%)
S2SND	१	✗	१६.०३	१३.५९
SA-S2SND	१	✓	१५.३५	१२.५९
S2SND	८	✗	१४.८५	१२.७९
SA-S2SND	८	✓	१२.९३	१०.८४

মূল আবিষ্কার

१. সামঞ্জস্যপূর্ণ উন্নতি: সমস্ত কনফিগারেশনে DOA যোগ করা উন্নতি নিয়ে আসে

একক-চ্যানেল: অনলাইন ४.२%↓, অফলাইন ७.४%↓
বহু-চ্যানেল: অনলাইন १२.९%↓, অফলাইন १५.२%↓

२. বহু-বক্তা দৃশ্যপট সুবিধা: २+ বক্তা দৃশ্যপটে আরও উল্লেখযোগ্য উন্নতি, জটিল কথোপকথন অবস্থায় শক্তিশালীতা প্রদর্শন করে

३. পরিপূরকতা: চ্যানেল মনোযোগ এবং DOA অত্যন্ত পরিপূরক

চ্যানেল মনোযোগ সম্পর্ক ক্যাপচার করে
DOA স্পষ্ট স্থানিক সংকেত প্রদান করে

४. প্যারামিটার দক্ষতা: সর্বোত্তম মডেল (E4) ভিত্তিরেখা (E1) এর তুলনায় १९.३%/२०.३% আপেক্ষিক লাভ অর্জন করে, একই সাথে প্যারামিটার পরিমাণ SOTA এর সাথে তুলনীয়

DOA বিশ্লেষণ

AliMeeting প্রশিক্ষণ সেটে, মাত্র ५.९८% সময়কাল দুটিরও বেশি একযোগে বক্তা জড়িত
অনুকরণীয় ডেটা উপেক্ষণীয় DOA ত্রুটি প্রদর্শন করে
বাস্তব সভার ডেটায়, দিগন্ত কোণ অনুমান বিভিন্ন বক্তাদের জন্য স্পষ্ট পার্থক্য প্রদান করে

উপসংহার এবং আলোচনা

প্রধান উপসংহার

१. স্থানিক সংকেত কার্যকারিতা: DOA সংকেত উল্লেখযোগ্যভাবে কণ্ঠস্বর বিভাজন কর্মক্ষমতা উন্নত করে २. পরিপূরকতা: স্থানিক তথ্য এবং ক্রস-চ্যানেল মডেলিং অত্যন্ত পরিপূরক ३. ব্যবহারিকতা: অনলাইন এবং অফলাইন উভয় সেটিংয়ে ভাল কর্মক্ষমতা প্রদর্শন করে ४. সাধারণীকরণ ক্ষমতা: অনুকরণীয় DOA কৌশল নির্দিষ্ট অ্যারে কনফিগারেশনের উপর নির্ভরতা হ্রাস করে

সীমাবদ্ধতা

१. বহু-বক্তা সীমাবদ্ধতা: SRP-DNN এর IDL কৌশল সর্বাধিক দুটি বক্তা ট্র্যাক করতে পারে २. অ্যারে নির্ভরতা: বিভিন্ন অ্যারে কনফিগারেশনের সাথে খাপ খাওয়ানোর জন্য SRP-DNN পুনরায় প্রশিক্ষণ প্রয়োজন ३. গণনামূলক জটিলতা: DOA অনুমানের গণনামূলক ওভারহেড যোগ করে

ভবিষ্যত দিকনির্দেশনা

१. বহু-বক্তা DOA শক্তিশালীতা: দুটিরও বেশি একযোগে বক্তা প্রক্রিয়াকরণ উন্নত করা २. যৌথ প্রশিক্ষণ কৌশল: DOA অনুমান এবং কণ্ঠস্বর বিভাজনের শেষ-থেকে-শেষ প্রশিক্ষণ অন্বেষণ করা ३. সিস্টেম কর্মক্ষমতা উন্নতি: সামগ্রিক সিস্টেম কর্মক্ষমতা আরও অপ্টিমাইজ করা

গভীর মূল্যায়ন

সুবিধা

१. শক্তিশালী উদ্ভাবনী:

প্রথমবারের মতো স্পষ্ট DOA সংকেত কার্যকরভাবে S2SND কাঠামোতে একীভূত করা
অনুকরণীয় DOA কৌশল প্রস্তাব, বহু-চ্যানেল ডেটা স্বল্পতা সমস্যা সমাধান করা
দুই-পর্যায়ের প্রশিক্ষণ কৌশল ডিজাইন যুক্তিসঙ্গত

२. পরীক্ষা ব্যাপক:

মান ডেটাসেটে সম্পূর্ণ মূল্যায়ন
বিস্তারিত অ্যাবলেশন পরীক্ষা এবং বিশ্লেষণ প্রদান করা
SOTA পদ্ধতির সাথে ন্যায্য তুলনা

३. প্রযুক্তি দৃঢ়:

DOA একীকরণ পদ্ধতি অবস্থান এনকোডিংয়ের অনুরূপ, ডিজাইন চতুর
বহু-চ্যানেল অ্যারে অভিযোজন সমস্যা পরিচালনা করা
অনলাইন এবং অফলাইন উভয় প্রয়োগ দৃশ্যপট সমর্থন করা

४. ব্যবহারিক মূল্য উচ্চ:

উল্লেখযোগ্য কর্মক্ষমতা উন্নতি (সর্বাধিক १९%+ আপেক্ষিক উন্নতি)
প্যারামিটার দক্ষতা ভাল
বিভিন্ন অ্যারে কনফিগারেশনে সম্প্রসারণযোগ্য

অপূর্ণতা

१. পদ্ধতি সীমাবদ্ধতা:

SRP-DNN এর দুই-বক্তা সীমাবদ্ধতার উপর নির্ভরশীল
বিভিন্ন অ্যারের জন্য DOA মডিউল পুনরায় প্রশিক্ষণ প্রয়োজন
অনুকরণীয় DOA এর বাস্তবতা যাচাইকরণের অপেক্ষায়

२. পরীক্ষা পরিসীমা:

শুধুমাত্র AliMeeting ডেটাসেটে যাচাই করা
বিভিন্ন শ্রবণ অবস্থায় শক্তিশালীতা বিশ্লেষণের অভাব
গণনামূলক জটিলতা বিশ্লেষণ প্রদান করা হয়নি

३. তাত্ত্বিক বিশ্লেষণ অপর্যাপ্ত:

DOA সংকেত কেন কার্যকর তার তাত্ত্বিক ব্যাখ্যার অভাব
বিভিন্ন শোরগোল এবং অনুরণন অবস্থায় কর্মক্ষমতা বিশ্লেষণ করা হয়নি

প্রভাব

१. একাডেমিক অবদান: কণ্ঠস্বর বিভাজন ক্ষেত্রে স্থানিক তথ্য ব্যবহারের নতুন চিন্তাভাবনা প্রদান করে २. ব্যবহারিক মূল্য: সভা প্রতিলিপি সিস্টেমে সরাসরি প্রয়োগ করা যায় ३. পুনরুৎপাদনযোগ্যতা: বিস্তারিত বাস্তবায়ন বিবরণ প্রদান করে, পুনরুৎপাদন সুবিধা প্রদান করে

প্রযোজ্য দৃশ্যপট

१. সভা প্রতিলিপি: বহু-ব্যক্তি সভার রিয়েল-টাইম এবং অফলাইন কণ্ঠস্বর বিভাজন २. বুদ্ধিমান সভা সিস্টেম: বক্তৃতা স্বীকৃতির সাথে সংমিশ্রণে সভা বোঝা শেষ-থেকে-শেষ ३. বহু-চ্যানেল বক্তৃতা প্রক্রিয়াকরণ: স্থানিক তথ্য ব্যবহার প্রয়োজনীয় যেকোনো বক্তৃতা বিভাজন কাজ

সংদর্ভ

পেপারটি ३६টি সম্পর্কিত সাহিত্য উদ্ধৃত করে, যা কণ্ঠস্বর বিভাজন, বহু-চ্যানেল সংকেত প্রক্রিয়াকরণ, গভীর শিক্ষা ইত্যাদি মূল ক্ষেত্রের গুরুত্বপূর্ণ কাজ অন্তর্ভুক্ত করে, গবেষণার জন্য একটি দৃঢ় তাত্ত্বিক ভিত্তি প্রদান করে।

সামগ্রিক মূল্যায়ন: এটি একটি উচ্চ-মানের গবেষণা পেপার, যা কণ্ঠস্বর বিভাজন ক্ষেত্রে স্থানিক তথ্য ব্যবহারের একটি উদ্ভাবনী পদ্ধতি প্রস্তাব করে। পরীক্ষা ডিজাইন কঠোর, ফলাফল প্রভাবশালী, এবং ব্যবহারিক মূল্য চমৎকার। প্রধান উদ্ভাবন স্পষ্ট DOA সংকেত কার্যকরভাবে ক্রম-থেকে-ক্রম কাঠামোতে একীভূত করা এবং চতুর প্রশিক্ষণ কৌশলের মাধ্যমে বহু-চ্যানেল ডেটা স্বল্পতা সমস্যা সমাধান করা।