2025-11-15T14:19:11.467059

VoiceVector: Multimodal Enrolment Vectors for Speaker Separation

Rahimi, Afouras, Zisserman

We present a transformer-based architecture for voice separation of a target speaker from multiple other speakers and ambient noise. We achieve this by using two separate neural networks: (A) An enrolment network designed to craft speaker-specific embeddings, exploiting various combinations of audio and visual modalities; and (B) A separation network that accepts both the noisy signal and enrolment vectors as inputs, outputting the clean signal of the target speaker. The novelties are: (i) the enrolment vector can be produced from: audio only, audio-visual data (using lip movements) or visual data alone (using lip movements from silent video); and (ii) the flexibility in conditioning the separation on multiple positive and negative enrolment vectors. We compare with previous methods and obtain superior performance.

academic

VoiceVector: বহুমোডাল নিবন্ধন ভেক্টর স্পিকার বিচ্ছেদনের জন্য

মৌলিক তথ্য

পেপার আইডি: 2501.01401
শিরোনাম: VoiceVector: Multimodal Enrolment Vectors for Speaker Separation
লেখক: Akam Rahimi, Triantafyllos Afouras, Andrew Zisserman (অক্সফোর্ড বিশ্ববিদ্যালয়ের VGG গ্রুপ)
শ্রেণীবিভাগ: eess.AS (বৈদ্যুতিক প্রকৌশল এবং সিস্টেম বিজ্ঞান - অডিও এবং বক্তৃতা প্রক্রিয়াকরণ)
প্রকাশনা সময়: ২০২৫ সালের ২ জানুয়ারি (arXiv প্রাক-প্রিন্ট)
পেপার লিঙ্ক: https://arxiv.org/abs/2501.01401

সারসংক্ষেপ

এই পেপারটি একটি ট্রান্সফরমার-ভিত্তিক আর্কিটেকচার প্রস্তাব করে যা একাধিক বক্তা এবং পরিবেশগত শব্দ থেকে লক্ষ্য বক্তার কণ্ঠস্বর বিচ্ছেদ করে। এই পদ্ধতিটি দুটি স্বাধীন স্নায়ু নেটওয়ার্ক ব্যবহার করে: (A) একটি নিবন্ধন নেটওয়ার্ক যা অডিও এবং ভিজ্যুয়াল মোডালিটির বিভিন্ন সমন্বয় ব্যবহার করে বক্তা-নির্দিষ্ট এম্বেডিং ভেক্টর তৈরি করে; (B) একটি বিচ্ছেদন নেটওয়ার্ক যা শব্দযুক্ত সংকেত এবং নিবন্ধন ভেক্টর ইনপুট হিসাবে গ্রহণ করে এবং লক্ষ্য বক্তার পরিষ্কার সংকেত আউটপুট করে। প্রধান উদ্ভাবনী বিষয়গুলির মধ্যে রয়েছে: (i) নিবন্ধন ভেক্টরগুলি শুধুমাত্র অডিও, অডিও-ভিজ্যুয়াল ডেটা (ঠোঁটের গতিবিধি ব্যবহার করে) বা শুধুমাত্র ভিজ্যুয়াল ডেটা (নিরব ভিডিওর ঠোঁটের গতিবিধি ব্যবহার করে) থেকে তৈরি করা যায়; (ii) বিচ্ছেদন প্রক্রিয়ায় একাধিক ইতিবাচক এবং নেতিবাচক নিবন্ধন ভেক্টর ব্যবহার করে শর্তাধীন করার নমনীয়তা।

গবেষণা পটভূমি এবং প্রেরণা

সমস্যা সংজ্ঞা

বক্তৃতা বিচ্ছেদন অডিও প্রক্রিয়াকরণে একটি মূল চ্যালেঞ্জ, বিশেষত শব্দময় পরিবেশ এবং একাধিক বক্তার পরিস্থিতিতে। শ্রবণযন্ত্র, বক্তৃতা-সক্রিয় সিস্টেম এবং ভিডিও সম্মেলনের মতো বিদ্যমান অ্যাপ্লিকেশনগুলি বক্তৃতা বিচ্ছেদনের কর্মক্ষমতার উপর গুরুতরভাবে নির্ভর করে।

বিদ্যমান পদ্ধতির সীমাবদ্ধতা

অডিও এম্বেডিং-ভিত্তিক পদ্ধতি: VoiceFilter-এর মতো পদ্ধতিগুলি বক্তা এম্বেডিং তৈরি করতে পরিষ্কার, শব্দমুক্ত অডিওর উপর নির্ভর করে, যা বাস্তব শব্দময় পরিবেশে অর্জন করা কঠিন।
অডিও-ভিজ্যুয়াল পদ্ধতি: Looking to Listen এবং VoiceFormer-এর মতো পদ্ধতিগুলি ভিজ্যুয়াল সংকেত (ঠোঁটের গতিবিধি) ব্যবহার করলেও, বিচ্ছেদন প্রক্রিয়ায় ক্রমাগত ভিজ্যুয়াল তথ্য পেতে হয়, এবং ভিজ্যুয়াল ডেটা অস্পষ্ট বা অনুপস্থিত থাকলে কর্মক্ষমতা হ্রাস পায়।

গবেষণা প্রেরণা

এই পেপারটি অডিও এবং ভিজ্যুয়াল শর্তাধীন পদ্ধতির সুবিধাগুলি একত্রিত করার লক্ষ্য রাখে, একই সাথে প্রতিটির অন্তর্নিহিত চ্যালেঞ্জগুলি এড়ায়। দুই-পর্যায়ের ডিজাইনের মাধ্যমে: নিবন্ধন পর্যায় শক্তিশালী বক্তা প্রতিনিধিত্ব তৈরি করতে বহুমোডাল তথ্য ব্যবহার করতে পারে, যখন বিচ্ছেদন পর্যায় শুধুমাত্র অডিও ডেটার উপর নির্ভর করে, গণনামূলক দক্ষতা এবং ভিজ্যুয়াল তথ্য পরিবর্তনের প্রতি শক্তিশালীতা বৃদ্ধি করে।

মূল অবদান

বহুমোডাল নিবন্ধন নেটওয়ার্ক: অডিও, অডিও-ভিজ্যুয়াল এবং বিশুদ্ধ ভিজ্যুয়াল ইনপুট পরিচালনা করতে সক্ষম বক্তা এম্বেডিং নেটওয়ার্ক প্রস্তাব করে, বিশেষত নিরব ভিডিও থেকে নিবন্ধন ভেক্টর তৈরি করার জন্য উদ্ভাবনীভাবে সমর্থন করে।
ইতিবাচক এবং নেতিবাচক নমুনা শর্তাধীনতা: ইতিবাচক নমুনা (লক্ষ্য বক্তা) এবং নেতিবাচক নমুনা (অ-লক্ষ্য বক্তা) নিবন্ধন ভেক্টর একযোগে ব্যবহার করে একটি বৈপরীত্যমূলক শেখার প্রক্রিয়া চালু করে।
দুই-পর্যায়ের আর্কিটেকচার সুবিধা: বিচ্ছেদন পর্যায় সম্পূর্ণভাবে ভিজ্যুয়াল তথ্যের উপর নির্ভর করে না, ঐতিহ্যবাহী অডিও-ভিজ্যুয়াল পদ্ধতির ভিজ্যুয়াল তথ্য অনুপস্থিতির সীমাবদ্ধতা সমাধান করে।
কর্মক্ষমতা উন্নতি: LRS3 এবং LibriSpeech ডেটাসেটে বিদ্যমান পদ্ধতির চেয়ে উন্নত কর্মক্ষমতা অর্জন করে।

পদ্ধতির বিস্তারিত ব্যাখ্যা

কাজের সংজ্ঞা

লক্ষ্য বক্তা, অন্যান্য বক্তা এবং পরিবেশগত শব্দ সম্বলিত মিশ্রিত অডিও সংকেত দেওয়া হলে, লক্ষ্য হল নির্দিষ্ট শব্দগত বৈশিষ্ট্য সহ লক্ষ্য বক্তার বক্তৃতা উপাদান বিচ্ছেদ করা, একই সাথে প্রতিযোগী কণ্ঠস্বর এবং পরিবেশগত শব্দ ফিল্টার করা।

মডেল আর্কিটেকচার

1. বক্তা নিবন্ধন নেটওয়ার্ক

অডিও-শুধু নেটওয়ার্ক (চিত্র 1a):

পূর্ব-প্রশিক্ষিত ECAPA-TDNN মডেল বক্তা বৈশিষ্ট্য নিষ্কাশক হিসাবে ব্যবহার করে
ইনপুট: পরিষ্কার অডিওর স্পেকট্রোগ্রাম $S(f,t) = STFT(a_c)$
আউটপুট: 192-মাত্রিক বক্তা এম্বেডিং $S_{ac} \in \mathbb{R}^{192}$

অডিও-ভিজ্যুয়াল নেটওয়ার্ক (চিত্র 1b):

অডিও এনকোডিং: $E_a \in \mathbb{R}^{t_a \times 768}$
ভিডিও এনকোডিং (ঠোঁটের গতিবিধি): $E_v \in \mathbb{R}^{t_v \times 512}$
মুখের ছবি এনকোডিং: $E_f \in \mathbb{R}^{128}$
বৈশিষ্ট্য সংমিশ্রণ: $F(E_a, E_v, E_f) = (E_a; E_v; E_f) \in \mathbb{R}^{(t_a+t_v+1) \times 768}$
তিন-স্তরের ট্রান্সফরমার এনকোডার দ্বারা সংমিশ্রিত বৈশিষ্ট্য প্রক্রিয়াকরণ
আউটপুট: 192-মাত্রিক নিবন্ধন ভেক্টর $S_{avf} \in \mathbb{R}^{192}$

বিশুদ্ধ ভিজ্যুয়াল নেটওয়ার্ক (চিত্র 1b):

শুধুমাত্র ভিজ্যুয়াল তথ্য ব্যবহার করে (ঠোঁটের গতিবিধি এবং/অথবা মুখের ছবি)
আউটপুট: $S_{vf} = \text{SpeakerExtractor}(\text{Transformer}([E_v; E_f]))$

2. বক্তা বিচ্ছেদন নেটওয়ার্ক

VoiceFormer আর্কিটেকচারের উপর ভিত্তি করে, অডিও এনকোডার-ডিকোডার এবং বক্তা এম্বেডিং এনকোডার সহ
ইনপুট: শব্দময় অডিও তরঙ্গ এবং একাধিক ইতিবাচক এবং নেতিবাচক নিবন্ধন ভেক্টর
অডিও এবং বক্তা এনকোডিং সংমিশ্রণের জন্য তিন-স্তরের ট্রান্সফরমার এনকোডার ব্যবহার করে
লক্ষ্য বক্তার সাথে মেলে এমন বৈশিষ্ট্য বৃদ্ধি করতে এবং অ-লক্ষ্য বক্তা বৈশিষ্ট্য দমন করতে মনোযোগ প্রক্রিয়া ব্যবহার করে
এনকোডার-ডিকোডার মধ্যে স্কিপ সংযোগ নিম্ন এবং উচ্চ-স্তরের তথ্য সংরক্ষণ করে

প্রযুক্তিগত উদ্ভাবনী বিষয়

জ্ঞান পাতন প্রশিক্ষণ কৌশল: অডিও-ভিজ্যুয়াল নিবন্ধন নেটওয়ার্ক জ্ঞান পাতনের মাধ্যমে অডিও-শুধু নেটওয়ার্কের আউটপুট অনুকরণ করতে শেখে, বিভিন্ন মোডালিটি জুড়ে সামঞ্জস্য নিশ্চিত করে।
বহুমোডাল নমনীয়তা: বিভিন্ন মোডালিটি সমন্বয় থেকে নিবন্ধন ভেক্টর তৈরি সমর্থন করে, উদ্ভাবনী বিশুদ্ধ ভিজ্যুয়াল মোড সহ।
বৈপরীত্যমূলক শেখার প্রক্রিয়া: ইতিবাচক এবং নেতিবাচক নমুনা একযোগে ব্যবহার করে আরও শক্তিশালী বক্তা পার্থক্য ক্ষমতা প্রদান করে।

পরীক্ষামূলক সেটআপ

ডেটাসেট

LRS3: জনসাধারণের TEDx ভিডিও থেকে বৃহৎ-স্কেল অডিও-ভিজ্যুয়াল ডেটাসেট, বৈচিত্র্যময় বক্তৃতা শৈলী এবং বিষয় সহ
LibriSpeech: জনসাধারণের ডোমেইন অডিওবুক থেকে বৃহৎ-স্কেল বিশুদ্ধ অডিও ডেটাসেট
পরীক্ষা সেটের বক্তারা প্রশিক্ষণ প্রক্রিয়ায় দেখা যায়নি, সাধারণীকরণ ক্ষমতা মূল্যায়ন নিশ্চিত করে

মূল্যায়ন মেট্রিক্স

SDR (Signal-to-Distortion Ratio): বিচ্ছেদন আউটপুটের গুণমান পরিমাপ করে
STOI (Short-Time Objective Intelligibility): সংকেত বোধগম্যতা পরিমাণ করে
PESQ (Perceptual Evaluation of Speech Quality): শ্রোতা উপলব্ধি করা উপলব্ধি স্কোর প্রতিফলিত করে

তুলনামূলক পদ্ধতি

অডিও পদ্ধতি: VoiceFilter
অডিও-ভিজ্যুয়াল পদ্ধতি: Conversation, VisualVoice, VoiceFormer

বাস্তবায়ন বিবরণ

PyTorch ব্যবহার করে বাস্তবায়িত
ভিডিও ডেটা: 25 FPS, মুখ বক্তার মুখের অঞ্চলে ক্রপ করা
অডিও: মনো, 16kHz নমুনা হার
ট্রান্সফরমার: 3 স্তর, 8 মনোযোগ মাথা, মডেল মাত্রা 532
প্রশিক্ষণ ডেটা: 4 সেকেন্ড অডিও খণ্ড, র্যান্ডমলি ক্রপ করা এবং গতি, পিচ, ডেসিবেল সমন্বয় ইত্যাদি ডেটা বৃদ্ধি প্রয়োগ করা

পরীক্ষামূলক ফলাফল

প্রধান ফলাফল

ইতিবাচক এবং নেতিবাচক এম্বেডিং ভেক্টর প্রভাব (টেবিল 1):

কনফিগারেশন	1P-0N	1P-1N	3P-2N	3P-3N
SDR↑	13.8	14.0	14.4	14.5

ফলাফল দেখায় যে ইতিবাচক এবং নেতিবাচক নিবন্ধন ভেক্টরের সংখ্যা বৃদ্ধি বিচ্ছেদন কর্মক্ষমতা উন্নত করতে পারে।

বহুমোডাল তুলনা (টেবিল 2):

মোডালিটি	অডিও	ভিজ্যুয়াল	SDR↑	STOI↑	PESQ↑
পরিষ্কার অডিও	✓	✗	14.4	91	2.52
পরিষ্কার অডিও+ঠোঁট	✓	✓	14.5	91	2.55
শব্দময় অডিও	✓	✗	6.3	58	1.82
শব্দময় অডিও+ঠোঁট	✓	✓	13.7	88	2.45
শুধুমাত্র ঠোঁটের গতিবিধি	✗	✓	11.1	77	2.25
ঠোঁট+মুখ	✗	✓	12.0	80	2.35

SOTA পদ্ধতির সাথে তুলনা (টেবিল 3):

পদ্ধতি	ডেটাসেট	SDR↑	STOI↑	PESQ↑
VoiceFormer	LRS3	14.4	92	2.42
VoiceVector	LRS3	14.5	91	2.52
VoiceFilter	LibriSpeech	12.6	-	-
VoiceVector	LibriSpeech	13.1	89	2.12

মূল আবিষ্কার

বিশুদ্ধ ভিজ্যুয়াল মোডের কার্যকারিতা: শুধুমাত্র ঠোঁটের গতিবিধি ব্যবহার করে SDR 11.1 কর্মক্ষমতা অর্জন করা যায়, ভিজ্যুয়াল তথ্যের গুরুত্ব প্রমাণ করে।
শব্দ শক্তিশালীতা: ভিজ্যুয়াল সংকেত একত্রিত করার সময়, শব্দময় অডিওর কর্মক্ষমতা SDR 6.3 থেকে 13.7-এ উল্লেখযোগ্যভাবে বৃদ্ধি পায়।
ক্রস-ডেটাসেট সাধারণীকরণ: প্রশিক্ষিত নয় এমন LibriSpeech ডেটাসেটে এখনও বেসলাইন পদ্ধতি অতিক্রম করতে পারে।

উপসংহার এবং আলোচনা

প্রধান উপসংহার

প্রস্তাবিত দুই-পর্যায়ের আর্কিটেকচার সফলভাবে অডিও এবং ভিজ্যুয়াল শর্তাধীনতার সুবিধা একত্রিত করে
বহুমোডাল নিবন্ধন ভেক্টর বিভিন্ন পরিস্থিতিতে ভাল কর্মক্ষমতা প্রদর্শন করে
ইতিবাচক এবং নেতিবাচক নমুনার বৈপরীত্যমূলক শেখার প্রক্রিয়া কার্যকরভাবে বিচ্ছেদন কর্মক্ষমতা উন্নত করে
মান ডেটাসেটে বিদ্যমান পদ্ধতির চেয়ে উন্নত কর্মক্ষমতা অর্জন করে

সীমাবদ্ধতা

সংশ্লেষিত ডেটা নির্ভরতা: প্রধানত সংশ্লেষিত মিশ্রিত অডিওতে প্রশিক্ষিত এবং পরীক্ষিত, বাস্তব-বিশ্ব শব্দ পরিবেশের সাথে ডোমেইন পার্থক্য থাকতে পারে
ভিজ্যুয়াল গুণমান প্রয়োজনীয়তা: বিশুদ্ধ ভিজ্যুয়াল মোড এখনও স্পষ্ট ঠোঁটের গতিবিধি ভিডিও প্রয়োজন
গণনামূলক জটিলতা: দুই-পর্যায়ের আর্কিটেকচার সামগ্রিক সিস্টেম জটিলতা বৃদ্ধি করে

ভবিষ্যত দিকনির্দেশনা

বাস্তব শব্দ পরিবেশে যাচাইকরণ এবং অপ্টিমাইজেশন
আরও ভিজ্যুয়াল মোডালিটি (যেমন অঙ্গভঙ্গি, অভিব্যক্তি) সংমিশ্রণ অন্বেষণ
এন্ড-টু-এন্ড অপ্টিমাইজেশন কৌশলের আরও গবেষণা

গভীর মূল্যায়ন

সুবিধা

প্রযুক্তিগত উদ্ভাবন শক্তিশালী: প্রথমবারের মতো বিশুদ্ধ ভিজ্যুয়াল মোডালিটি বক্তা নিবন্ধন বাস্তবায়ন করে, ভিজ্যুয়াল বক্তৃতা প্রক্রিয়াকরণের জন্য নতুন দিকনির্দেশনা খোলে
আর্কিটেকচার ডিজাইন যুক্তিসঙ্গত: দুই-পর্যায়ের ডিজাইন কর্মক্ষমতা এবং ব্যবহারিকতার মধ্যে চতুরভাবে ভারসাম্য রাখে
পরীক্ষা ব্যাপক: বিভিন্ন মোডালিটি সমন্বয় এবং তুলনামূলক পদ্ধতির ব্যাপক মূল্যায়ন অন্তর্ভুক্ত করে
কর্মক্ষমতা উন্নতি স্পষ্ট: একাধিক মেট্রিক্সে বিদ্যমান SOTA পদ্ধতি অতিক্রম করে

অপূর্ণতা

বাস্তব পরিস্থিতি যাচাইকরণ অপর্যাপ্ত: প্রধানত সংশ্লেষিত ডেটার উপর ভিত্তি করে, বাস্তব শব্দ পরিবেশে যাচাইকরণ অনুপস্থিত
গণনামূলক দক্ষতা বিশ্লেষণ অনুপস্থিত: বিস্তারিত গণনামূলক জটিলতা এবং অনুমান সময় বিশ্লেষণ প্রদান করা হয়নি
ব্যর্থতার ক্ষেত্রে বিশ্লেষণ অপর্যাপ্ত: পদ্ধতির সীমাবদ্ধতার গভীর বিশ্লেষণ অনুপস্থিত

প্রভাব

একাডেমিক মূল্য: বহুমোডাল বক্তৃতা বিচ্ছেদনের জন্য নতুন গবেষণা চিন্তাভাবনা প্রদান করে
ব্যবহারিক মূল্য: শ্রবণযন্ত্র, ভিডিও সম্মেলন ইত্যাদি বাস্তব অ্যাপ্লিকেশনে সম্ভাব্য মূল্য রয়েছে
পুনরুৎপাদনযোগ্যতা: বিস্তারিত বাস্তবায়ন বিবরণ প্রদান করে, গবেষণা পুনরুৎপাদন সহজতর করে

প্রযোজ্য পরিস্থিতি

ভিডিও সম্মেলন সিস্টেম: অংশগ্রহণকারীদের ভিজ্যুয়াল তথ্য ব্যবহার করে বক্তৃতা বিচ্ছেদন
স্মার্ট শ্রবণযন্ত্র ডিভাইস: শব্দময় পরিবেশে লক্ষ্য বক্তার কণ্ঠস্বর হাইলাইট করা
মাল্টিমিডিয়া সামগ্রী প্রক্রিয়াকরণ: অডিও-ভিজ্যুয়াল সামগ্রী থেকে নির্দিষ্ট বক্তার বক্তৃতা নিষ্কাশন

রেফারেন্স

পেপারটি বক্তৃতা বিচ্ছেদন ক্ষেত্রের গুরুত্বপূর্ণ কাজ উদ্ধৃত করে, যার মধ্যে রয়েছে:

VoiceFilter সিরিজ: বক্তা এম্বেডিং-ভিত্তিক বিচ্ছেদন পদ্ধতি
Looking to Listen, VoiceFormer: অডিও-ভিজ্যুয়াল বিচ্ছেদনের প্রতিনিধিত্বমূলক কাজ
ECAPA-TDNN: বক্তা স্বীকৃতির ক্লাসিক মডেল
LRS3, LibriSpeech: বক্তৃতা প্রক্রিয়াকরণের মান ডেটাসেট

সামগ্রিক মূল্যায়ন: এটি প্রযুক্তিগত উদ্ভাবন শক্তিশালী এবং পরীক্ষামূলক ডিজাইন যুক্তিসঙ্গত একটি চমৎকার পেপার। চতুর দুই-পর্যায়ের আর্কিটেকচার ডিজাইন এবং বহুমোডাল সংমিশ্রণ কৌশলের মাধ্যমে, বক্তৃতা বিচ্ছেদন কাজে উল্লেখযোগ্য কর্মক্ষমতা উন্নতি অর্জন করে। বিশেষত বিশুদ্ধ ভিজ্যুয়াল মোডালিটির উদ্ভাবনী প্রয়োগ এই ক্ষেত্রের জন্য নতুন গবেষণা দিকনির্দেশনা প্রদান করে। যদিও বাস্তব পরিস্থিতি যাচাইকরণে উন্নতির অবকাশ রয়েছে, তবে সামগ্রিক কাজের গুণমান উচ্চ এবং উল্লেখযোগ্য একাডেমিক এবং ব্যবহারিক মূল্য রয়েছে।