We present a transformer-based architecture for voice separation of a target speaker from multiple other speakers and ambient noise. We achieve this by using two separate neural networks: (A) An enrolment network designed to craft speaker-specific embeddings, exploiting various combinations of audio and visual modalities; and (B) A separation network that accepts both the noisy signal and enrolment vectors as inputs, outputting the clean signal of the target speaker. The novelties are: (i) the enrolment vector can be produced from: audio only, audio-visual data (using lip movements) or visual data alone (using lip movements from silent video); and (ii) the flexibility in conditioning the separation on multiple positive and negative enrolment vectors. We compare with previous methods and obtain superior performance.
- পেপার আইডি: 2501.01401
- শিরোনাম: VoiceVector: Multimodal Enrolment Vectors for Speaker Separation
- লেখক: Akam Rahimi, Triantafyllos Afouras, Andrew Zisserman (অক্সফোর্ড বিশ্ববিদ্যালয়ের VGG গ্রুপ)
- শ্রেণীবিভাগ: eess.AS (বৈদ্যুতিক প্রকৌশল এবং সিস্টেম বিজ্ঞান - অডিও এবং বক্তৃতা প্রক্রিয়াকরণ)
- প্রকাশনা সময়: ২০২৫ সালের ২ জানুয়ারি (arXiv প্রাক-প্রিন্ট)
- পেপার লিঙ্ক: https://arxiv.org/abs/2501.01401
এই পেপারটি একটি ট্রান্সফরমার-ভিত্তিক আর্কিটেকচার প্রস্তাব করে যা একাধিক বক্তা এবং পরিবেশগত শব্দ থেকে লক্ষ্য বক্তার কণ্ঠস্বর বিচ্ছেদ করে। এই পদ্ধতিটি দুটি স্বাধীন স্নায়ু নেটওয়ার্ক ব্যবহার করে: (A) একটি নিবন্ধন নেটওয়ার্ক যা অডিও এবং ভিজ্যুয়াল মোডালিটির বিভিন্ন সমন্বয় ব্যবহার করে বক্তা-নির্দিষ্ট এম্বেডিং ভেক্টর তৈরি করে; (B) একটি বিচ্ছেদন নেটওয়ার্ক যা শব্দযুক্ত সংকেত এবং নিবন্ধন ভেক্টর ইনপুট হিসাবে গ্রহণ করে এবং লক্ষ্য বক্তার পরিষ্কার সংকেত আউটপুট করে। প্রধান উদ্ভাবনী বিষয়গুলির মধ্যে রয়েছে: (i) নিবন্ধন ভেক্টরগুলি শুধুমাত্র অডিও, অডিও-ভিজ্যুয়াল ডেটা (ঠোঁটের গতিবিধি ব্যবহার করে) বা শুধুমাত্র ভিজ্যুয়াল ডেটা (নিরব ভিডিওর ঠোঁটের গতিবিধি ব্যবহার করে) থেকে তৈরি করা যায়; (ii) বিচ্ছেদন প্রক্রিয়ায় একাধিক ইতিবাচক এবং নেতিবাচক নিবন্ধন ভেক্টর ব্যবহার করে শর্তাধীন করার নমনীয়তা।
বক্তৃতা বিচ্ছেদন অডিও প্রক্রিয়াকরণে একটি মূল চ্যালেঞ্জ, বিশেষত শব্দময় পরিবেশ এবং একাধিক বক্তার পরিস্থিতিতে। শ্রবণযন্ত্র, বক্তৃতা-সক্রিয় সিস্টেম এবং ভিডিও সম্মেলনের মতো বিদ্যমান অ্যাপ্লিকেশনগুলি বক্তৃতা বিচ্ছেদনের কর্মক্ষমতার উপর গুরুতরভাবে নির্ভর করে।
- অডিও এম্বেডিং-ভিত্তিক পদ্ধতি: VoiceFilter-এর মতো পদ্ধতিগুলি বক্তা এম্বেডিং তৈরি করতে পরিষ্কার, শব্দমুক্ত অডিওর উপর নির্ভর করে, যা বাস্তব শব্দময় পরিবেশে অর্জন করা কঠিন।
- অডিও-ভিজ্যুয়াল পদ্ধতি: Looking to Listen এবং VoiceFormer-এর মতো পদ্ধতিগুলি ভিজ্যুয়াল সংকেত (ঠোঁটের গতিবিধি) ব্যবহার করলেও, বিচ্ছেদন প্রক্রিয়ায় ক্রমাগত ভিজ্যুয়াল তথ্য পেতে হয়, এবং ভিজ্যুয়াল ডেটা অস্পষ্ট বা অনুপস্থিত থাকলে কর্মক্ষমতা হ্রাস পায়।
এই পেপারটি অডিও এবং ভিজ্যুয়াল শর্তাধীন পদ্ধতির সুবিধাগুলি একত্রিত করার লক্ষ্য রাখে, একই সাথে প্রতিটির অন্তর্নিহিত চ্যালেঞ্জগুলি এড়ায়। দুই-পর্যায়ের ডিজাইনের মাধ্যমে: নিবন্ধন পর্যায় শক্তিশালী বক্তা প্রতিনিধিত্ব তৈরি করতে বহুমোডাল তথ্য ব্যবহার করতে পারে, যখন বিচ্ছেদন পর্যায় শুধুমাত্র অডিও ডেটার উপর নির্ভর করে, গণনামূলক দক্ষতা এবং ভিজ্যুয়াল তথ্য পরিবর্তনের প্রতি শক্তিশালীতা বৃদ্ধি করে।
- বহুমোডাল নিবন্ধন নেটওয়ার্ক: অডিও, অডিও-ভিজ্যুয়াল এবং বিশুদ্ধ ভিজ্যুয়াল ইনপুট পরিচালনা করতে সক্ষম বক্তা এম্বেডিং নেটওয়ার্ক প্রস্তাব করে, বিশেষত নিরব ভিডিও থেকে নিবন্ধন ভেক্টর তৈরি করার জন্য উদ্ভাবনীভাবে সমর্থন করে।
- ইতিবাচক এবং নেতিবাচক নমুনা শর্তাধীনতা: ইতিবাচক নমুনা (লক্ষ্য বক্তা) এবং নেতিবাচক নমুনা (অ-লক্ষ্য বক্তা) নিবন্ধন ভেক্টর একযোগে ব্যবহার করে একটি বৈপরীত্যমূলক শেখার প্রক্রিয়া চালু করে।
- দুই-পর্যায়ের আর্কিটেকচার সুবিধা: বিচ্ছেদন পর্যায় সম্পূর্ণভাবে ভিজ্যুয়াল তথ্যের উপর নির্ভর করে না, ঐতিহ্যবাহী অডিও-ভিজ্যুয়াল পদ্ধতির ভিজ্যুয়াল তথ্য অনুপস্থিতির সীমাবদ্ধতা সমাধান করে।
- কর্মক্ষমতা উন্নতি: LRS3 এবং LibriSpeech ডেটাসেটে বিদ্যমান পদ্ধতির চেয়ে উন্নত কর্মক্ষমতা অর্জন করে।
লক্ষ্য বক্তা, অন্যান্য বক্তা এবং পরিবেশগত শব্দ সম্বলিত মিশ্রিত অডিও সংকেত দেওয়া হলে, লক্ষ্য হল নির্দিষ্ট শব্দগত বৈশিষ্ট্য সহ লক্ষ্য বক্তার বক্তৃতা উপাদান বিচ্ছেদ করা, একই সাথে প্রতিযোগী কণ্ঠস্বর এবং পরিবেশগত শব্দ ফিল্টার করা।
অডিও-শুধু নেটওয়ার্ক (চিত্র 1a):
- পূর্ব-প্রশিক্ষিত ECAPA-TDNN মডেল বক্তা বৈশিষ্ট্য নিষ্কাশক হিসাবে ব্যবহার করে
- ইনপুট: পরিষ্কার অডিওর স্পেকট্রোগ্রাম S(f,t)=STFT(ac)
- আউটপুট: 192-মাত্রিক বক্তা এম্বেডিং Sac∈R192
অডিও-ভিজ্যুয়াল নেটওয়ার্ক (চিত্র 1b):
- অডিও এনকোডিং: Ea∈Rta×768
- ভিডিও এনকোডিং (ঠোঁটের গতিবিধি): Ev∈Rtv×512
- মুখের ছবি এনকোডিং: Ef∈R128
- বৈশিষ্ট্য সংমিশ্রণ: F(Ea,Ev,Ef)=(Ea;Ev;Ef)∈R(ta+tv+1)×768
- তিন-স্তরের ট্রান্সফরমার এনকোডার দ্বারা সংমিশ্রিত বৈশিষ্ট্য প্রক্রিয়াকরণ
- আউটপুট: 192-মাত্রিক নিবন্ধন ভেক্টর Savf∈R192
বিশুদ্ধ ভিজ্যুয়াল নেটওয়ার্ক (চিত্র 1b):
- শুধুমাত্র ভিজ্যুয়াল তথ্য ব্যবহার করে (ঠোঁটের গতিবিধি এবং/অথবা মুখের ছবি)
- আউটপুট: Svf=SpeakerExtractor(Transformer([Ev;Ef]))
- VoiceFormer আর্কিটেকচারের উপর ভিত্তি করে, অডিও এনকোডার-ডিকোডার এবং বক্তা এম্বেডিং এনকোডার সহ
- ইনপুট: শব্দময় অডিও তরঙ্গ এবং একাধিক ইতিবাচক এবং নেতিবাচক নিবন্ধন ভেক্টর
- অডিও এবং বক্তা এনকোডিং সংমিশ্রণের জন্য তিন-স্তরের ট্রান্সফরমার এনকোডার ব্যবহার করে
- লক্ষ্য বক্তার সাথে মেলে এমন বৈশিষ্ট্য বৃদ্ধি করতে এবং অ-লক্ষ্য বক্তা বৈশিষ্ট্য দমন করতে মনোযোগ প্রক্রিয়া ব্যবহার করে
- এনকোডার-ডিকোডার মধ্যে স্কিপ সংযোগ নিম্ন এবং উচ্চ-স্তরের তথ্য সংরক্ষণ করে
- জ্ঞান পাতন প্রশিক্ষণ কৌশল: অডিও-ভিজ্যুয়াল নিবন্ধন নেটওয়ার্ক জ্ঞান পাতনের মাধ্যমে অডিও-শুধু নেটওয়ার্কের আউটপুট অনুকরণ করতে শেখে, বিভিন্ন মোডালিটি জুড়ে সামঞ্জস্য নিশ্চিত করে।
- বহুমোডাল নমনীয়তা: বিভিন্ন মোডালিটি সমন্বয় থেকে নিবন্ধন ভেক্টর তৈরি সমর্থন করে, উদ্ভাবনী বিশুদ্ধ ভিজ্যুয়াল মোড সহ।
- বৈপরীত্যমূলক শেখার প্রক্রিয়া: ইতিবাচক এবং নেতিবাচক নমুনা একযোগে ব্যবহার করে আরও শক্তিশালী বক্তা পার্থক্য ক্ষমতা প্রদান করে।
- LRS3: জনসাধারণের TEDx ভিডিও থেকে বৃহৎ-স্কেল অডিও-ভিজ্যুয়াল ডেটাসেট, বৈচিত্র্যময় বক্তৃতা শৈলী এবং বিষয় সহ
- LibriSpeech: জনসাধারণের ডোমেইন অডিওবুক থেকে বৃহৎ-স্কেল বিশুদ্ধ অডিও ডেটাসেট
- পরীক্ষা সেটের বক্তারা প্রশিক্ষণ প্রক্রিয়ায় দেখা যায়নি, সাধারণীকরণ ক্ষমতা মূল্যায়ন নিশ্চিত করে
- SDR (Signal-to-Distortion Ratio): বিচ্ছেদন আউটপুটের গুণমান পরিমাপ করে
- STOI (Short-Time Objective Intelligibility): সংকেত বোধগম্যতা পরিমাণ করে
- PESQ (Perceptual Evaluation of Speech Quality): শ্রোতা উপলব্ধি করা উপলব্ধি স্কোর প্রতিফলিত করে
- অডিও পদ্ধতি: VoiceFilter
- অডিও-ভিজ্যুয়াল পদ্ধতি: Conversation, VisualVoice, VoiceFormer
- PyTorch ব্যবহার করে বাস্তবায়িত
- ভিডিও ডেটা: 25 FPS, মুখ বক্তার মুখের অঞ্চলে ক্রপ করা
- অডিও: মনো, 16kHz নমুনা হার
- ট্রান্সফরমার: 3 স্তর, 8 মনোযোগ মাথা, মডেল মাত্রা 532
- প্রশিক্ষণ ডেটা: 4 সেকেন্ড অডিও খণ্ড, র্যান্ডমলি ক্রপ করা এবং গতি, পিচ, ডেসিবেল সমন্বয় ইত্যাদি ডেটা বৃদ্ধি প্রয়োগ করা
ইতিবাচক এবং নেতিবাচক এম্বেডিং ভেক্টর প্রভাব (টেবিল 1):
| কনফিগারেশন | 1P-0N | 1P-1N | 3P-2N | 3P-3N |
|---|
| SDR↑ | 13.8 | 14.0 | 14.4 | 14.5 |
ফলাফল দেখায় যে ইতিবাচক এবং নেতিবাচক নিবন্ধন ভেক্টরের সংখ্যা বৃদ্ধি বিচ্ছেদন কর্মক্ষমতা উন্নত করতে পারে।
বহুমোডাল তুলনা (টেবিল 2):
| মোডালিটি | অডিও | ভিজ্যুয়াল | SDR↑ | STOI↑ | PESQ↑ |
|---|
| পরিষ্কার অডিও | ✓ | ✗ | 14.4 | 91 | 2.52 |
| পরিষ্কার অডিও+ঠোঁট | ✓ | ✓ | 14.5 | 91 | 2.55 |
| শব্দময় অডিও | ✓ | ✗ | 6.3 | 58 | 1.82 |
| শব্দময় অডিও+ঠোঁট | ✓ | ✓ | 13.7 | 88 | 2.45 |
| শুধুমাত্র ঠোঁটের গতিবিধি | ✗ | ✓ | 11.1 | 77 | 2.25 |
| ঠোঁট+মুখ | ✗ | ✓ | 12.0 | 80 | 2.35 |
SOTA পদ্ধতির সাথে তুলনা (টেবিল 3):
| পদ্ধতি | ডেটাসেট | SDR↑ | STOI↑ | PESQ↑ |
|---|
| VoiceFormer | LRS3 | 14.4 | 92 | 2.42 |
| VoiceVector | LRS3 | 14.5 | 91 | 2.52 |
| VoiceFilter | LibriSpeech | 12.6 | - | - |
| VoiceVector | LibriSpeech | 13.1 | 89 | 2.12 |
- বিশুদ্ধ ভিজ্যুয়াল মোডের কার্যকারিতা: শুধুমাত্র ঠোঁটের গতিবিধি ব্যবহার করে SDR 11.1 কর্মক্ষমতা অর্জন করা যায়, ভিজ্যুয়াল তথ্যের গুরুত্ব প্রমাণ করে।
- শব্দ শক্তিশালীতা: ভিজ্যুয়াল সংকেত একত্রিত করার সময়, শব্দময় অডিওর কর্মক্ষমতা SDR 6.3 থেকে 13.7-এ উল্লেখযোগ্যভাবে বৃদ্ধি পায়।
- ক্রস-ডেটাসেট সাধারণীকরণ: প্রশিক্ষিত নয় এমন LibriSpeech ডেটাসেটে এখনও বেসলাইন পদ্ধতি অতিক্রম করতে পারে।
- বহুমোডাল শর্তাধীনতা পদ্ধতি: ভিজ্যুয়াল সংকেত (প্রধানত ঠোঁটের গতিবিধি) ব্যবহার করে বিচ্ছেদন নির্দেশনা
- বক্তা-নির্দিষ্ট এম্বেডিং পদ্ধতি: পরিষ্কার বক্তৃতা নমুনা থেকে বক্তা এম্বেডিং তৈরি করে শর্তাধীনতা
- ঐতিহ্যবাহী অডিও-ভিজ্যুয়াল পদ্ধতির তুলনায়: বিচ্ছেদন পর্যায়ে ভিজ্যুয়াল তথ্যের প্রয়োজন নেই, শক্তিশালীতা এবং গণনামূলক দক্ষতা উন্নত করে
- বিশুদ্ধ অডিও পদ্ধতির তুলনায়: বহুমোডাল নিবন্ধন ভেক্টরের মাধ্যমে শক্তিশালী বক্তা পার্থক্য ক্ষমতা প্রদান করে
- নেতিবাচক নমুনা প্রক্রিয়া চালু করে: শুধুমাত্র ইতিবাচক নমুনা ব্যবহার করা পূর্ববর্তী পদ্ধতির তুলনায় আরও ভাল বৈপরীত্যমূলক শেখা প্রভাব প্রদান করে
- প্রস্তাবিত দুই-পর্যায়ের আর্কিটেকচার সফলভাবে অডিও এবং ভিজ্যুয়াল শর্তাধীনতার সুবিধা একত্রিত করে
- বহুমোডাল নিবন্ধন ভেক্টর বিভিন্ন পরিস্থিতিতে ভাল কর্মক্ষমতা প্রদর্শন করে
- ইতিবাচক এবং নেতিবাচক নমুনার বৈপরীত্যমূলক শেখার প্রক্রিয়া কার্যকরভাবে বিচ্ছেদন কর্মক্ষমতা উন্নত করে
- মান ডেটাসেটে বিদ্যমান পদ্ধতির চেয়ে উন্নত কর্মক্ষমতা অর্জন করে
- সংশ্লেষিত ডেটা নির্ভরতা: প্রধানত সংশ্লেষিত মিশ্রিত অডিওতে প্রশিক্ষিত এবং পরীক্ষিত, বাস্তব-বিশ্ব শব্দ পরিবেশের সাথে ডোমেইন পার্থক্য থাকতে পারে
- ভিজ্যুয়াল গুণমান প্রয়োজনীয়তা: বিশুদ্ধ ভিজ্যুয়াল মোড এখনও স্পষ্ট ঠোঁটের গতিবিধি ভিডিও প্রয়োজন
- গণনামূলক জটিলতা: দুই-পর্যায়ের আর্কিটেকচার সামগ্রিক সিস্টেম জটিলতা বৃদ্ধি করে
- বাস্তব শব্দ পরিবেশে যাচাইকরণ এবং অপ্টিমাইজেশন
- আরও ভিজ্যুয়াল মোডালিটি (যেমন অঙ্গভঙ্গি, অভিব্যক্তি) সংমিশ্রণ অন্বেষণ
- এন্ড-টু-এন্ড অপ্টিমাইজেশন কৌশলের আরও গবেষণা
- প্রযুক্তিগত উদ্ভাবন শক্তিশালী: প্রথমবারের মতো বিশুদ্ধ ভিজ্যুয়াল মোডালিটি বক্তা নিবন্ধন বাস্তবায়ন করে, ভিজ্যুয়াল বক্তৃতা প্রক্রিয়াকরণের জন্য নতুন দিকনির্দেশনা খোলে
- আর্কিটেকচার ডিজাইন যুক্তিসঙ্গত: দুই-পর্যায়ের ডিজাইন কর্মক্ষমতা এবং ব্যবহারিকতার মধ্যে চতুরভাবে ভারসাম্য রাখে
- পরীক্ষা ব্যাপক: বিভিন্ন মোডালিটি সমন্বয় এবং তুলনামূলক পদ্ধতির ব্যাপক মূল্যায়ন অন্তর্ভুক্ত করে
- কর্মক্ষমতা উন্নতি স্পষ্ট: একাধিক মেট্রিক্সে বিদ্যমান SOTA পদ্ধতি অতিক্রম করে
- বাস্তব পরিস্থিতি যাচাইকরণ অপর্যাপ্ত: প্রধানত সংশ্লেষিত ডেটার উপর ভিত্তি করে, বাস্তব শব্দ পরিবেশে যাচাইকরণ অনুপস্থিত
- গণনামূলক দক্ষতা বিশ্লেষণ অনুপস্থিত: বিস্তারিত গণনামূলক জটিলতা এবং অনুমান সময় বিশ্লেষণ প্রদান করা হয়নি
- ব্যর্থতার ক্ষেত্রে বিশ্লেষণ অপর্যাপ্ত: পদ্ধতির সীমাবদ্ধতার গভীর বিশ্লেষণ অনুপস্থিত
- একাডেমিক মূল্য: বহুমোডাল বক্তৃতা বিচ্ছেদনের জন্য নতুন গবেষণা চিন্তাভাবনা প্রদান করে
- ব্যবহারিক মূল্য: শ্রবণযন্ত্র, ভিডিও সম্মেলন ইত্যাদি বাস্তব অ্যাপ্লিকেশনে সম্ভাব্য মূল্য রয়েছে
- পুনরুৎপাদনযোগ্যতা: বিস্তারিত বাস্তবায়ন বিবরণ প্রদান করে, গবেষণা পুনরুৎপাদন সহজতর করে
- ভিডিও সম্মেলন সিস্টেম: অংশগ্রহণকারীদের ভিজ্যুয়াল তথ্য ব্যবহার করে বক্তৃতা বিচ্ছেদন
- স্মার্ট শ্রবণযন্ত্র ডিভাইস: শব্দময় পরিবেশে লক্ষ্য বক্তার কণ্ঠস্বর হাইলাইট করা
- মাল্টিমিডিয়া সামগ্রী প্রক্রিয়াকরণ: অডিও-ভিজ্যুয়াল সামগ্রী থেকে নির্দিষ্ট বক্তার বক্তৃতা নিষ্কাশন
পেপারটি বক্তৃতা বিচ্ছেদন ক্ষেত্রের গুরুত্বপূর্ণ কাজ উদ্ধৃত করে, যার মধ্যে রয়েছে:
- VoiceFilter সিরিজ: বক্তা এম্বেডিং-ভিত্তিক বিচ্ছেদন পদ্ধতি
- Looking to Listen, VoiceFormer: অডিও-ভিজ্যুয়াল বিচ্ছেদনের প্রতিনিধিত্বমূলক কাজ
- ECAPA-TDNN: বক্তা স্বীকৃতির ক্লাসিক মডেল
- LRS3, LibriSpeech: বক্তৃতা প্রক্রিয়াকরণের মান ডেটাসেট
সামগ্রিক মূল্যায়ন: এটি প্রযুক্তিগত উদ্ভাবন শক্তিশালী এবং পরীক্ষামূলক ডিজাইন যুক্তিসঙ্গত একটি চমৎকার পেপার। চতুর দুই-পর্যায়ের আর্কিটেকচার ডিজাইন এবং বহুমোডাল সংমিশ্রণ কৌশলের মাধ্যমে, বক্তৃতা বিচ্ছেদন কাজে উল্লেখযোগ্য কর্মক্ষমতা উন্নতি অর্জন করে। বিশেষত বিশুদ্ধ ভিজ্যুয়াল মোডালিটির উদ্ভাবনী প্রয়োগ এই ক্ষেত্রের জন্য নতুন গবেষণা দিকনির্দেশনা প্রদান করে। যদিও বাস্তব পরিস্থিতি যাচাইকরণে উন্নতির অবকাশ রয়েছে, তবে সামগ্রিক কাজের গুণমান উচ্চ এবং উল্লেখযোগ্য একাডেমিক এবং ব্যবহারিক মূল্য রয়েছে।