We present a transformer-based architecture for voice separation of a target speaker from multiple other speakers and ambient noise. We achieve this by using two separate neural networks: (A) An enrolment network designed to craft speaker-specific embeddings, exploiting various combinations of audio and visual modalities; and (B) A separation network that accepts both the noisy signal and enrolment vectors as inputs, outputting the clean signal of the target speaker. The novelties are: (i) the enrolment vector can be produced from: audio only, audio-visual data (using lip movements) or visual data alone (using lip movements from silent video); and (ii) the flexibility in conditioning the separation on multiple positive and negative enrolment vectors. We compare with previous methods and obtain superior performance.
- पेपर ID: 2501.01401
- शीर्षक: VoiceVector: वक्ता पृथक्करण के लिए बहुविध नामांकन वेक्टर
- लेखक: अकम रहीमी, त्रियांटाफिलोस अफोरास, एंड्रयू जिसरमैन (ऑक्सफोर्ड विश्वविद्यालय VGG समूह)
- वर्गीकरण: eess.AS (विद्युत इंजीनियरिंग और प्रणाली विज्ञान - ऑडियो और भाषण प्रसंस्करण)
- प्रकाशन तिथि: 2 जनवरी 2025 (arXiv प्रीप्रिंट)
- पेपर लिंक: https://arxiv.org/abs/2501.01401
यह पेपर कई वक्ताओं और पर्यावरणीय शोर से लक्ष्य वक्ता की आवाज को अलग करने के लिए एक ट्रांसफॉर्मर-आधारित आर्किटेक्चर प्रस्तावित करता है। यह विधि दो स्वतंत्र तंत्रिका नेटवर्क का उपयोग करती है: (A) एक नामांकन नेटवर्क, जो ऑडियो और दृश्य मोडैलिटी के विभिन्न संयोजनों का उपयोग करके वक्ता-विशिष्ट एम्बेडिंग वेक्टर उत्पन्न करता है; (B) एक पृथक्करण नेटवर्क, जो शोरयुक्त संकेत और नामांकन वेक्टर को इनपुट के रूप में स्वीकार करता है और लक्ष्य वक्ता का स्वच्छ संकेत आउटपुट करता है। मुख्य नवाचार में शामिल हैं: (i) नामांकन वेक्टर केवल ऑडियो, ऑडियो-दृश्य डेटा (होंठ की गति का उपयोग करके) या केवल दृश्य डेटा (मूक वीडियो की होंठ की गति का उपयोग करके) से उत्पन्न किए जा सकते हैं; (ii) पृथक्करण प्रक्रिया के दौरान कई सकारात्मक और नकारात्मक नामांकन वेक्टर का उपयोग करके शर्तीकरण की लचीलापन।
भाषण पृथक्करण ऑडियो प्रसंस्करण में एक मुख्य चुनौती है, विशेषकर शोरयुक्त वातावरण और बहु-वक्ता परिदृश्यों में। श्रवण सहायक, भाषण सक्रिय प्रणाली और वीडियो सम्मेलन जैसे मौजूदा अनुप्रयोग भाषण पृथक्करण के प्रदर्शन पर गंभीर रूप से निर्भर करते हैं।
- ऑडियो एम्बेडिंग-आधारित विधियां: VoiceFilter जैसी विधियां वक्ता एम्बेडिंग उत्पन्न करने के लिए स्वच्छ, शोर-मुक्त ऑडियो पर निर्भर करती हैं, जो वास्तविक शोरयुक्त वातावरण में प्राप्त करना कठिन है।
- ऑडियो-दृश्य विधियां: Looking to Listen, VoiceFormer जैसी विधियां दृश्य संकेतों (होंठ की गति) का लाभ उठाती हैं, लेकिन पृथक्करण प्रक्रिया के दौरान निरंतर दृश्य जानकारी प्राप्त करने की आवश्यकता होती है, जब दृश्य डेटा अवरुद्ध या अनुपलब्ध होता है तो प्रदर्शन में गिरावट आती है।
यह पेपर ऑडियो और दृश्य शर्तीकरण विधियों के लाभों को संयोजित करने का लक्ष्य रखता है, जबकि प्रत्येक की अंतर्निहित चुनौतियों से बचता है। दो-चरणीय डिजाइन के माध्यम से: नामांकन चरण मजबूत वक्ता प्रतिनिधित्व उत्पन्न करने के लिए बहुविध जानकारी का लाभ उठा सकता है, जबकि पृथक्करण चरण केवल ऑडियो डेटा पर निर्भर करता है, कम्प्यूटेशनल दक्षता और दृश्य जानकारी परिवर्तन के लिए मजबूती में सुधार करता है।
- बहुविध नामांकन नेटवर्क: ऑडियो, ऑडियो-दृश्य और शुद्ध दृश्य इनपुट को संभालने में सक्षम वक्ता एम्बेडिंग नेटवर्क प्रस्तावित करता है, विशेषकर मूक वीडियो से केवल नामांकन वेक्टर उत्पन्न करने का नवाचारी समर्थन।
- सकारात्मक-नकारात्मक नमूना शर्तीकरण: सकारात्मक नमूने (लक्ष्य वक्ता) और नकारात्मक नमूने (गैर-लक्ष्य वक्ता) नामांकन वेक्टर का एक साथ उपयोग करके विपरीत शिक्षण तंत्र का परिचय देता है।
- दो-चरणीय आर्किटेक्चर लाभ: पृथक्करण चरण पूरी तरह से दृश्य जानकारी पर निर्भर नहीं है, पारंपरिक ऑडियो-दृश्य विधियों में दृश्य जानकारी की कमी की सीमा को संबोधित करता है।
- प्रदर्शन में सुधार: LRS3 और LibriSpeech डेटासेट पर मौजूदा विधियों से बेहतर प्रदर्शन प्राप्त किया।
लक्ष्य वक्ता, अन्य वक्ताओं और पर्यावरणीय शोर युक्त मिश्रित ऑडियो संकेत को देखते हुए, लक्ष्य विशिष्ट ध्वनिक विशेषताओं वाले लक्ष्य वक्ता के भाषण घटक को अलग करना है, जबकि प्रतिस्पर्धी आवाजों और पर्यावरणीय शोर को फ़िल्टर करना है।
ऑडियो-विशिष्ट नेटवर्क (चित्र 1a):
- वक्ता विशेषता निष्कर्षण के लिए पूर्व-प्रशिक्षित ECAPA-TDNN मॉडल का उपयोग
- इनपुट: स्वच्छ ऑडियो का स्पेक्ट्रोग्राम S(f,t)=STFT(ac)
- आउटपुट: 192-आयामी वक्ता एम्बेडिंग Sac∈R192
ऑडियो-दृश्य नेटवर्क (चित्र 1b):
- ऑडियो एन्कोडिंग: Ea∈Rta×768
- वीडियो एन्कोडिंग (होंठ की गति): Ev∈Rtv×512
- चेहरे की छवि एन्कोडिंग: Ef∈R128
- विशेषता संलयन: F(Ea,Ev,Ef)=(Ea;Ev;Ef)∈R(ta+tv+1)×768
- संलयित विशेषताओं को तीन-परत ट्रांसफॉर्मर एन्कोडर के माध्यम से संसाधित करना
- आउटपुट: 192-आयामी नामांकन वेक्टर Savf∈R192
शुद्ध दृश्य नेटवर्क (चित्र 1b):
- केवल दृश्य जानकारी का उपयोग (होंठ की गति और/या चेहरे की छवि)
- आउटपुट: Svf=SpeakerExtractor(Transformer([Ev;Ef]))
- VoiceFormer आर्किटेक्चर पर आधारित, ऑडियो एन्कोडर-डिकोडर और वक्ता एम्बेडिंग एन्कोडर सहित
- इनपुट: शोरयुक्त ऑडियो तरंग और कई सकारात्मक-नकारात्मक नामांकन वेक्टर
- ऑडियो और वक्ता एन्कोडिंग को संलयित करने के लिए तीन-परत ट्रांसफॉर्मर एन्कोडर का उपयोग
- लक्ष्य वक्ता से मेल खाने वाली विशेषताओं को बढ़ाने और गैर-लक्ष्य वक्ता विशेषताओं को दबाने के लिए ध्यान तंत्र का उपयोग
- एन्कोडर-डिकोडर के बीच स्किप कनेक्शन निम्न-स्तरीय और उच्च-स्तरीय जानकारी को संरक्षित करता है
- ज्ञान आसवन प्रशिक्षण रणनीति: ऑडियो-दृश्य नामांकन नेटवर्क ज्ञान आसवन के माध्यम से ऑडियो-विशिष्ट नेटवर्क के आउटपुट की नकल करना सीखता है, विभिन्न मोडैलिटी के बीच सामंजस्य सुनिश्चित करता है।
- बहुविध लचीलापन: विभिन्न मोडैलिटी संयोजनों से नामांकन वेक्टर उत्पन्न करने का समर्थन करता है, जिसमें नवाचारी शुद्ध दृश्य मोड शामिल है।
- विपरीत शिक्षण तंत्र: सकारात्मक और नकारात्मक नमूनों का एक साथ उपयोग करके मजबूत वक्ता भेदभाव क्षमता प्रदान करता है।
- LRS3: सार्वजनिक TEDx वीडियो से बड़े पैमाने पर ऑडियो-दृश्य डेटासेट, विविध भाषण शैलियों और विषयों सहित
- LibriSpeech: सार्वजनिक डोमेन ऑडियोबुक से बड़े पैमाने पर शुद्ध ऑडियो डेटासेट
- परीक्षण सेट में वक्ता प्रशिक्षण के दौरान अदृश्य हैं, सामान्यीकरण क्षमता मूल्यांकन सुनिश्चित करता है
- SDR (सिग्नल-टू-डिस्टोर्शन अनुपात): पृथक्करण आउटपुट की गुणवत्ता को मापता है
- STOI (शॉर्ट-टाइम ऑब्जेक्टिव इंटेलिजिबिलिटी): संकेत समझदारी को मापता है
- PESQ (भाषण गुणवत्ता का अनुभवात्मक मूल्यांकन): श्रोता द्वारा माना गया अनुभवात्मक स्कोर प्रतिबिंबित करता है
- ऑडियो विधियां: VoiceFilter
- ऑडियो-दृश्य विधियां: Conversation, VisualVoice, VoiceFormer
- PyTorch का उपयोग करके कार्यान्वयन
- वीडियो डेटा: 25 FPS, चेहरे को वक्ता के मुंह क्षेत्र तक काटा गया
- ऑडियो: मोनो, 16kHz नमूना दर
- ट्रांसफॉर्मर: 3 परत, 8 ध्यान सिर, मॉडल आयाम 532
- प्रशिक्षण डेटा: 4 सेकंड ऑडियो स्निपेट, यादृच्छिक रूप से काटे गए और गति, पिच, डेसिबल समायोजन आदि जैसे डेटा वृद्धि लागू
सकारात्मक-नकारात्मक एम्बेडिंग वेक्टर प्रभाव (तालिका 1):
| कॉन्फ़िगरेशन | 1P-0N | 1P-1N | 3P-2N | 3P-3N |
|---|
| SDR↑ | 13.8 | 14.0 | 14.4 | 14.5 |
परिणाम दर्शाते हैं कि सकारात्मक-नकारात्मक नामांकन वेक्टर की संख्या बढ़ाने से पृथक्करण प्रदर्शन में सुधार होता है।
बहुविध तुलना (तालिका 2):
| मोडैलिटी | ऑडियो | दृश्य | SDR↑ | STOI↑ | PESQ↑ |
|---|
| स्वच्छ ऑडियो | ✓ | ✗ | 14.4 | 91 | 2.52 |
| स्वच्छ ऑडियो+होंठ | ✓ | ✓ | 14.5 | 91 | 2.55 |
| शोरयुक्त ऑडियो | ✓ | ✗ | 6.3 | 58 | 1.82 |
| शोरयुक्त ऑडियो+होंठ | ✓ | ✓ | 13.7 | 88 | 2.45 |
| केवल होंठ की गति | ✗ | ✓ | 11.1 | 77 | 2.25 |
| होंठ+चेहरा | ✗ | ✓ | 12.0 | 80 | 2.35 |
SOTA विधियों के साथ तुलना (तालिका 3):
| विधि | डेटासेट | SDR↑ | STOI↑ | PESQ↑ |
|---|
| VoiceFormer | LRS3 | 14.4 | 92 | 2.42 |
| VoiceVector | LRS3 | 14.5 | 91 | 2.52 |
| VoiceFilter | LibriSpeech | 12.6 | - | - |
| VoiceVector | LibriSpeech | 13.1 | 89 | 2.12 |
- शुद्ध दृश्य मोड की प्रभावशीलता: केवल होंठ की गति का उपयोग करके SDR 11.1 का प्रदर्शन प्राप्त करना, दृश्य जानकारी की महत्ता को प्रमाणित करता है।
- शोर मजबूती: जब दृश्य संकेतों के साथ संयुक्त होता है, तो शोरयुक्त ऑडियो का प्रदर्शन SDR 6.3 से 13.7 तक में नाटकीय रूप से सुधार होता है।
- क्रॉस-डेटासेट सामान्यीकरण: अप्रशिक्षित LibriSpeech डेटासेट पर भी आधारभूत विधि से बेहतर प्रदर्शन करता है।
- बहुविध शर्तीकरण विधियां: दृश्य संकेतों (मुख्य रूप से होंठ की गति) का उपयोग करके पृथक्करण का मार्गदर्शन करना
- वक्ता-विशिष्ट एम्बेडिंग विधियां: स्वच्छ भाषण नमूनों से वक्ता एम्बेडिंग उत्पन्न करके शर्तीकरण
- पारंपरिक ऑडियो-दृश्य विधियों की तुलना में: पृथक्करण चरण को दृश्य जानकारी की आवश्यकता नहीं है, मजबूती और कम्प्यूटेशनल दक्षता में सुधार करता है
- शुद्ध ऑडियो विधियों की तुलना में: बहुविध नामांकन वेक्टर के माध्यम से मजबूत वक्ता भेदभाव क्षमता प्रदान करता है
- नकारात्मक नमूना तंत्र का परिचय: केवल सकारात्मक नमूनों का उपयोग करने वाली पिछली विधियों की तुलना में, बेहतर विपरीत शिक्षण प्रभाव प्रदान करता है
- प्रस्तावित दो-चरणीय आर्किटेक्चर ऑडियो और दृश्य शर्तीकरण के लाभों को सफलतापूर्वक संयोजित करता है
- बहुविध नामांकन वेक्टर विभिन्न परिदृश्यों में अच्छा प्रदर्शन दिखाते हैं
- सकारात्मक-नकारात्मक नमूनों की विपरीत शिक्षण तंत्र प्रभावी रूप से पृथक्करण प्रदर्शन में सुधार करता है
- मानक डेटासेट पर मौजूदा विधियों से बेहतर प्रदर्शन प्राप्त किया
- संश्लेषित डेटा निर्भरता: मुख्य रूप से संश्लेषित मिश्रित ऑडियो पर प्रशिक्षित और परीक्षित, वास्तविक दुनिया के शोर वातावरण के साथ डोमेन अंतर हो सकता है
- दृश्य गुणवत्ता आवश्यकता: शुद्ध दृश्य मोड को अभी भी स्पष्ट होंठ की गति वीडियो की आवश्यकता है
- कम्प्यूटेशनल जटिलता: दो-चरणीय आर्किटेक्चर समग्र प्रणाली जटिलता में वृद्धि करता है
- वास्तविक शोर वातावरण में सत्यापन और अनुकूलन
- अधिक दृश्य मोडैलिटी (जैसे हाथ के इशारे, भाव) के संलयन की खोज
- अंत-से-अंत अनुकूलन रणनीति का आगे का अनुसंधान
- तकनीकी नवाचार मजबूत: पहली बार शुद्ध दृश्य मोडैलिटी से वक्ता नामांकन को लागू करना, दृश्य भाषण प्रसंस्करण के लिए नई दिशा खोलता है
- आर्किटेक्चर डिजाइन तर्कसंगत: दो-चरणीय डिजाइन प्रदर्शन और व्यावहारिकता को चतुराई से संतुलित करता है
- पर्याप्त प्रयोग: विभिन्न मोडैलिटी संयोजनों और तुलनात्मक विधियों का व्यापक मूल्यांकन
- स्पष्ट प्रदर्शन सुधार: कई मेट्रिक्स पर मौजूदा SOTA विधियों से बेहतर
- वास्तविक परिदृश्य सत्यापन अपर्याप्त: मुख्य रूप से संश्लेषित डेटा पर आधारित, वास्तविक शोर वातावरण का सत्यापन अनुपस्थित
- कम्प्यूटेशनल दक्षता विश्लेषण अनुपस्थित: विस्तृत कम्प्यूटेशनल जटिलता और अनुमान समय विश्लेषण प्रदान नहीं किया गया
- विफलता केस विश्लेषण अपर्याप्त: विधि की सीमाओं का गहन विश्लेषण अनुपस्थित
- शैक्षणिक मूल्य: बहुविध भाषण पृथक्करण के लिए नई अनुसंधान सोच प्रदान करता है
- व्यावहारिक मूल्य: श्रवण सहायक, वीडियो सम्मेलन आदि वास्तविक अनुप्रयोगों में संभावित मूल्य
- पुनरुत्पादनीयता: विस्तृत कार्यान्वयन विवरण प्रदान करता है, अनुसंधान पुनरुत्पादन में सहायक
- वीडियो सम्मेलन प्रणाली: प्रतिभागियों की दृश्य जानकारी का उपयोग करके भाषण पृथक्करण
- स्मार्ट श्रवण सहायक उपकरण: शोरयुक्त वातावरण में लक्ष्य वक्ता की आवाज को उजागर करना
- बहुमाध्यम सामग्री प्रसंस्करण: ऑडियो-दृश्य सामग्री से विशिष्ट वक्ता की आवाज निकालना
पेपर भाषण पृथक्करण क्षेत्र के महत्वपूर्ण कार्यों को उद्धृत करता है, जिसमें शामिल हैं:
- VoiceFilter श्रृंखला: वक्ता एम्बेडिंग-आधारित पृथक्करण विधि
- Looking to Listen, VoiceFormer: ऑडियो-दृश्य पृथक्करण के प्रतिनिधि कार्य
- ECAPA-TDNN: वक्ता पहचान का शास्त्रीय मॉडल
- LRS3, LibriSpeech: भाषण प्रसंस्करण के मानक डेटासेट
समग्र मूल्यांकन: यह तकनीकी नवाचार में मजबूत और प्रयोगात्मक डिजाइन में तर्कसंगत एक उत्कृष्ट पेपर है। चतुर दो-चरणीय आर्किटेक्चर डिजाइन और बहुविध संलयन रणनीति के माध्यम से, भाषण पृथक्करण कार्य पर उल्लेखनीय प्रदर्शन सुधार प्राप्त किया गया है। विशेषकर शुद्ध दृश्य मोडैलिटी का नवाचारी अनुप्रयोग इस क्षेत्र के लिए नई अनुसंधान दिशा प्रदान करता है। यद्यपि वास्तविक परिदृश्य सत्यापन में सुधार की गुंजाइश है, लेकिन समग्र कार्य गुणवत्ता उच्च है और महत्वपूर्ण शैक्षणिक और व्यावहारिक मूल्य रखता है।