2025-11-15T14:19:11.467059

VoiceVector: Multimodal Enrolment Vectors for Speaker Separation

Rahimi, Afouras, Zisserman
We present a transformer-based architecture for voice separation of a target speaker from multiple other speakers and ambient noise. We achieve this by using two separate neural networks: (A) An enrolment network designed to craft speaker-specific embeddings, exploiting various combinations of audio and visual modalities; and (B) A separation network that accepts both the noisy signal and enrolment vectors as inputs, outputting the clean signal of the target speaker. The novelties are: (i) the enrolment vector can be produced from: audio only, audio-visual data (using lip movements) or visual data alone (using lip movements from silent video); and (ii) the flexibility in conditioning the separation on multiple positive and negative enrolment vectors. We compare with previous methods and obtain superior performance.
academic

VoiceVector: वक्ता पृथक्करण के लिए बहुविध नामांकन वेक्टर

मूल जानकारी

  • पेपर ID: 2501.01401
  • शीर्षक: VoiceVector: वक्ता पृथक्करण के लिए बहुविध नामांकन वेक्टर
  • लेखक: अकम रहीमी, त्रियांटाफिलोस अफोरास, एंड्रयू जिसरमैन (ऑक्सफोर्ड विश्वविद्यालय VGG समूह)
  • वर्गीकरण: eess.AS (विद्युत इंजीनियरिंग और प्रणाली विज्ञान - ऑडियो और भाषण प्रसंस्करण)
  • प्रकाशन तिथि: 2 जनवरी 2025 (arXiv प्रीप्रिंट)
  • पेपर लिंक: https://arxiv.org/abs/2501.01401

सारांश

यह पेपर कई वक्ताओं और पर्यावरणीय शोर से लक्ष्य वक्ता की आवाज को अलग करने के लिए एक ट्रांसफॉर्मर-आधारित आर्किटेक्चर प्रस्तावित करता है। यह विधि दो स्वतंत्र तंत्रिका नेटवर्क का उपयोग करती है: (A) एक नामांकन नेटवर्क, जो ऑडियो और दृश्य मोडैलिटी के विभिन्न संयोजनों का उपयोग करके वक्ता-विशिष्ट एम्बेडिंग वेक्टर उत्पन्न करता है; (B) एक पृथक्करण नेटवर्क, जो शोरयुक्त संकेत और नामांकन वेक्टर को इनपुट के रूप में स्वीकार करता है और लक्ष्य वक्ता का स्वच्छ संकेत आउटपुट करता है। मुख्य नवाचार में शामिल हैं: (i) नामांकन वेक्टर केवल ऑडियो, ऑडियो-दृश्य डेटा (होंठ की गति का उपयोग करके) या केवल दृश्य डेटा (मूक वीडियो की होंठ की गति का उपयोग करके) से उत्पन्न किए जा सकते हैं; (ii) पृथक्करण प्रक्रिया के दौरान कई सकारात्मक और नकारात्मक नामांकन वेक्टर का उपयोग करके शर्तीकरण की लचीलापन।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

भाषण पृथक्करण ऑडियो प्रसंस्करण में एक मुख्य चुनौती है, विशेषकर शोरयुक्त वातावरण और बहु-वक्ता परिदृश्यों में। श्रवण सहायक, भाषण सक्रिय प्रणाली और वीडियो सम्मेलन जैसे मौजूदा अनुप्रयोग भाषण पृथक्करण के प्रदर्शन पर गंभीर रूप से निर्भर करते हैं।

मौजूदा विधियों की सीमाएं

  1. ऑडियो एम्बेडिंग-आधारित विधियां: VoiceFilter जैसी विधियां वक्ता एम्बेडिंग उत्पन्न करने के लिए स्वच्छ, शोर-मुक्त ऑडियो पर निर्भर करती हैं, जो वास्तविक शोरयुक्त वातावरण में प्राप्त करना कठिन है।
  2. ऑडियो-दृश्य विधियां: Looking to Listen, VoiceFormer जैसी विधियां दृश्य संकेतों (होंठ की गति) का लाभ उठाती हैं, लेकिन पृथक्करण प्रक्रिया के दौरान निरंतर दृश्य जानकारी प्राप्त करने की आवश्यकता होती है, जब दृश्य डेटा अवरुद्ध या अनुपलब्ध होता है तो प्रदर्शन में गिरावट आती है।

अनुसंधान प्रेरणा

यह पेपर ऑडियो और दृश्य शर्तीकरण विधियों के लाभों को संयोजित करने का लक्ष्य रखता है, जबकि प्रत्येक की अंतर्निहित चुनौतियों से बचता है। दो-चरणीय डिजाइन के माध्यम से: नामांकन चरण मजबूत वक्ता प्रतिनिधित्व उत्पन्न करने के लिए बहुविध जानकारी का लाभ उठा सकता है, जबकि पृथक्करण चरण केवल ऑडियो डेटा पर निर्भर करता है, कम्प्यूटेशनल दक्षता और दृश्य जानकारी परिवर्तन के लिए मजबूती में सुधार करता है।

मुख्य योगदान

  1. बहुविध नामांकन नेटवर्क: ऑडियो, ऑडियो-दृश्य और शुद्ध दृश्य इनपुट को संभालने में सक्षम वक्ता एम्बेडिंग नेटवर्क प्रस्तावित करता है, विशेषकर मूक वीडियो से केवल नामांकन वेक्टर उत्पन्न करने का नवाचारी समर्थन।
  2. सकारात्मक-नकारात्मक नमूना शर्तीकरण: सकारात्मक नमूने (लक्ष्य वक्ता) और नकारात्मक नमूने (गैर-लक्ष्य वक्ता) नामांकन वेक्टर का एक साथ उपयोग करके विपरीत शिक्षण तंत्र का परिचय देता है।
  3. दो-चरणीय आर्किटेक्चर लाभ: पृथक्करण चरण पूरी तरह से दृश्य जानकारी पर निर्भर नहीं है, पारंपरिक ऑडियो-दृश्य विधियों में दृश्य जानकारी की कमी की सीमा को संबोधित करता है।
  4. प्रदर्शन में सुधार: LRS3 और LibriSpeech डेटासेट पर मौजूदा विधियों से बेहतर प्रदर्शन प्राप्त किया।

विधि विवरण

कार्य परिभाषा

लक्ष्य वक्ता, अन्य वक्ताओं और पर्यावरणीय शोर युक्त मिश्रित ऑडियो संकेत को देखते हुए, लक्ष्य विशिष्ट ध्वनिक विशेषताओं वाले लक्ष्य वक्ता के भाषण घटक को अलग करना है, जबकि प्रतिस्पर्धी आवाजों और पर्यावरणीय शोर को फ़िल्टर करना है।

मॉडल आर्किटेक्चर

1. वक्ता नामांकन नेटवर्क

ऑडियो-विशिष्ट नेटवर्क (चित्र 1a):

  • वक्ता विशेषता निष्कर्षण के लिए पूर्व-प्रशिक्षित ECAPA-TDNN मॉडल का उपयोग
  • इनपुट: स्वच्छ ऑडियो का स्पेक्ट्रोग्राम S(f,t)=STFT(ac)S(f,t) = STFT(a_c)
  • आउटपुट: 192-आयामी वक्ता एम्बेडिंग SacR192S_{ac} \in \mathbb{R}^{192}

ऑडियो-दृश्य नेटवर्क (चित्र 1b):

  • ऑडियो एन्कोडिंग: EaRta×768E_a \in \mathbb{R}^{t_a \times 768}
  • वीडियो एन्कोडिंग (होंठ की गति): EvRtv×512E_v \in \mathbb{R}^{t_v \times 512}
  • चेहरे की छवि एन्कोडिंग: EfR128E_f \in \mathbb{R}^{128}
  • विशेषता संलयन: F(Ea,Ev,Ef)=(Ea;Ev;Ef)R(ta+tv+1)×768F(E_a, E_v, E_f) = (E_a; E_v; E_f) \in \mathbb{R}^{(t_a+t_v+1) \times 768}
  • संलयित विशेषताओं को तीन-परत ट्रांसफॉर्मर एन्कोडर के माध्यम से संसाधित करना
  • आउटपुट: 192-आयामी नामांकन वेक्टर SavfR192S_{avf} \in \mathbb{R}^{192}

शुद्ध दृश्य नेटवर्क (चित्र 1b):

  • केवल दृश्य जानकारी का उपयोग (होंठ की गति और/या चेहरे की छवि)
  • आउटपुट: Svf=SpeakerExtractor(Transformer([Ev;Ef]))S_{vf} = \text{SpeakerExtractor}(\text{Transformer}([E_v; E_f]))

2. वक्ता पृथक्करण नेटवर्क

  • VoiceFormer आर्किटेक्चर पर आधारित, ऑडियो एन्कोडर-डिकोडर और वक्ता एम्बेडिंग एन्कोडर सहित
  • इनपुट: शोरयुक्त ऑडियो तरंग और कई सकारात्मक-नकारात्मक नामांकन वेक्टर
  • ऑडियो और वक्ता एन्कोडिंग को संलयित करने के लिए तीन-परत ट्रांसफॉर्मर एन्कोडर का उपयोग
  • लक्ष्य वक्ता से मेल खाने वाली विशेषताओं को बढ़ाने और गैर-लक्ष्य वक्ता विशेषताओं को दबाने के लिए ध्यान तंत्र का उपयोग
  • एन्कोडर-डिकोडर के बीच स्किप कनेक्शन निम्न-स्तरीय और उच्च-स्तरीय जानकारी को संरक्षित करता है

तकनीकी नवाचार बिंदु

  1. ज्ञान आसवन प्रशिक्षण रणनीति: ऑडियो-दृश्य नामांकन नेटवर्क ज्ञान आसवन के माध्यम से ऑडियो-विशिष्ट नेटवर्क के आउटपुट की नकल करना सीखता है, विभिन्न मोडैलिटी के बीच सामंजस्य सुनिश्चित करता है।
  2. बहुविध लचीलापन: विभिन्न मोडैलिटी संयोजनों से नामांकन वेक्टर उत्पन्न करने का समर्थन करता है, जिसमें नवाचारी शुद्ध दृश्य मोड शामिल है।
  3. विपरीत शिक्षण तंत्र: सकारात्मक और नकारात्मक नमूनों का एक साथ उपयोग करके मजबूत वक्ता भेदभाव क्षमता प्रदान करता है।

प्रयोगात्मक सेटअप

डेटासेट

  • LRS3: सार्वजनिक TEDx वीडियो से बड़े पैमाने पर ऑडियो-दृश्य डेटासेट, विविध भाषण शैलियों और विषयों सहित
  • LibriSpeech: सार्वजनिक डोमेन ऑडियोबुक से बड़े पैमाने पर शुद्ध ऑडियो डेटासेट
  • परीक्षण सेट में वक्ता प्रशिक्षण के दौरान अदृश्य हैं, सामान्यीकरण क्षमता मूल्यांकन सुनिश्चित करता है

मूल्यांकन मेट्रिक्स

  • SDR (सिग्नल-टू-डिस्टोर्शन अनुपात): पृथक्करण आउटपुट की गुणवत्ता को मापता है
  • STOI (शॉर्ट-टाइम ऑब्जेक्टिव इंटेलिजिबिलिटी): संकेत समझदारी को मापता है
  • PESQ (भाषण गुणवत्ता का अनुभवात्मक मूल्यांकन): श्रोता द्वारा माना गया अनुभवात्मक स्कोर प्रतिबिंबित करता है

तुलनात्मक विधियां

  • ऑडियो विधियां: VoiceFilter
  • ऑडियो-दृश्य विधियां: Conversation, VisualVoice, VoiceFormer

कार्यान्वयन विवरण

  • PyTorch का उपयोग करके कार्यान्वयन
  • वीडियो डेटा: 25 FPS, चेहरे को वक्ता के मुंह क्षेत्र तक काटा गया
  • ऑडियो: मोनो, 16kHz नमूना दर
  • ट्रांसफॉर्मर: 3 परत, 8 ध्यान सिर, मॉडल आयाम 532
  • प्रशिक्षण डेटा: 4 सेकंड ऑडियो स्निपेट, यादृच्छिक रूप से काटे गए और गति, पिच, डेसिबल समायोजन आदि जैसे डेटा वृद्धि लागू

प्रयोगात्मक परिणाम

मुख्य परिणाम

सकारात्मक-नकारात्मक एम्बेडिंग वेक्टर प्रभाव (तालिका 1):

कॉन्फ़िगरेशन1P-0N1P-1N3P-2N3P-3N
SDR↑13.814.014.414.5

परिणाम दर्शाते हैं कि सकारात्मक-नकारात्मक नामांकन वेक्टर की संख्या बढ़ाने से पृथक्करण प्रदर्शन में सुधार होता है।

बहुविध तुलना (तालिका 2):

मोडैलिटीऑडियोदृश्यSDR↑STOI↑PESQ↑
स्वच्छ ऑडियो14.4912.52
स्वच्छ ऑडियो+होंठ14.5912.55
शोरयुक्त ऑडियो6.3581.82
शोरयुक्त ऑडियो+होंठ13.7882.45
केवल होंठ की गति11.1772.25
होंठ+चेहरा12.0802.35

SOTA विधियों के साथ तुलना (तालिका 3):

विधिडेटासेटSDR↑STOI↑PESQ↑
VoiceFormerLRS314.4922.42
VoiceVectorLRS314.5912.52
VoiceFilterLibriSpeech12.6--
VoiceVectorLibriSpeech13.1892.12

मुख्य निष्कर्ष

  1. शुद्ध दृश्य मोड की प्रभावशीलता: केवल होंठ की गति का उपयोग करके SDR 11.1 का प्रदर्शन प्राप्त करना, दृश्य जानकारी की महत्ता को प्रमाणित करता है।
  2. शोर मजबूती: जब दृश्य संकेतों के साथ संयुक्त होता है, तो शोरयुक्त ऑडियो का प्रदर्शन SDR 6.3 से 13.7 तक में नाटकीय रूप से सुधार होता है।
  3. क्रॉस-डेटासेट सामान्यीकरण: अप्रशिक्षित LibriSpeech डेटासेट पर भी आधारभूत विधि से बेहतर प्रदर्शन करता है।

संबंधित कार्य

मुख्य अनुसंधान दिशाएं

  1. बहुविध शर्तीकरण विधियां: दृश्य संकेतों (मुख्य रूप से होंठ की गति) का उपयोग करके पृथक्करण का मार्गदर्शन करना
  2. वक्ता-विशिष्ट एम्बेडिंग विधियां: स्वच्छ भाषण नमूनों से वक्ता एम्बेडिंग उत्पन्न करके शर्तीकरण

इस पेपर के लाभ

  • पारंपरिक ऑडियो-दृश्य विधियों की तुलना में: पृथक्करण चरण को दृश्य जानकारी की आवश्यकता नहीं है, मजबूती और कम्प्यूटेशनल दक्षता में सुधार करता है
  • शुद्ध ऑडियो विधियों की तुलना में: बहुविध नामांकन वेक्टर के माध्यम से मजबूत वक्ता भेदभाव क्षमता प्रदान करता है
  • नकारात्मक नमूना तंत्र का परिचय: केवल सकारात्मक नमूनों का उपयोग करने वाली पिछली विधियों की तुलना में, बेहतर विपरीत शिक्षण प्रभाव प्रदान करता है

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

  1. प्रस्तावित दो-चरणीय आर्किटेक्चर ऑडियो और दृश्य शर्तीकरण के लाभों को सफलतापूर्वक संयोजित करता है
  2. बहुविध नामांकन वेक्टर विभिन्न परिदृश्यों में अच्छा प्रदर्शन दिखाते हैं
  3. सकारात्मक-नकारात्मक नमूनों की विपरीत शिक्षण तंत्र प्रभावी रूप से पृथक्करण प्रदर्शन में सुधार करता है
  4. मानक डेटासेट पर मौजूदा विधियों से बेहतर प्रदर्शन प्राप्त किया

सीमाएं

  1. संश्लेषित डेटा निर्भरता: मुख्य रूप से संश्लेषित मिश्रित ऑडियो पर प्रशिक्षित और परीक्षित, वास्तविक दुनिया के शोर वातावरण के साथ डोमेन अंतर हो सकता है
  2. दृश्य गुणवत्ता आवश्यकता: शुद्ध दृश्य मोड को अभी भी स्पष्ट होंठ की गति वीडियो की आवश्यकता है
  3. कम्प्यूटेशनल जटिलता: दो-चरणीय आर्किटेक्चर समग्र प्रणाली जटिलता में वृद्धि करता है

भविष्य की दिशाएं

  1. वास्तविक शोर वातावरण में सत्यापन और अनुकूलन
  2. अधिक दृश्य मोडैलिटी (जैसे हाथ के इशारे, भाव) के संलयन की खोज
  3. अंत-से-अंत अनुकूलन रणनीति का आगे का अनुसंधान

गहन मूल्यांकन

शक्तियां

  1. तकनीकी नवाचार मजबूत: पहली बार शुद्ध दृश्य मोडैलिटी से वक्ता नामांकन को लागू करना, दृश्य भाषण प्रसंस्करण के लिए नई दिशा खोलता है
  2. आर्किटेक्चर डिजाइन तर्कसंगत: दो-चरणीय डिजाइन प्रदर्शन और व्यावहारिकता को चतुराई से संतुलित करता है
  3. पर्याप्त प्रयोग: विभिन्न मोडैलिटी संयोजनों और तुलनात्मक विधियों का व्यापक मूल्यांकन
  4. स्पष्ट प्रदर्शन सुधार: कई मेट्रिक्स पर मौजूदा SOTA विधियों से बेहतर

कमियां

  1. वास्तविक परिदृश्य सत्यापन अपर्याप्त: मुख्य रूप से संश्लेषित डेटा पर आधारित, वास्तविक शोर वातावरण का सत्यापन अनुपस्थित
  2. कम्प्यूटेशनल दक्षता विश्लेषण अनुपस्थित: विस्तृत कम्प्यूटेशनल जटिलता और अनुमान समय विश्लेषण प्रदान नहीं किया गया
  3. विफलता केस विश्लेषण अपर्याप्त: विधि की सीमाओं का गहन विश्लेषण अनुपस्थित

प्रभाव

  1. शैक्षणिक मूल्य: बहुविध भाषण पृथक्करण के लिए नई अनुसंधान सोच प्रदान करता है
  2. व्यावहारिक मूल्य: श्रवण सहायक, वीडियो सम्मेलन आदि वास्तविक अनुप्रयोगों में संभावित मूल्य
  3. पुनरुत्पादनीयता: विस्तृत कार्यान्वयन विवरण प्रदान करता है, अनुसंधान पुनरुत्पादन में सहायक

लागू परिदृश्य

  1. वीडियो सम्मेलन प्रणाली: प्रतिभागियों की दृश्य जानकारी का उपयोग करके भाषण पृथक्करण
  2. स्मार्ट श्रवण सहायक उपकरण: शोरयुक्त वातावरण में लक्ष्य वक्ता की आवाज को उजागर करना
  3. बहुमाध्यम सामग्री प्रसंस्करण: ऑडियो-दृश्य सामग्री से विशिष्ट वक्ता की आवाज निकालना

संदर्भ

पेपर भाषण पृथक्करण क्षेत्र के महत्वपूर्ण कार्यों को उद्धृत करता है, जिसमें शामिल हैं:

  • VoiceFilter श्रृंखला: वक्ता एम्बेडिंग-आधारित पृथक्करण विधि
  • Looking to Listen, VoiceFormer: ऑडियो-दृश्य पृथक्करण के प्रतिनिधि कार्य
  • ECAPA-TDNN: वक्ता पहचान का शास्त्रीय मॉडल
  • LRS3, LibriSpeech: भाषण प्रसंस्करण के मानक डेटासेट

समग्र मूल्यांकन: यह तकनीकी नवाचार में मजबूत और प्रयोगात्मक डिजाइन में तर्कसंगत एक उत्कृष्ट पेपर है। चतुर दो-चरणीय आर्किटेक्चर डिजाइन और बहुविध संलयन रणनीति के माध्यम से, भाषण पृथक्करण कार्य पर उल्लेखनीय प्रदर्शन सुधार प्राप्त किया गया है। विशेषकर शुद्ध दृश्य मोडैलिटी का नवाचारी अनुप्रयोग इस क्षेत्र के लिए नई अनुसंधान दिशा प्रदान करता है। यद्यपि वास्तविक परिदृश्य सत्यापन में सुधार की गुंजाइश है, लेकिन समग्र कार्य गुणवत्ता उच्च है और महत्वपूर्ण शैक्षणिक और व्यावहारिक मूल्य रखता है।