2025-11-15T14:19:11.467059

VoiceVector: Multimodal Enrolment Vectors for Speaker Separation

Rahimi, Afouras, Zisserman
We present a transformer-based architecture for voice separation of a target speaker from multiple other speakers and ambient noise. We achieve this by using two separate neural networks: (A) An enrolment network designed to craft speaker-specific embeddings, exploiting various combinations of audio and visual modalities; and (B) A separation network that accepts both the noisy signal and enrolment vectors as inputs, outputting the clean signal of the target speaker. The novelties are: (i) the enrolment vector can be produced from: audio only, audio-visual data (using lip movements) or visual data alone (using lip movements from silent video); and (ii) the flexibility in conditioning the separation on multiple positive and negative enrolment vectors. We compare with previous methods and obtain superior performance.
academic

VoiceVector: Multimodale Registrierungsvektoren zur Sprechertrennung

Grundinformationen

  • Papier-ID: 2501.01401
  • Titel: VoiceVector: Multimodale Registrierungsvektoren zur Sprechertrennung
  • Autoren: Akam Rahimi, Triantafyllos Afouras, Andrew Zisserman (VGG-Gruppe, Universität Oxford)
  • Klassifizierung: eess.AS (Elektrotechnik und Systemwissenschaften – Audio- und Sprachverarbeitung)
  • Veröffentlichungsdatum: 2. Januar 2025 (arXiv-Preprint)
  • Papierlink: https://arxiv.org/abs/2501.01401

Zusammenfassung

In diesem Artikel wird eine auf Transformer basierende Architektur vorgestellt, um die Stimme eines Zielsprechers aus mehreren Sprechern und Umgebungsrauschen zu trennen. Das Verfahren nutzt zwei unabhängige neuronale Netze: (A) ein Registrierungsnetz, das verschiedene Kombinationen von Audio- und Visualmodalitäten nutzt, um sprecherspezifische Einbettungsvektoren zu generieren; (B) ein Trennungsnetz, das verrauschte Signale und Registrierungsvektoren als Eingabe akzeptiert und das saubere Signal des Zielsprechers ausgibt. Die wichtigsten Innovationen umfassen: (i) Registrierungsvektoren können aus reinen Audiodaten, audiovisuellen Daten (unter Verwendung von Lippenbewegungen) oder reinen Visualdaten (unter Verwendung von Lippenbewegungen aus stummem Video) generiert werden; (ii) Flexibilität bei der Verwendung mehrerer positiver und negativer Registrierungsvektoren während des Trennungsprozesses.

Forschungshintergrund und Motivation

Problemdefinition

Sprechertrennung ist eine Kernherausforderung in der Audioverarbeitung, besonders in lauten Umgebungen und Szenarien mit mehreren Sprechern. Bestehende Anwendungen wie Hörhilfen, sprachaktivierte Systeme und Videokonferenzen sind stark von der Leistung der Sprechertrennung abhängig.

Einschränkungen bestehender Methoden

  1. Audio-Einbettungs-basierte Methoden: Methoden wie VoiceFilter sind auf saubere, rauschfreie Audiodaten angewiesen, um Sprechereinbettungen zu generieren, was in praktischen Rauschumgebungen schwierig zu erreichen ist.
  2. Audiovisuelle Methoden: Methoden wie Looking to Listen und VoiceFormer nutzen zwar visuelle Hinweise (Lippenbewegungen), benötigen aber während des Trennungsprozesses kontinuierlich visuelle Informationen. Die Leistung sinkt, wenn visuelle Daten verdeckt oder fehlend sind.

Forschungsmotivation

Dieser Artikel zielt darauf ab, die Vorteile von Audio- und Visualkonditionierungsmethoden zu kombinieren und gleichzeitig deren inhärente Herausforderungen zu vermeiden. Durch ein zweistufiges Design: Die Registrierungsphase kann multimodale Informationen nutzen, um robuste Sprecherdarstellungen zu generieren, während die Trennungsphase nur auf Audiodaten angewiesen ist, was die Recheneffizienz und Robustheit gegenüber Veränderungen visueller Informationen erhöht.

Kernbeiträge

  1. Multimodales Registrierungsnetz: Vorschlag eines Sprechereinbettungsnetzes, das Audio-, Audiovisual- und reine Visualeingaben verarbeiten kann, mit innovativer Unterstützung für die Generierung von Registrierungsvektoren aus stummem Video allein.
  2. Positive und negative Stichproben-Konditionierung: Einführung eines kontrastiven Lernmechanismus, der gleichzeitig positive (Zielsprecher) und negative (Nicht-Zielsprecher) Registrierungsvektoren nutzt.
  3. Vorteile der zweistufigen Architektur: Die Trennungsphase ist vollständig unabhängig von visuellen Informationen und löst die Einschränkungen traditioneller audiovisueller Methoden bei fehlenden visuellen Informationen.
  4. Leistungsverbesserung: Erreicht überlegene Leistung gegenüber bestehenden Methoden auf den Datensätzen LRS3 und LibriSpeech.

Methodische Details

Aufgabendefinition

Gegeben ist ein gemischtes Audiosignal, das den Zielsprecher, andere Sprecher und Umgebungsrauschen enthält. Das Ziel besteht darin, die Sprachkomponente des Zielsprechers mit spezifischen akustischen Merkmalen zu trennen und gleichzeitig konkurrierende Stimmen und Umgebungsrauschen herauszufiltern.

Modellarchitektur

1. Sprecherregistrierungsnetz

Audio-spezifisches Netz (Abbildung 1a):

  • Verwendet vortrainiertes ECAPA-TDNN-Modell als Sprechermerkmalsextraktor
  • Eingabe: Spektrogramm sauberer Audio S(f,t)=STFT(ac)S(f,t) = STFT(a_c)
  • Ausgabe: 192-dimensionaler Sprechereinbettungsvektor SacR192S_{ac} \in \mathbb{R}^{192}

Audiovisuelles Netz (Abbildung 1b):

  • Audio-Kodierung: EaRta×768E_a \in \mathbb{R}^{t_a \times 768}
  • Video-Kodierung (Lippenbewegungen): EvRtv×512E_v \in \mathbb{R}^{t_v \times 512}
  • Gesichtsbildkodierung: EfR128E_f \in \mathbb{R}^{128}
  • Merkmalsfusion: F(Ea,Ev,Ef)=(Ea;Ev;Ef)R(ta+tv+1)×768F(E_a, E_v, E_f) = (E_a; E_v; E_f) \in \mathbb{R}^{(t_a+t_v+1) \times 768}
  • Verarbeitung fusionierter Merkmale durch dreischichtigen Transformer-Encoder
  • Ausgabe: 192-dimensionaler Registrierungsvektor SavfR192S_{avf} \in \mathbb{R}^{192}

Reines Visualnetz (Abbildung 1b):

  • Nutzt nur visuelle Informationen (Lippenbewegungen und/oder Gesichtsbild)
  • Ausgabe: Svf=SpeakerExtractor(Transformer([Ev;Ef]))S_{vf} = \text{SpeakerExtractor}(\text{Transformer}([E_v; E_f]))

2. Sprechertrennnetz

  • Basierend auf VoiceFormer-Architektur mit Audio-Encoder-Decoder und Sprechereinbettungs-Encoder
  • Eingabe: Verrauschte Audiowellenform und mehrere positive und negative Registrierungsvektoren
  • Nutzt dreischichtigen Transformer-Encoder zur Fusion von Audio- und Sprecherkodierung
  • Verwendet Aufmerksamkeitsmechanismus, um Merkmale des Zielsprechers zu verstärken und Merkmale von Nicht-Zielsprechern zu unterdrücken
  • Skip-Verbindungen zwischen Encoder und Decoder bewahren niedrig- und hochstufige Informationen

Technische Innovationen

  1. Wissensdestillations-Trainingsstrategie: Das audiovisuelle Registrierungsnetz lernt durch Wissensdestillation, die Ausgabe des Audio-spezifischen Netzes nachzuahmen und Konsistenz zwischen verschiedenen Modalitäten zu gewährleisten.
  2. Multimodale Flexibilität: Unterstützt die Generierung von Registrierungsvektoren aus verschiedenen Modalitätskombinationen, einschließlich des innovativen reinen Visualmodus.
  3. Kontrastiver Lernmechanismus: Nutzt gleichzeitig positive und negative Stichproben für stärkere Sprecherdiskriminierungsfähigkeit.

Experimentelle Einrichtung

Datensätze

  • LRS3: Großflächiger audiovisueller Datensatz aus öffentlichen TEDx-Videos mit vielfältigen Sprechstilen und Themen
  • LibriSpeech: Großflächiger reiner Audio-Datensatz aus gemeinfrei verfügbaren Hörbüchern
  • Sprecher in Testmengen wurden während des Trainings nicht gesehen, um die Bewertung der Verallgemeinerungsfähigkeit zu gewährleisten

Bewertungsmetriken

  • SDR (Signal-to-Distortion Ratio): Misst die Qualität der Trennungsausgabe
  • STOI (Short-Time Objective Intelligibility): Quantifiziert die Signalverständlichkeit
  • PESQ (Perceptual Evaluation of Speech Quality): Spiegelt die vom Hörer wahrgenommene Bewertung wider

Vergleichsmethoden

  • Audio-Methoden: VoiceFilter
  • Audiovisuelle Methoden: Conversation, VisualVoice, VoiceFormer

Implementierungsdetails

  • Implementierung mit PyTorch
  • Videodaten: 25 FPS, Gesicht zugeschnitten auf Mundbereich des Sprechers
  • Audio: Mono, 16 kHz Abtastrate
  • Transformer: 3 Schichten, 8 Aufmerksamkeitsköpfe, Modelldimension 532
  • Trainingsdaten: 4-Sekunden-Audiofragmente mit zufälligem Zuschnitt und Datenerweiterung wie Geschwindigkeits-, Tonhöhen- und Dezibel-Anpassungen

Experimentelle Ergebnisse

Hauptergebnisse

Effekt positiver und negativer Einbettungsvektoren (Tabelle 1):

Konfiguration1P-0N1P-1N3P-2N3P-3N
SDR↑13,814,014,414,5

Die Ergebnisse zeigen, dass die Erhöhung der Anzahl positiver und negativer Registrierungsvektoren die Trennungsleistung verbessert.

Multimodale Vergleiche (Tabelle 2):

ModalitätAudioVisuellSDR↑STOI↑PESQ↑
Sauberes Audio14,4912,52
Sauberes Audio + Lippen14,5912,55
Verrauschtes Audio6,3581,82
Verrauschtes Audio + Lippen13,7882,45
Nur Lippenbewegungen11,1772,25
Lippen + Gesicht12,0802,35

Vergleich mit SOTA-Methoden (Tabelle 3):

MethodeDatensatzSDR↑STOI↑PESQ↑
VoiceFormerLRS314,4922,42
VoiceVectorLRS314,5912,52
VoiceFilterLibriSpeech12,6--
VoiceVectorLibriSpeech13,1892,12

Wichtigste Erkenntnisse

  1. Effektivität des reinen Visualmodus: Allein mit Lippenbewegungen kann eine Leistung von SDR 11,1 erreicht werden, was die Bedeutung visueller Informationen beweist.
  2. Rauschrobustheit: Bei Kombination mit visuellen Hinweisen verbessert sich die Leistung verrauschter Audio von SDR 6,3 deutlich auf 13,7.
  3. Datensatzübergreifende Verallgemeinerung: Übertrifft Baseline-Methoden auch auf dem nicht trainierten LibriSpeech-Datensatz.

Verwandte Arbeiten

Hauptforschungsrichtungen

  1. Multimodale Konditionierungsmethoden: Nutzung visueller Hinweise (hauptsächlich Lippenbewegungen) zur Anleitung der Trennung
  2. Sprecherspezifische Einbettungsmethoden: Generierung von Sprechereinbettungen aus sauberen Sprachproben zur Konditionierung

Vorteile dieses Artikels

  • Im Vergleich zu traditionellen audiovisuellen Methoden: Die Trennungsphase benötigt keine visuellen Informationen, was Robustheit und Recheneffizienz erhöht
  • Im Vergleich zu reinen Audio-Methoden: Bietet stärkere Sprecherdiskriminierungsfähigkeit durch multimodale Registrierungsvektoren
  • Einführung eines Negativstichproben-Mechanismus: Bietet bessere kontrastive Lerneffekte im Vergleich zu früheren Methoden, die nur positive Stichproben nutzen

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Die vorgeschlagene zweistufige Architektur kombiniert erfolgreich die Vorteile von Audio- und Visualkonditionierung
  2. Multimodale Registrierungsvektoren zeigen in verschiedenen Szenarien gute Leistung
  3. Der kontrastive Lernmechanismus mit positiven und negativen Stichproben verbessert die Trennungsleistung effektiv
  4. Erreicht überlegene Leistung gegenüber bestehenden Methoden auf Standarddatensätzen

Einschränkungen

  1. Abhängigkeit von synthetischen Daten: Hauptsächlich auf synthetischen gemischten Audiodaten trainiert und getestet, mit möglicher Domänendiskrepanz zu echten Rauschumgebungen
  2. Anforderungen an Visualqualität: Der reine Visualmodus benötigt immer noch klare Lippenbewegungsvideo
  3. Rechenkomplexität: Die zweistufige Architektur erhöht die Gesamtsystemkomplexität

Zukünftige Richtungen

  1. Validierung und Optimierung in echten Rauschumgebungen
  2. Erforschung der Fusion weiterer visueller Modalitäten (wie Gesten, Gesichtsausdrücke)
  3. Weitere Forschung zu End-to-End-Optimierungsstrategien

Tiefgreifende Bewertung

Stärken

  1. Starke technische Innovation: Erstmalige Umsetzung der reinen Visualmodalität für Sprecherregistrierung, eröffnet neue Richtungen in der visuellen Sprachverarbeitung
  2. Vernünftige Architekturgestaltung: Das zweistufige Design balanciert geschickt Leistung und Praktikabilität
  3. Umfassende Experimente: Umfassende Bewertung mit verschiedenen Modalitätskombinationen und Vergleichsmethoden
  4. Deutliche Leistungsverbesserung: Übertrifft bestehende SOTA-Methoden in mehreren Metriken

Mängel

  1. Unzureichende Validierung in echten Szenarien: Hauptsächlich auf synthetischen Daten basierend, fehlt Validierung in echten Rauschumgebungen
  2. Fehlende Recheneffizienzanalyse: Keine detaillierten Angaben zur Rechenkomplexität und Inferenzzeit
  3. Unzureichende Analyse von Fehlerfällen: Mangelnde tiefgreifende Analyse der Methodenlimitierungen

Auswirkungen

  1. Akademischer Wert: Bietet neue Forschungsideen für multimodale Sprechertrennung
  2. Praktischer Wert: Hat potenziellen Wert in praktischen Anwendungen wie Hörhilfen und Videokonferenzen
  3. Reproduzierbarkeit: Bietet detaillierte Implementierungsdetails, die Forschungsreproduzierbarkeit fördern

Anwendungsszenarien

  1. Videokonferenzsysteme: Nutzung visueller Informationen von Teilnehmern zur Sprechertrennung
  2. Intelligente Hörhilfen: Hervorhebung der Stimme des Zielsprechers in lauten Umgebungen
  3. Multimedia-Inhaltsverarbeitung: Extraktion der Stimme spezifischer Sprecher aus Audio-Video-Inhalten

Referenzen

Der Artikel zitiert wichtige Arbeiten im Bereich Sprechertrennung, einschließlich:

  • VoiceFilter-Serie: Trennungsmethoden basierend auf Sprechereinbettung
  • Looking to Listen, VoiceFormer: Repräsentative Arbeiten zur audiovisuellen Trennung
  • ECAPA-TDNN: Klassisches Modell zur Sprechererkennung
  • LRS3, LibriSpeech: Standarddatensätze für Sprachverarbeitung

Gesamtbewertung: Dies ist ein ausgezeichnetes Papier mit starker technischer Innovation und vernünftiger experimenteller Gestaltung. Durch geschicktes zweistufiges Architekturdesign und multimodale Fusionsstrategie erreicht es signifikante Leistungsverbesserungen bei der Sprechertrennung. Besonders die innovative Anwendung der reinen Visualmodalität eröffnet neue Forschungsrichtungen für dieses Gebiet. Obwohl es noch Raum für Verbesserungen bei der Validierung in echten Szenarien gibt, ist die Gesamtqualität der Arbeit hoch und hat wichtigen akademischen und praktischen Wert.