2025-11-15T14:19:11.467059

VoiceVector: Multimodal Enrolment Vectors for Speaker Separation

Rahimi, Afouras, Zisserman

We present a transformer-based architecture for voice separation of a target speaker from multiple other speakers and ambient noise. We achieve this by using two separate neural networks: (A) An enrolment network designed to craft speaker-specific embeddings, exploiting various combinations of audio and visual modalities; and (B) A separation network that accepts both the noisy signal and enrolment vectors as inputs, outputting the clean signal of the target speaker. The novelties are: (i) the enrolment vector can be produced from: audio only, audio-visual data (using lip movements) or visual data alone (using lip movements from silent video); and (ii) the flexibility in conditioning the separation on multiple positive and negative enrolment vectors. We compare with previous methods and obtain superior performance.

academic

VoiceVector: Multimodale Registrierungsvektoren zur Sprechertrennung

Grundinformationen

Papier-ID: 2501.01401
Titel: VoiceVector: Multimodale Registrierungsvektoren zur Sprechertrennung
Autoren: Akam Rahimi, Triantafyllos Afouras, Andrew Zisserman (VGG-Gruppe, Universität Oxford)
Klassifizierung: eess.AS (Elektrotechnik und Systemwissenschaften – Audio- und Sprachverarbeitung)
Veröffentlichungsdatum: 2. Januar 2025 (arXiv-Preprint)
Papierlink: https://arxiv.org/abs/2501.01401

Zusammenfassung

In diesem Artikel wird eine auf Transformer basierende Architektur vorgestellt, um die Stimme eines Zielsprechers aus mehreren Sprechern und Umgebungsrauschen zu trennen. Das Verfahren nutzt zwei unabhängige neuronale Netze: (A) ein Registrierungsnetz, das verschiedene Kombinationen von Audio- und Visualmodalitäten nutzt, um sprecherspezifische Einbettungsvektoren zu generieren; (B) ein Trennungsnetz, das verrauschte Signale und Registrierungsvektoren als Eingabe akzeptiert und das saubere Signal des Zielsprechers ausgibt. Die wichtigsten Innovationen umfassen: (i) Registrierungsvektoren können aus reinen Audiodaten, audiovisuellen Daten (unter Verwendung von Lippenbewegungen) oder reinen Visualdaten (unter Verwendung von Lippenbewegungen aus stummem Video) generiert werden; (ii) Flexibilität bei der Verwendung mehrerer positiver und negativer Registrierungsvektoren während des Trennungsprozesses.

Forschungshintergrund und Motivation

Problemdefinition

Sprechertrennung ist eine Kernherausforderung in der Audioverarbeitung, besonders in lauten Umgebungen und Szenarien mit mehreren Sprechern. Bestehende Anwendungen wie Hörhilfen, sprachaktivierte Systeme und Videokonferenzen sind stark von der Leistung der Sprechertrennung abhängig.

Einschränkungen bestehender Methoden

Audio-Einbettungs-basierte Methoden: Methoden wie VoiceFilter sind auf saubere, rauschfreie Audiodaten angewiesen, um Sprechereinbettungen zu generieren, was in praktischen Rauschumgebungen schwierig zu erreichen ist.
Audiovisuelle Methoden: Methoden wie Looking to Listen und VoiceFormer nutzen zwar visuelle Hinweise (Lippenbewegungen), benötigen aber während des Trennungsprozesses kontinuierlich visuelle Informationen. Die Leistung sinkt, wenn visuelle Daten verdeckt oder fehlend sind.

Forschungsmotivation

Dieser Artikel zielt darauf ab, die Vorteile von Audio- und Visualkonditionierungsmethoden zu kombinieren und gleichzeitig deren inhärente Herausforderungen zu vermeiden. Durch ein zweistufiges Design: Die Registrierungsphase kann multimodale Informationen nutzen, um robuste Sprecherdarstellungen zu generieren, während die Trennungsphase nur auf Audiodaten angewiesen ist, was die Recheneffizienz und Robustheit gegenüber Veränderungen visueller Informationen erhöht.

Kernbeiträge

Multimodales Registrierungsnetz: Vorschlag eines Sprechereinbettungsnetzes, das Audio-, Audiovisual- und reine Visualeingaben verarbeiten kann, mit innovativer Unterstützung für die Generierung von Registrierungsvektoren aus stummem Video allein.
Positive und negative Stichproben-Konditionierung: Einführung eines kontrastiven Lernmechanismus, der gleichzeitig positive (Zielsprecher) und negative (Nicht-Zielsprecher) Registrierungsvektoren nutzt.
Vorteile der zweistufigen Architektur: Die Trennungsphase ist vollständig unabhängig von visuellen Informationen und löst die Einschränkungen traditioneller audiovisueller Methoden bei fehlenden visuellen Informationen.
Leistungsverbesserung: Erreicht überlegene Leistung gegenüber bestehenden Methoden auf den Datensätzen LRS3 und LibriSpeech.

Methodische Details

Aufgabendefinition

Gegeben ist ein gemischtes Audiosignal, das den Zielsprecher, andere Sprecher und Umgebungsrauschen enthält. Das Ziel besteht darin, die Sprachkomponente des Zielsprechers mit spezifischen akustischen Merkmalen zu trennen und gleichzeitig konkurrierende Stimmen und Umgebungsrauschen herauszufiltern.

Modellarchitektur

1. Sprecherregistrierungsnetz

Audio-spezifisches Netz (Abbildung 1a):

Verwendet vortrainiertes ECAPA-TDNN-Modell als Sprechermerkmalsextraktor
Eingabe: Spektrogramm sauberer Audio $S(f,t) = STFT(a_c)$
Ausgabe: 192-dimensionaler Sprechereinbettungsvektor $S_{ac} \in \mathbb{R}^{192}$

Audiovisuelles Netz (Abbildung 1b):

Audio-Kodierung: $E_a \in \mathbb{R}^{t_a \times 768}$
Video-Kodierung (Lippenbewegungen): $E_v \in \mathbb{R}^{t_v \times 512}$
Gesichtsbildkodierung: $E_f \in \mathbb{R}^{128}$
Merkmalsfusion: $F(E_a, E_v, E_f) = (E_a; E_v; E_f) \in \mathbb{R}^{(t_a+t_v+1) \times 768}$
Verarbeitung fusionierter Merkmale durch dreischichtigen Transformer-Encoder
Ausgabe: 192-dimensionaler Registrierungsvektor $S_{avf} \in \mathbb{R}^{192}$

Reines Visualnetz (Abbildung 1b):

Nutzt nur visuelle Informationen (Lippenbewegungen und/oder Gesichtsbild)
Ausgabe: $S_{vf} = \text{SpeakerExtractor}(\text{Transformer}([E_v; E_f]))$

2. Sprechertrennnetz

Basierend auf VoiceFormer-Architektur mit Audio-Encoder-Decoder und Sprechereinbettungs-Encoder
Eingabe: Verrauschte Audiowellenform und mehrere positive und negative Registrierungsvektoren
Nutzt dreischichtigen Transformer-Encoder zur Fusion von Audio- und Sprecherkodierung
Verwendet Aufmerksamkeitsmechanismus, um Merkmale des Zielsprechers zu verstärken und Merkmale von Nicht-Zielsprechern zu unterdrücken
Skip-Verbindungen zwischen Encoder und Decoder bewahren niedrig- und hochstufige Informationen

Technische Innovationen

Wissensdestillations-Trainingsstrategie: Das audiovisuelle Registrierungsnetz lernt durch Wissensdestillation, die Ausgabe des Audio-spezifischen Netzes nachzuahmen und Konsistenz zwischen verschiedenen Modalitäten zu gewährleisten.
Multimodale Flexibilität: Unterstützt die Generierung von Registrierungsvektoren aus verschiedenen Modalitätskombinationen, einschließlich des innovativen reinen Visualmodus.
Kontrastiver Lernmechanismus: Nutzt gleichzeitig positive und negative Stichproben für stärkere Sprecherdiskriminierungsfähigkeit.

Experimentelle Einrichtung

Datensätze

LRS3: Großflächiger audiovisueller Datensatz aus öffentlichen TEDx-Videos mit vielfältigen Sprechstilen und Themen
LibriSpeech: Großflächiger reiner Audio-Datensatz aus gemeinfrei verfügbaren Hörbüchern
Sprecher in Testmengen wurden während des Trainings nicht gesehen, um die Bewertung der Verallgemeinerungsfähigkeit zu gewährleisten

Bewertungsmetriken

SDR (Signal-to-Distortion Ratio): Misst die Qualität der Trennungsausgabe
STOI (Short-Time Objective Intelligibility): Quantifiziert die Signalverständlichkeit
PESQ (Perceptual Evaluation of Speech Quality): Spiegelt die vom Hörer wahrgenommene Bewertung wider

Vergleichsmethoden

Audio-Methoden: VoiceFilter
Audiovisuelle Methoden: Conversation, VisualVoice, VoiceFormer

Implementierungsdetails

Implementierung mit PyTorch
Videodaten: 25 FPS, Gesicht zugeschnitten auf Mundbereich des Sprechers
Audio: Mono, 16 kHz Abtastrate
Transformer: 3 Schichten, 8 Aufmerksamkeitsköpfe, Modelldimension 532
Trainingsdaten: 4-Sekunden-Audiofragmente mit zufälligem Zuschnitt und Datenerweiterung wie Geschwindigkeits-, Tonhöhen- und Dezibel-Anpassungen

Experimentelle Ergebnisse

Hauptergebnisse

Effekt positiver und negativer Einbettungsvektoren (Tabelle 1):

Konfiguration	1P-0N	1P-1N	3P-2N	3P-3N
SDR↑	13,8	14,0	14,4	14,5

Die Ergebnisse zeigen, dass die Erhöhung der Anzahl positiver und negativer Registrierungsvektoren die Trennungsleistung verbessert.

Multimodale Vergleiche (Tabelle 2):

Modalität	Audio	Visuell	SDR↑	STOI↑	PESQ↑
Sauberes Audio	✓	✗	14,4	91	2,52
Sauberes Audio + Lippen	✓	✓	14,5	91	2,55
Verrauschtes Audio	✓	✗	6,3	58	1,82
Verrauschtes Audio + Lippen	✓	✓	13,7	88	2,45
Nur Lippenbewegungen	✗	✓	11,1	77	2,25
Lippen + Gesicht	✗	✓	12,0	80	2,35

Vergleich mit SOTA-Methoden (Tabelle 3):

Methode	Datensatz	SDR↑	STOI↑	PESQ↑
VoiceFormer	LRS3	14,4	92	2,42
VoiceVector	LRS3	14,5	91	2,52
VoiceFilter	LibriSpeech	12,6	-	-
VoiceVector	LibriSpeech	13,1	89	2,12

Wichtigste Erkenntnisse

Effektivität des reinen Visualmodus: Allein mit Lippenbewegungen kann eine Leistung von SDR 11,1 erreicht werden, was die Bedeutung visueller Informationen beweist.
Rauschrobustheit: Bei Kombination mit visuellen Hinweisen verbessert sich die Leistung verrauschter Audio von SDR 6,3 deutlich auf 13,7.
Datensatzübergreifende Verallgemeinerung: Übertrifft Baseline-Methoden auch auf dem nicht trainierten LibriSpeech-Datensatz.

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Die vorgeschlagene zweistufige Architektur kombiniert erfolgreich die Vorteile von Audio- und Visualkonditionierung
Multimodale Registrierungsvektoren zeigen in verschiedenen Szenarien gute Leistung
Der kontrastive Lernmechanismus mit positiven und negativen Stichproben verbessert die Trennungsleistung effektiv
Erreicht überlegene Leistung gegenüber bestehenden Methoden auf Standarddatensätzen

Einschränkungen

Abhängigkeit von synthetischen Daten: Hauptsächlich auf synthetischen gemischten Audiodaten trainiert und getestet, mit möglicher Domänendiskrepanz zu echten Rauschumgebungen
Anforderungen an Visualqualität: Der reine Visualmodus benötigt immer noch klare Lippenbewegungsvideo
Rechenkomplexität: Die zweistufige Architektur erhöht die Gesamtsystemkomplexität

Zukünftige Richtungen

Validierung und Optimierung in echten Rauschumgebungen
Erforschung der Fusion weiterer visueller Modalitäten (wie Gesten, Gesichtsausdrücke)
Weitere Forschung zu End-to-End-Optimierungsstrategien

Tiefgreifende Bewertung

Stärken

Starke technische Innovation: Erstmalige Umsetzung der reinen Visualmodalität für Sprecherregistrierung, eröffnet neue Richtungen in der visuellen Sprachverarbeitung
Vernünftige Architekturgestaltung: Das zweistufige Design balanciert geschickt Leistung und Praktikabilität
Umfassende Experimente: Umfassende Bewertung mit verschiedenen Modalitätskombinationen und Vergleichsmethoden
Deutliche Leistungsverbesserung: Übertrifft bestehende SOTA-Methoden in mehreren Metriken

Mängel

Unzureichende Validierung in echten Szenarien: Hauptsächlich auf synthetischen Daten basierend, fehlt Validierung in echten Rauschumgebungen
Fehlende Recheneffizienzanalyse: Keine detaillierten Angaben zur Rechenkomplexität und Inferenzzeit
Unzureichende Analyse von Fehlerfällen: Mangelnde tiefgreifende Analyse der Methodenlimitierungen

Auswirkungen

Akademischer Wert: Bietet neue Forschungsideen für multimodale Sprechertrennung
Praktischer Wert: Hat potenziellen Wert in praktischen Anwendungen wie Hörhilfen und Videokonferenzen
Reproduzierbarkeit: Bietet detaillierte Implementierungsdetails, die Forschungsreproduzierbarkeit fördern

Anwendungsszenarien

Videokonferenzsysteme: Nutzung visueller Informationen von Teilnehmern zur Sprechertrennung
Intelligente Hörhilfen: Hervorhebung der Stimme des Zielsprechers in lauten Umgebungen
Multimedia-Inhaltsverarbeitung: Extraktion der Stimme spezifischer Sprecher aus Audio-Video-Inhalten

Referenzen

Der Artikel zitiert wichtige Arbeiten im Bereich Sprechertrennung, einschließlich:

VoiceFilter-Serie: Trennungsmethoden basierend auf Sprechereinbettung
Looking to Listen, VoiceFormer: Repräsentative Arbeiten zur audiovisuellen Trennung
ECAPA-TDNN: Klassisches Modell zur Sprechererkennung
LRS3, LibriSpeech: Standarddatensätze für Sprachverarbeitung

Gesamtbewertung: Dies ist ein ausgezeichnetes Papier mit starker technischer Innovation und vernünftiger experimenteller Gestaltung. Durch geschicktes zweistufiges Architekturdesign und multimodale Fusionsstrategie erreicht es signifikante Leistungsverbesserungen bei der Sprechertrennung. Besonders die innovative Anwendung der reinen Visualmodalität eröffnet neue Forschungsrichtungen für dieses Gebiet. Obwohl es noch Raum für Verbesserungen bei der Validierung in echten Szenarien gibt, ist die Gesamtqualität der Arbeit hoch und hat wichtigen akademischen und praktischen Wert.